Jailbreaks & prompt injection

Parcours : IA Safety & alignement · Avancé

1/7

Étape 1 / 7

≈ 5 min

Contexte

Pourquoi les garde-fous d'un modèle peuvent être contournés.

Photo à shooterIllustration — Contexte

Les garde-fous d'un LLM sont appris, pas codés en dur. Un attaquant peut donc tenter de les contourner par des formulations qui « sortent » le modèle de son cadre : c'est le jailbreak. Plus subtil, l'injection de prompt glisse des instructions hostiles dans des données que le modèle traite comme du contenu légitime.