Aperçu module
Aperçu limité — 3 premières étapesJailbreaks & prompt injection
Parcours : IA Safety & alignement · Avancé
1/7
Étape 1 / 7
≈ 5 min
Contexte
Pourquoi les garde-fous d'un modèle peuvent être contournés.
Photo à shooterIllustration — Contexte
Les garde-fous d'un LLM sont appris, pas codés en dur. Un attaquant peut donc tenter de les contourner par des formulations qui « sortent » le modèle de son cadre : c'est le jailbreak. Plus subtil, l'injection de prompt glisse des instructions hostiles dans des données que le modèle traite comme du contenu légitime.