Aperçu module
Aperçu limité — 3 premières étapes

Jailbreaks & prompt injection

Parcours : IA Safety & alignement · Avancé

1/7
Étape 1 / 7

5 min

Contexte

Pourquoi les garde-fous d'un modèle peuvent être contournés.

Les garde-fous d'un LLM sont appris, pas codés en dur. Un attaquant peut donc tenter de les contourner par des formulations qui « sortent » le modèle de son cadre : c'est le jailbreak. Plus subtil, l'injection de prompt glisse des instructions hostiles dans des données que le modèle traite comme du contenu légitime.