Jailbreaks & prompt injection
Parcours : Sécurité IA & Red Teaming · Avancé

≈ 6 min
Contexte
Pourquoi les garde-fous d'un modèle peuvent être contournés.
Au programme de ce module
- 01Contexte≈ 6 min
- 02Explication≈ 9 min
- 03Démonstration≈ 6 min
- 04Use Case≈ 6 min
- 05Case Study≈ 6 min
- 06Exercice≈ 6 min
- 07Quiz≈ 5 min

Les garde-fous d'un LLM sont appris, pas codés en dur. Un attaquant peut donc tenter de les contourner par des formulations qui « sortent » le modèle de son cadre : c'est le jailbreak. Plus subtil, l'injection de prompt glisse des instructions hostiles dans des données que le modèle traite comme du contenu légitime.
Objectifs d'apprentissage
À l'issue de ce module, vous saurez *Distinguer* jailbreak (entrée utilisateur) et injection (donnée tierce, directe ou indirecte), *Analyser* la surface d'attaque d'un agent par source de données, et *Concevoir* une défense en profondeur (séparation, moindre privilège, validation humaine).