Jailbreaks & prompt injection

Parcours : Sécurité IA & Red Teaming · Avancé

1/7

Étape 1 / 7

≈ 6 min

Contexte

Pourquoi les garde-fous d'un modèle peuvent être contournés.

Au programme de ce module

01Contexte≈ 6 min
02Explication≈ 9 min
03Démonstration≈ 6 min
04Use Case≈ 6 min
05Case Study≈ 6 min
06Exercice≈ 6 min
07Quiz≈ 5 min

Les garde-fous d'un LLM sont appris, pas codés en dur. Un attaquant peut donc tenter de les contourner par des formulations qui « sortent » le modèle de son cadre : c'est le jailbreak. Plus subtil, l'injection de prompt glisse des instructions hostiles dans des données que le modèle traite comme du contenu légitime.

Objectifs d'apprentissage

À l'issue de ce module, vous saurez *Distinguer* jailbreak (entrée utilisateur) et injection (donnée tierce, directe ou indirecte), *Analyser* la surface d'attaque d'un agent par source de données, et *Concevoir* une défense en profondeur (séparation, moindre privilège, validation humaine).