Red-teaming des modèles

Parcours : IA Safety & alignement · Avancé

1/7

Étape 1 / 7

≈ 5 min

Contexte

Pourquoi attaquer son propre modèle avant que d'autres ne le fassent.

Photo à shooterIllustration — Contexte

Le red-teaming consiste à éprouver délibérément un système d'IA pour découvrir ses failles avant un usage réel. C'est une démarche offensive et contrôlée : on cherche activement à faire échouer le modèle plutôt qu'à confirmer qu'il marche.