Alignement : RLHF & Constitutional AI

Parcours : Sécurité IA & Red Teaming · Avancé

1/7

Étape 1 / 7

≈ 6 min

Contexte

Pourquoi un modèle brut doit être « aligné » sur les intentions humaines.

Au programme de ce module

01Contexte≈ 6 min
02Explication≈ 9 min
03Démonstration≈ 6 min
04Use Case≈ 6 min
05Case Study≈ 6 min
06Exercice≈ 6 min
07Quiz≈ 5 min

Un modèle pré-entraîné prédit du texte mais n'a aucune notion de ce qui est utile, honnête ou inoffensif. L'alignement est l'ensemble des techniques qui orientent son comportement vers les intentions humaines : être serviable, ne pas tromper, refuser le dangereux.

Objectifs d'apprentissage

À l'issue de ce module, vous saurez *Comprendre* l'objectif d'alignement « helpful, honest, harmless », *Distinguer* RLHF (préférences humaines apprises) et Constitutional AI (principes écrits + auto-critique), et *Évaluer* le compromis utilité / refus dans votre cas d'usage.