Alignement : RLHF & Constitutional AI
Parcours : Sécurité IA & Red Teaming · Avancé

≈ 6 min
Contexte
Pourquoi un modèle brut doit être « aligné » sur les intentions humaines.
Au programme de ce module
- 01Contexte≈ 6 min
- 02Explication≈ 9 min
- 03Démonstration≈ 6 min
- 04Use Case≈ 6 min
- 05Case Study≈ 6 min
- 06Exercice≈ 6 min
- 07Quiz≈ 5 min

Un modèle pré-entraîné prédit du texte mais n'a aucune notion de ce qui est utile, honnête ou inoffensif. L'alignement est l'ensemble des techniques qui orientent son comportement vers les intentions humaines : être serviable, ne pas tromper, refuser le dangereux.
Objectifs d'apprentissage
À l'issue de ce module, vous saurez *Comprendre* l'objectif d'alignement « helpful, honest, harmless », *Distinguer* RLHF (préférences humaines apprises) et Constitutional AI (principes écrits + auto-critique), et *Évaluer* le compromis utilité / refus dans votre cas d'usage.