Aperçu module
Aperçu limité — 3 premières étapes

Alignement : RLHF & Constitutional AI

Parcours : Sécurité IA & Red Teaming · Avancé

Alignement : RLHF & Constitutional AI
1/7
Étape 1 / 7

6 min

Contexte

Pourquoi un modèle brut doit être « aligné » sur les intentions humaines.

Au programme de ce module

  1. 01Contexte6 min
  2. 02Explication9 min
  3. 03Démonstration6 min
  4. 04Use Case6 min
  5. 05Case Study6 min
  6. 06Exercice6 min
  7. 07Quiz5 min

Un modèle pré-entraîné prédit du texte mais n'a aucune notion de ce qui est utile, honnête ou inoffensif. L'alignement est l'ensemble des techniques qui orientent son comportement vers les intentions humaines : être serviable, ne pas tromper, refuser le dangereux.

Objectifs d'apprentissage

À l'issue de ce module, vous saurez *Comprendre* l'objectif d'alignement « helpful, honest, harmless », *Distinguer* RLHF (préférences humaines apprises) et Constitutional AI (principes écrits + auto-critique), et *Évaluer* le compromis utilité / refus dans votre cas d'usage.