Évaluation et monitoring d’un RAG en production
Parcours : Data, RAG & Vector Databases · Avancé

≈ 15 min
Contexte
Pourquoi un RAG « qui répond » n’est pas forcément un RAG fiable.
Au programme de ce module
- 01Contexte≈ 15 min
- 02Explication≈ 35 min
- 03Démonstration≈ 30 min
- 04Use Case≈ 25 min
- 05Case Study≈ 30 min
- 06Exercice≈ 35 min
- 07Quiz≈ 5 min

Un système RAG peut produire des réponses fluides… et fausses, ou non fondées sur les sources fournies. Avant de le mettre en production sur un corpus interne, il faut l’évaluer méthodiquement : mesure-t-on ce qu’on croit mesurer ?
Et après la mise en production s’ajoute un second défi : la dérive (drift). Le corpus vieillit, les questions des utilisateurs évoluent, un changement anodin du pipeline dégrade un score — le tout EN SILENCE si personne ne mesure. Évaluer une fois ne suffit pas : il faut mesurer en continu.
Objectifs d'apprentissage
À l’issue de ce module, vous saurez *Comprendre* les trois axes de mesure (fidélité/ancrage, pertinence, exactitude) et la notion de dérive, *Créer* un jeu d’évaluation rejouable à partir de votre corpus, *Évaluer* la qualité d’un RAG sur preuve chiffrée plutôt qu’à l’intuition, et *Analyser* une dégradation en production pour en trouver la cause.