Évaluation et monitoring d’un RAG en production

Parcours : Data, RAG & Vector Databases · Avancé

1/7

Étape 1 / 7

≈ 15 min

Contexte

Pourquoi un RAG « qui répond » n’est pas forcément un RAG fiable.

Au programme de ce module

01Contexte≈ 15 min
02Explication≈ 35 min
03Démonstration≈ 30 min
04Use Case≈ 25 min
05Case Study≈ 30 min
06Exercice≈ 35 min
07Quiz≈ 5 min

Un système RAG peut produire des réponses fluides… et fausses, ou non fondées sur les sources fournies. Avant de le mettre en production sur un corpus interne, il faut l’évaluer méthodiquement : mesure-t-on ce qu’on croit mesurer ?

Et après la mise en production s’ajoute un second défi : la dérive (drift). Le corpus vieillit, les questions des utilisateurs évoluent, un changement anodin du pipeline dégrade un score — le tout EN SILENCE si personne ne mesure. Évaluer une fois ne suffit pas : il faut mesurer en continu.

Objectifs d'apprentissage

À l’issue de ce module, vous saurez *Comprendre* les trois axes de mesure (fidélité/ancrage, pertinence, exactitude) et la notion de dérive, *Créer* un jeu d’évaluation rejouable à partir de votre corpus, *Évaluer* la qualité d’un RAG sur preuve chiffrée plutôt qu’à l’intuition, et *Analyser* une dégradation en production pour en trouver la cause.