Le problème que résout le RAG

Parcours : Data, RAG & Vector Databases · Avancé

1/7

Étape 1 / 7

≈ 15 min

Contexte

Pourquoi un LLM seul ne suffit pas pour répondre sur vos documents internes.

Au programme de ce module

01Contexte≈ 15 min
02Explication≈ 30 min
03Démonstration≈ 30 min
04Use Case≈ 25 min
05Case Study≈ 25 min
06Exercice≈ 35 min
07Quiz≈ 5 min

Un grand modèle de langage ne connaît que ce qu’il a vu pendant son entraînement. Il ignore vos contrats, vos procédures internes, vos comptes-rendus de la semaine dernière. Lui poser une question sur ce corpus privé l’expose à inventer une réponse plausible mais fausse.

Trois limites structurelles expliquent ce constat. D’abord la date de coupure des connaissances (knowledge cutoff) : tout ce qui est postérieur à l’entraînement n’existe pas pour le modèle. Ensuite la confidentialité : vos documents internes n’ont jamais fait partie des données d’entraînement — et ne doivent pas en faire partie. Enfin la traçabilité : une réponse « de mémoire » ne cite aucune source, donc personne ne peut la vérifier.

Fil rouge du parcours : « Méridienne », une ETI fictive de 600 personnes (éditeur de logiciels), veut un assistant capable de répondre sur trois corpus internes — articles de support, procédures RH, contrats clients. Chaque module fera avancer ce chantier d’un cran.

Objectif du module

À la fin, vous saurez expliquer ce qu’est le RAG (Retrieval-Augmented Generation) et pourquoi il relie un modèle génératif à une base documentaire — et choisir, cas par cas, entre RAG, fine-tuning et long-contexte.

Objectifs d'apprentissage

À l’issue de ce module, vous saurez *Comprendre* le « pourquoi » du RAG (fraîcheur, confidentialité, ancrage), *Distinguer* RAG, fine-tuning (ajustement fin du modèle) et long-contexte, *Analyser* si un cas d’usage interne est candidat au RAG, et *Évaluer* les coûts comparés des trois approches.