Aperçu module
Aperçu limité — 3 premières étapes

Pipeline RAG : de l’ingestion à la génération (sprint)

Parcours : Data, RAG & Vector Databases · Avancé

Pipeline RAG : de l’ingestion à la génération (sprint)
1/7
Étape 1 / 7

15 min

Contexte

Un RAG n’est pas un appel API : c’est une chaîne de six maillons.

Au programme de ce module

  1. 01Contexte15 min
  2. 02Explication35 min
  3. 03Démonstration35 min
  4. 04Use Case30 min
  5. 05Case Study30 min
  6. 06Exercice35 min
  7. 07Quiz5 min

Un RAG en production n’est pas « un appel au modèle » : c’est une chaîne de six maillons — ingestion, découpage, indexation, récupération, ré-ranking, génération. La qualité finale est celle du maillon le plus faible : un document mal extrait ou un découpage brutal ruinent la meilleure génération du monde.

Indexer un document de 50 pages comme un seul bloc rend la récupération imprécise : on récupère tout, dont 90 % d’hors-sujet. On découpe donc le corpus en « chunks » (morceaux) plus petits, chacun indexé séparément, pour ne remonter que les passages réellement pertinents. Ce module est un sprint : on construit le pipeline complet, maillon par maillon, jusqu’à un RAG minimal qui tourne sur 10 documents.

Objectifs d'apprentissage

À l’issue de ce module, vous saurez *Comprendre* les six étapes du pipeline RAG, *Appliquer* trois stratégies de chunking (taille fixe, par section, par frontière sémantique), *Analyser* un échec en localisant le maillon fautif (rappel vs précision), et *Créer* un RAG minimal de bout en bout sur 10 documents.