Aperçu module
Aperçu limité — 3 premières étapes

Découpage (chunking) du corpus

Parcours : RAG & bases de connaissances · Avancé

1/7
Étape 1 / 7

5 min

Contexte

Pourquoi on ne stocke pas des documents entiers mais des morceaux.

Indexer un document de 50 pages comme un seul bloc rend la récupération imprécise : on récupère tout, dont 90 % d’hors-sujet. On découpe donc le corpus en « chunks » (morceaux) plus petits, chacun indexé séparément, pour ne remonter que les passages réellement pertinents.