Bases vectorielles : Pinecone, Qdrant, Weaviate, pgvector

Parcours : Data, RAG & Vector Databases · Avancé

1/7

Étape 1 / 7

≈ 15 min

Contexte

Pourquoi il faut une base spécialisée pour stocker des vecteurs.

Au programme de ce module

01Contexte≈ 15 min
02Explication≈ 35 min
03Démonstration≈ 30 min
04Use Case≈ 25 min
05Case Study≈ 25 min
06Exercice≈ 35 min
07Quiz≈ 5 min

Une fois chaque chunk transformé en embedding, il faut pouvoir retrouver très vite les vecteurs les plus proches d’une question, parfois parmi des millions. C’est le rôle du « vector store » (base vectorielle), conçu pour la recherche par similarité à grande échelle.

Comparer la question à CHAQUE vecteur un par un devient vite trop lent. Les bases vectorielles s’appuient sur des index approximatifs — ANN (approximate nearest neighbors, plus proches voisins approchés), dont le plus répandu est HNSW — qui retrouvent « presque toujours » les bons voisins en une fraction du temps. Un compromis exactitude/vitesse assumé et paramétrable.

Objectifs d'apprentissage

À l’issue de ce module, vous saurez *Comprendre* le rôle d’un vector store, *Comparer* Pinecone, Qdrant, Weaviate et pgvector (dont le critère souveraineté/hébergement UE), *Appliquer* un filtrage par métadonnées pour cloisonner les habilitations, et *Créer* un index pgvector requêtable en SQL.