Guide technique · ETI françaises

RAG on-premise.
Architecture qui tient.

Retrieval Augmented Generation est la technique la plus efficace pour ancrer un agent IA dans vos données métier sans fine-tuning. Comment l'architecturer en on-premise : pgvector ou Qdrant, embeddings, ré-ranking, monitoring. Recette terrain Validix.

Auditer mon RAG

Le RAG (Retrieval Augmented Generation) consiste à : 1) indexer vos documents (contrats, mails, docs internes) dans une base vectorielle, 2) au moment d'une question utilisateur, retrouver les passages pertinents par similarité sémantique, 3) injecter ces passages dans le contexte du LLM avant de générer la réponse.

Avantages vs fine-tuning : mise à jour des connaissances en temps réel (ajouter un doc = ajouter à la base vectorielle, pas re-FT), traçabilité (on sait exactement quels passages ont été utilisés), conformité RGPD plus simple (effacement = supprimer les vecteurs). C'est dans 70-80 % des cas la bonne approche.

Quel store vectoriel choisir ?

Critère
pgvector
Qdrant
Type
Extension PostgreSQL
Vector DB dédié
Idéal pour
ETI déjà sur Postgres
Projets vector-first, gros volumes
Volume max recommandé
10-50 M vecteurs
100M+ vecteurs
Performance recherche
Bonne (HNSW depuis pg 16)
Excellente (Rust, optimisations dédiées)
Hybrid search (vectoriel + keyword)
Avec extension pg_search ou tsvector
Natif
Filtres métadonnées
SQL full power
Native, optimisé
Setup
Très simple (Postgres existant)
Container Docker
Recommandation Validix
Volume modeste, équipe Postgres
Volume important, projet stratégique

Quel modèle pour vectoriser.

BGE-M3 (BAAI)
Multilingue, dense + sparse + multi-vector. Notre choix par défaut. ~1 GB, déployable sur 1× L4.
E5-Mistral 7B
Très haute qualité, plus gros (16 GB GPU). Pour les projets premium.
Mxbai Embed Large
Bon compromis qualité/taille (1.3 GB). Spécialiste anglais.
Mistral Embed
API Mistral, simple si déjà sur La Plateforme Mistral.
Recommandation FR
BGE-M3 par défaut. E5-Mistral si volume modeste et qualité critique.
Dimension
BGE-M3 : 1024. Compatible avec pgvector et Qdrant.
Coût indexation
Pour 1M de chunks de 500 tokens : ~6h sur 1× L4, coût coût négligeable.

Au-delà du RAG basique.

Pattern 01

Ré-ranking

Récupérer top 50 par similarité vectorielle, puis ré-ranker avec un cross-encoder (BGE-Reranker, Cohere Rerank). +15-25 % de pertinence dans nos benchmarks. Coût : +200-400 ms latence.

Pattern 02

Hybrid search

Combiner recherche vectorielle (sémantique) et BM25/keyword (lexical). Permet de gérer les termes techniques précis (références produits, codes-barres) que les embeddings comprennent mal. +10-20 % de rappel.

Pattern 03

Chunking intelligent

Pas "500 tokens" aveugle. Découpage par section sémantique (paragraphes, titres), avec overlap 10-20 %. Métadonnées riches (titre, page, date) pour filtrer.

Pattern 04

Self-RAG

Le LLM décide lui-même s'il a besoin de chercher (vs répondre directement) et évalue si les passages retrouvés sont pertinents. Réduit les hallucinations. Hermes 4 et Mistral Large 2 supportent bien ce pattern.

Combien coûte une infra RAG on-prem pour 1M de documents ?
Hardware : 1× L4 24 GB (embeddings + reranker) + serveur Postgres ou Qdrant (peut tourner sur le même serveur que les modèles LLM). Total : sur devis matériel. Ops : 0,2 ETP en routine. Coût annuel récurrent : 5-10 K€.
RAG vs fine-tuning : comment trancher ?
RAG par défaut. Fine-tuning si : (1) vous avez un style ou terminologie très spécifique, (2) vous voulez réduire les coûts d'inférence en utilisant un modèle plus petit, (3) le RAG ne suffit pas (cas rare, à valider par audit). Voir guide FT.
Combien de chunks max par requête envoyer au LLM ?
Top 5-10 chunks de 500 tokens en moyenne. Au-delà, le contexte devient bruyant et la qualité baisse ("lost in the middle"). Privilégier la qualité du ré-ranking à la quantité.
Comment gérer les mises à jour de documents ?
Soit re-vectorisation périodique (cron quotidien ou hebdo selon volume), soit indexation événementielle (webhooks depuis votre CMS, base documentaire). Validix recommande l'événementiel : data toujours fraîche, pas de batch overnight à risque.
Qdrant Cloud est-il une option pour un RAG souverain ?
Qdrant Cloud propose un hébergement EU mais reste un SaaS. Pour data sensible : self-hosting Qdrant en on-prem ou cloud souverain (OVH, Scaleway). Image Docker fournie, mise en place en 1-2 jours.