Guide technique · ETI françaises

RAG on-premise.
Architecture qui tient.

Retrieval Augmented Generation est la technique la plus efficace pour ancrer un agent IA dans vos données métier sans fine-tuning. Comment l'architecturer en on-premise : pgvector ou Qdrant, embeddings, ré-ranking, monitoring. Recette terrain Validix.

Auditer mon RAG→

01 / RAG en 2 minutes

Le RAG (Retrieval Augmented Generation) consiste à : 1) indexer vos documents (contrats, mails, docs internes) dans une base vectorielle, 2) au moment d'une question utilisateur, retrouver les passages pertinents par similarité sémantique, 3) injecter ces passages dans le contexte du LLM avant de générer la réponse.

Avantages vs fine-tuning : mise à jour des connaissances en temps réel (ajouter un doc = ajouter à la base vectorielle, pas re-FT), traçabilité (on sait exactement quels passages ont été utilisés), conformité RGPD plus simple (effacement = supprimer les vecteurs). C'est dans 70-80 % des cas la bonne approche.

02 / pgvector vs Qdrant

Quel store vectoriel choisir ?

Critère

pgvector

Qdrant

Type

Extension PostgreSQL

Vector DB dédié

Idéal pour

ETI déjà sur Postgres

Projets vector-first, gros volumes

Volume max recommandé

10-50 M vecteurs

100M+ vecteurs

Performance recherche

Bonne (HNSW depuis pg 16)

Excellente (Rust, optimisations dédiées)

Hybrid search (vectoriel + keyword)

Avec extension pg_search ou tsvector

Natif

Filtres métadonnées

SQL full power

Native, optimisé

Setup

Très simple (Postgres existant)

Container Docker

Recommandation Validix

Volume modeste, équipe Postgres

Volume important, projet stratégique

03 / Modèle d'embeddings

Quel modèle pour vectoriser.

BGE-M3 (BAAI)

Multilingue, dense + sparse + multi-vector. Notre choix par défaut. ~1 GB, déployable sur 1× L4.

E5-Mistral 7B

Très haute qualité, plus gros (16 GB GPU). Pour les projets premium.

Mxbai Embed Large

Bon compromis qualité/taille (1.3 GB). Spécialiste anglais.

Mistral Embed

API Mistral, simple si déjà sur La Plateforme Mistral.

Recommandation FR

BGE-M3 par défaut. E5-Mistral si volume modeste et qualité critique.

Dimension

BGE-M3 : 1024. Compatible avec pgvector et Qdrant.

Coût indexation

Pour 1M de chunks de 500 tokens : ~6h sur 1× L4, coût coût négligeable.

04 / Patterns avancés

Au-delà du RAG basique.

Pattern 01

Ré-ranking

Récupérer top 50 par similarité vectorielle, puis ré-ranker avec un cross-encoder (BGE-Reranker, Cohere Rerank). +15-25 % de pertinence dans nos benchmarks. Coût : +200-400 ms latence.

Pattern 02

Hybrid search

Combiner recherche vectorielle (sémantique) et BM25/keyword (lexical). Permet de gérer les termes techniques précis (références produits, codes-barres) que les embeddings comprennent mal. +10-20 % de rappel.

Pattern 03

Chunking intelligent

Pas "500 tokens" aveugle. Découpage par section sémantique (paragraphes, titres), avec overlap 10-20 %. Métadonnées riches (titre, page, date) pour filtrer.

Pattern 04

Self-RAG

Le LLM décide lui-même s'il a besoin de chercher (vs répondre directement) et évalue si les passages retrouvés sont pertinents. Réduit les hallucinations. Hermes 4 et Mistral Large 2 supportent bien ce pattern.

05 / FAQ

Combien coûte une infra RAG on-prem pour 1M de documents ?

Hardware : 1× L4 24 GB (embeddings + reranker) + serveur Postgres ou Qdrant (peut tourner sur le même serveur que les modèles LLM). Total : sur devis matériel. Ops : 0,2 ETP en routine. Coût annuel récurrent : 5-10 K€.

RAG vs fine-tuning : comment trancher ?

RAG par défaut. Fine-tuning si : (1) vous avez un style ou terminologie très spécifique, (2) vous voulez réduire les coûts d'inférence en utilisant un modèle plus petit, (3) le RAG ne suffit pas (cas rare, à valider par audit). Voir guide FT.

Combien de chunks max par requête envoyer au LLM ?

Top 5-10 chunks de 500 tokens en moyenne. Au-delà, le contexte devient bruyant et la qualité baisse ("lost in the middle"). Privilégier la qualité du ré-ranking à la quantité.

Comment gérer les mises à jour de documents ?

Soit re-vectorisation périodique (cron quotidien ou hebdo selon volume), soit indexation événementielle (webhooks depuis votre CMS, base documentaire). Validix recommande l'événementiel : data toujours fraîche, pas de batch overnight à risque.

Qdrant Cloud est-il une option pour un RAG souverain ?

Qdrant Cloud propose un hébergement EU mais reste un SaaS. Pour data sensible : self-hosting Qdrant en on-prem ou cloud souverain (OVH, Scaleway). Image Docker fournie, mise en place en 1-2 jours.

            Pour aller plus loin
            Pillar Infra →Air-gap LLM →GPU H100 France →Pillar Modèles →Pillar Praeon →Agents IA souverains (home) →
          

RAG on-premise.Architecture qui tient.