RAG on-premise.
Architecture qui tient.
Retrieval Augmented Generation est la technique la plus efficace pour ancrer un agent IA dans vos données métier sans fine-tuning. Comment l'architecturer en on-premise : pgvector ou Qdrant, embeddings, ré-ranking, monitoring. Recette terrain Validix.
Le RAG (Retrieval Augmented Generation) consiste à : 1) indexer vos documents (contrats, mails, docs internes) dans une base vectorielle, 2) au moment d'une question utilisateur, retrouver les passages pertinents par similarité sémantique, 3) injecter ces passages dans le contexte du LLM avant de générer la réponse.
Avantages vs fine-tuning : mise à jour des connaissances en temps réel (ajouter un doc = ajouter à la base vectorielle, pas re-FT), traçabilité (on sait exactement quels passages ont été utilisés), conformité RGPD plus simple (effacement = supprimer les vecteurs). C'est dans 70-80 % des cas la bonne approche.
Quel store vectoriel choisir ?
Quel modèle pour vectoriser.
Au-delà du RAG basique.
Ré-ranking
Récupérer top 50 par similarité vectorielle, puis ré-ranker avec un cross-encoder (BGE-Reranker, Cohere Rerank). +15-25 % de pertinence dans nos benchmarks. Coût : +200-400 ms latence.
Hybrid search
Combiner recherche vectorielle (sémantique) et BM25/keyword (lexical). Permet de gérer les termes techniques précis (références produits, codes-barres) que les embeddings comprennent mal. +10-20 % de rappel.
Chunking intelligent
Pas "500 tokens" aveugle. Découpage par section sémantique (paragraphes, titres), avec overlap 10-20 %. Métadonnées riches (titre, page, date) pour filtrer.
Self-RAG
Le LLM décide lui-même s'il a besoin de chercher (vs répondre directement) et évalue si les passages retrouvés sont pertinents. Réduit les hallucinations. Hermes 4 et Mistral Large 2 supportent bien ce pattern.