Déployer un LLM on-premise.
Architecture, GPU, sécurité.
Quand basculer du cloud propriétaire vers une infra LLM on-premise, comment choisir entre H100, H200 et MI300X, quel runtime utiliser, comment monitorer, et combien ça coûte vraiment sur 3 ans. Retour terrain Validix sur les 12 derniers déploiements.
Déployer un LLM on-premise n'a rien d'exotique en 2026. Les modèles open-weight (Hermes 4, Qwen 3, Llama 3.3, Mistral Large 2) ont rattrapé GPT-4 sur la majorité des tâches métier. Le hardware GPU est disponible, vLLM est mature, l'observabilité OpenTelemetry standardisée. Et pour les secteurs sensibles (banque privée, santé, OIV, défense), c'est devenu la seule architecture qui passe l'audit RSSI.
Ce guide synthétise notre retour terrain Validix sur 12 déploiements LLM on-premise réalisés depuis 2024. Il couvre quand basculer (et quand ne pas), comment choisir le hardware, quel runtime utiliser, comment monitorer, et combien ça coûte vraiment sur 3 ans. Pas de copy marketing. Des chiffres, des retours d'expérience, des arbitrages explicites.
Le on-premise est-il pertinent pour vous ?
Trois critères de bascule. Si vous cochez les trois, on-prem dédié. Si vous cochez deux, cloud souverain géré. Si vous cochez un ou zéro, restez sur le cloud propriétaire.
Sensibilité réglementaire
Vos données sont soumises à RIN (banque), FINMA (Suisse), HDS (santé), LPM (OIV) ou secret professionnel. Dans ces cas, le DPA d'OpenAI ne suffit pas — vous devez prouver que la donnée n'a jamais quitté votre périmètre.
Volumétrie soutenue
Vous avez plus de 5 millions de tokens/jour soutenus, ou plus de 200 utilisateurs intensifs. À ce niveau, le break-even cloud-vers-on-prem se franchit autour du 14e mois. En dessous, le cloud est moins cher.
Indépendance stratégique
L'IA fait partie de votre cœur de métier (pas un outil de productivité périphérique) et vous refusez d'en confier le pilotage à un fournisseur tiers — surtout américain soumis au CLOUD Act.
Trois couches indépendantes.
Chaque couche est pilotable et remplaçable. Les modèles évoluent vite, l'orchestration est stable, les outils suivent les besoins métier.
Inférence sur GPU dédié
Runtime vLLM (recommandé 2026), TGI (HuggingFace), TensorRT-LLM (perf max NVIDIA), ou llama.cpp (edge). Modèle quantizé Q4_K_M pour minimiser la VRAM, ou FP8/BF16 pour les serveurs costauds.
Multi-tenant et observabilité
Praeon ou un orchestrateur custom. RBAC par tenant, traces OpenTelemetry, kill-switch par API, sandbox d'exécution code. Conteneurisé Docker + Traefik, rollback en 30 secondes.
Connecteurs MCP
Model Context Protocol pour connecter M365, Salesforce, ERP, etc. Wrappers MCP custom pour les API maison. Sandbox Python/JS pour les actions à risque.
Vectoriel + objet
pgvector ou Qdrant pour le RAG, MinIO ou Ceph pour les artefacts. Stockage chez le client. Chiffrement au repos AES-256.
Comparatif GPU 2026.
Trois cartes pertinentes en 2026 selon votre budget, votre exigence de perf et votre tolérance à l'écosystème NVIDIA-only.
Quel GPU pour quel modèle.
Empreinte mémoire pour les principaux modèles open-weight, en quantization Q4_K_M (recommandé pour la prod : 90 % de la qualité, 25 % de la VRAM).
Le runtime fait la perf.
Quatre options sérieuses en 2026. Notre choix par défaut : vLLM. Détail des arbitrages.
Le choix par défaut 2026
PagedAttention, OpenAI-compatible API, support continu batching, vision incluse. Maintenu activement, communauté large. docs.vllm.ai
HuggingFace Text Generation Inference
Robuste, bien intégré dans l'écosystème HF, support de tous les modèles publiés sur le Hub. Légèrement moins performant que vLLM en 2026 mais opérationnellement plus simple si vous êtes déjà dans HF.
Perf max NVIDIA-only
Compilation TensorRT pour des perfs maximales sur GPU NVIDIA. Complexité opérationnelle élevée (recompile par modèle, par version). À réserver aux cas où la latence est critique.
Pour les petits déploiements
Excellent sur CPU, GPU consumer, Apple Silicon. Pour des modèles 7B-13B sur poste de travail ou edge embarqué. Pas pour la prod multi-tenant.
Tracer chaque pas d'agent.
Sans observabilité, un déploiement LLM en prod est un trou noir. Trois piliers : tracing fin (Langfuse, Phoenix), métriques infra (Prometheus + Grafana), logs structurés (ELK, Loki).
Chaque appel d'agent loggé : prompt complet, output, tokens consommés, durée, modèle, tool calls. Langfuse est notre choix par défaut (self-hostable, open-source, UI propre). Alternative : Phoenix Arize. Les traces sortent en standard OpenTelemetry GenAI semconv.
Utilisation GPU (DCGM exporter pour NVIDIA, ROCm SMI pour AMD), mémoire VRAM, queue de requêtes vLLM, latence p50/p95/p99 par modèle. Stack standard : Prometheus + Grafana + alertmanager. Templates Grafana publics fournis par vLLM.
Logs structurés JSON. Centralisés via Loki (recommandé) ou Elastic. Conservation : 90 jours minimum pour audit RGPD, 1 an pour les agents en banque ou santé. Champ tenant_id obligatoire pour le filtrage et la conformité multi-tenant.
Cinq couches de sécurité minimum.
On-premise ne veut pas dire sécurisé par défaut. Cinq couches doivent être en place avant le go-live, surtout pour les secteurs réglementés.
Data residency stricte
Toutes les données restent dans votre périmètre. Aucune télémétrie outbound vers les fournisseurs de modèles (HuggingFace, Resend, OpenAI). Vérification par tcpdump avant go-live. Voir guide RGPD.
Authentification forte
SSO via OIDC ou SAML. MFA obligatoire pour les tenants "sensibles". Tokens API courts (15 min max), rotation automatique. RBAC par tenant strictement appliqué.
Sandbox d'exécution
Pour les agents qui exécutent du code (Python, JS), gVisor ou Firecracker. Pas d'accès au filesystem hôte, pas de réseau sortant non whitelisté, pas de processus persistant entre invocations.
Red-teaming des prompts
Application systématique du OWASP LLM Top 10 avant go-live. Tests d'injection de prompts, exfiltration via tool calls, jailbreaks. Suite de 100+ tests automatisés à passer.
Air-gap si nécessaire
Pour les OIV/LPM, secret défense, ou banques privées les plus strictes : aucune connectivité internet sortante. Updates des modèles via supports physiques contrôlés. Détail air-gap.
Audit annuel
Pen-test externe annuel, audit de code, revue de logs. Pour les Entités Essentielles au sens NIS2, c'est obligatoire — pour les autres, c'est juste sain. Voir NIS2.
Combien ça coûte, vraiment.
Trois cas d'usage représentatifs. Tous les chiffres en € HT, hors RH (à ajouter selon votre équipe).
Trois patterns selon votre cible.
On-prem dédié
Votre datacenter, vos GPU. Air-gap possible. Maîtrise totale, coût initial élevé. Pour banques privées, OIV, défense, santé HDS sensible. Délai déploiement : 8-14 semaines selon hardware.
Cloud souverain géré
OVHcloud, Scaleway, Outscale, Infomaniak. Multi-tenant chez l'opérateur français mais hébergement EU strict. RGPD natif. Pour 80 % des cas ETI. Délai : 2-4 semaines.
Hybride
Modèles et données chez le client, orchestration mutualisée chez Validix ou un opérateur. Bon compromis coût/contrôle pour les ETI en croissance. Délai : 4-6 semaines.