Modèles open-weight.
Quel modèle, quelle tâche.
Hermes 4, Qwen 3, Llama 3.3, Mistral Large 2 : quel modèle déployer pour quelle tâche d'agent ? Comparatif technique sur benchmarks publics et tâches métier réelles. Recommandations Validix par cas d'usage.
En 2026, les modèles open-weight (Hermes, Qwen, Llama, Mistral, DeepSeek, Gemma) ont rattrapé GPT-4 sur la majorité des tâches métier : MMLU, HumanEval, MT-Bench, GSM8K, RAG, function calling. Pour beaucoup de cas d'usage B2B, le débat n'est plus "open vs propriétaire" mais "quel modèle open-weight".
Open-weight, c'est : 1) les poids du modèle sont publics (HuggingFace, Mistral repository), 2) la licence permet l'usage commercial dans la majorité des cas, 3) auto-hébergement possible sans demande au fournisseur, 4) fine-tuning libre sur vos données, 5) reversibilité totale.
Ce comparatif présente les 4 familles de modèles que Validix déploie le plus en 2026, avec leurs forces et limites par cas d'usage. Tous les benchmarks cités sont reproductibles avec lm-evaluation-harness ou Open LLM Leaderboard.
Vue d'ensemble.
Forces et faiblesses des 4 familles de modèles open-weight retenues par Validix en 2026.
Hermes 4 : la référence pour les agents.
Notre choix par défaut quand l'agent doit appeler des tools (MCP, function calling, RAG complexe). Hermes 4 (sortie 2025) excelle sur le raisonnement structuré et les workflows agentiques.
Agent qui doit appeler des tools (MCP servers, REST APIs, base de données), workflows multi-étapes avec planification, raisonnement structuré sur règles complexes, agents juridiques sur règles métier précises.
Tâches créatives (rédaction marketing pure), traduction multilingue (Hermes est anglais-centric), tâches très visuelles (utiliser Qwen-VL ou Llama Vision).
1× H100 80 GB pour Hermes 4 70B en quantization Q4_K_M (90 % qualité, 38 GB VRAM). 2× H100 pour FP8 (qualité full, 70 GB). Throughput ~80-100 tok/s par utilisateur sur vLLM. Détail Hermes 4.
Qwen 3 : polyvalence et vision.
Famille très large (de 0.5B pour l'edge à 235B en MoE). Notre choix quand le projet a besoin de vision (lecture de documents scannés, captures d'écran, photos) ou de polyvalence multilingue.
Agents avec composante visuelle (Qwen3-VL : OCR, lecture de PDF scannés, captures d'écran), polyvalence multilingue (français, anglais, allemand, espagnol, mandarin, etc.), edge deployment (Qwen3-0.5B/1.8B), MoE pour optimiser coût/perf (Qwen3-30B-A3B = 30B paramètres mais 3B actifs par token).
Cas où la souveraineté est primordiale (modèle chinois — politiquement sensible pour OIV/défense). Tâches très ancrées dans le français très spécialisé (Mistral est meilleur).
Qwen3-72B en MoE : ~32 GB VRAM Q4 (1× H100), throughput ~110 tok/s. Qwen3-VL pour les tâches vision : 1× H100 minimum. Variante MoE 235B-A22B pour les déploiements premium : 4× H100. Détail Qwen.
Llama 3.3 : long contexte et écosystème.
Le modèle open-weight le plus populaire en 2026, avec l'écosystème le plus mature. Notre choix pour les tâches à long contexte (data rooms, dossiers M&A, corpus juridiques entiers).
Tâches à long contexte (131K tokens natif, jusqu'à 1M avec extension RoPE), data rooms M&A, dossiers juridiques complets, corpus de presse, RAG sur volume important. Excellent généraliste polyvalent.
Function calling complexe (Hermes 4 mieux), français spécialisé (Mistral mieux), tâches vision avancées (Qwen3-VL souvent supérieur sur les documents).
Llama 3.3 70B Q4 : 1× H100 80 GB (38 GB VRAM utilisée), ~80 tok/s par utilisateur. Llama 3.3 405B : 4× H100 minimum, à réserver pour les cas où la qualité prime sur le coût. Détail Llama.
Mistral Large 2 : français et code.
Le modèle français de référence. Notre choix systématique quand la donnée est en français pur (juridique, RH, contrats) ou pour le code (Codestral). Bonus : entreprise française, hébergement France, écosystème souverain natif.
Tâches en français spécialisé (juridique, contractuel, fiscal, comptable, médical en français), génération de code (Codestral), tâches multilingues européennes (français, allemand, italien, espagnol, anglais) avec performance équilibrée. Argument de souveraineté très fort.
Function calling très complexe (Hermes 4 mieux), tâches vision (Pixtral est OK mais Qwen-VL meilleur), edge avec contraintes mémoire fortes (Mistral Nemo 12B est bon mais Qwen 7B fait souvent mieux).
Mistral Large 2 (123B) Q4 : ~70 GB VRAM (1× H100 limite, 1× H200 confortable). FP8 : 2× H100. Codestral 22B : 1× L40S ou 1× H100 large marge. Détail Mistral on-prem · Mistral juridique.
Notre matrice par cas d'usage.
Mistral Large 2 + Hermes 4
Mistral pour la rédaction et l'analyse de clauses (français), Hermes pour les workflows multi-étapes (M&A data room, due diligence). Fine-tuning Mistral sur corpus juridique recommandé.
Qwen 3 + Mistral
Qwen pour le tri de CV multilingues et la lecture de captures d'écran/PDF de candidats. Mistral pour la rédaction de fiches de poste en français pur. Pas de Llama ici (anglais-centric).
Hermes 4
Hermes excelle sur le raisonnement structuré (lecture de logs, runbooks, post-mortems). Function calling vers PagerDuty, Grafana, GitLab. Pas besoin de modèle plus gros.
Qwen 3 (vision)
Qwen pour les compte-rendus de visio, lecture de présentations clients, mise à jour CRM. Vision indispensable. Fallback Hermes 4 pour les workflows non-visuels.
Llama 3.3 + Hermes 4
Llama pour l'analyse de comptes et la lecture longue (rapports annuels, prospectus). Hermes pour les workflows de prépa clôture mensuelle (lecture facture → catégorisation → écriture).
Mistral Large 2 + Qwen 3
Mistral pour la qualité française du dialogue. Qwen 3 pour le RAG sur base de connaissances multilingue. Escalade humaine paramétrable.
Choisir
avec un appel
30 minutes pour comprendre votre cas d'usage et recommander un modèle. Sans engagement, sans devis caché. On vous oriente — y compris vers de la concurrence si c'est mieux pour vous.
Réserver →Benchmarker
sur vos tâches
Audit en 4 semaines avec benchmark de 3 modèles open-weight sur vos tâches métier réelles. Notebook reproductible que vos équipes peuvent re-faire tourner. Décision factuelle.
Voir l'audit →