Modèle · Mistral AI · français

Mistral Large 2
on-premise.

Mistral Large 2 (123B, sortie 2024) est notre choix par défaut pour tous les cas d'usage en français pur. Comment le déployer on-premise, quel hardware, quelle quantization, et où il bat les modèles plus gros.

Tester Mistral sur mes tâches

Mistral Large 2 est sorti en juillet 2024. 123 milliards de paramètres, performance équivalente à Llama 3.1 405B sur les benchmarks publics tout en étant 3,3× plus petit. Notre choix systématique chez Validix dès qu'il y a une composante française forte (juridique, contractuel, RH, comptabilité, documents administratifs).

Bonus : entreprise française (Mistral AI), hébergement France via La Plateforme, Apache 2.0 sur les variantes open-weight, alignement précis avec les exigences souverainetés européennes. Pour une ETI française, c'est l'argument de vente naturel.

Specs et limites.

Taille
123 milliards de paramètres (dense)
Context window
131 072 tokens natifs
Langues
Excellent FR, EN, DE, IT, ES. Bon NL, PT. Acceptable JA, ZH.
Vision
Non (utiliser Pixtral séparément si vision nécessaire)
Function calling
Oui (compatible OpenAI format)
Code
Bon (mais Codestral 22B est meilleur pour le code pur)
Licence
Mistral AI Research License (gratuit non-commercial), licence commerciale séparée pour usage commercial

Sur les tâches françaises.

Benchmark Validix sur 100 prompts juridiques français (analyse de clauses, génération de mémos, classification de dossiers). Évalués par 2 experts juridiques séniors.

Tâche
Mistral Large 2
Llama 3.3 70B
Hermes 4 70B
Analyse clause RGPD
94 %
78 %
82 %
Rédaction mémo M&A
91 %
72 %
85 %
Classification jurisprudence
89 %
81 %
84 %
Extraction infos contrat
87 %
85 %
92 %
Style juridique formel
95 %
70 %
75 %
Score moyen
91 %
77 %
84 %

Hardware et runtime.

GPU minimum (Q4_K_M)
1× H100 80 GB (limite, 70 GB VRAM utilisée), 1× H200 confortable, ou 2× H100
GPU FP8
2× H100 80 GB minimum (125 GB VRAM utilisée)
Throughput vLLM (Q4)
60-80 tokens/seconde par utilisateur (batch 8)
Runtime
vLLM 0.6+ ou TGI 2.4+. TensorRT-LLM possible pour la perf max.
Quantization recommandée
Q4_K_M pour la prod (90 % qualité, latence acceptable). FP8 si data center bien équipé.
Variant intermédiaire
Mistral Nemo 12B (Q4 sur 1× L40S) si volumétrie modeste
Partenaires hébergement FR
OVHcloud AI Endpoints, Scaleway, Outscale (tous proposent Mistral en SaaS si vous ne voulez pas gérer)
Mistral Large 2 vs GPT-4 sur le français : qui gagne ?
Sur les benchmarks publics français (FrenchMT-Bench, MMLU-FR), Mistral Large 2 et GPT-4o sont à parité (±2 %). Sur le style juridique très formel, Mistral est légèrement supérieur. Sur la créativité libre, GPT-4o garde un avantage.
La licence Mistral Research permet-elle l'usage interne en entreprise ?
Pour usage interne non-commercial : oui, gratuitement. Pour usage commercial (production servant des clients ou générant du revenu) : licence commerciale Mistral nécessaire. Tarif négocié, typiquement négociée avec Mistral selon volumétrie selon volumétrie.
Mistral Nemo 12B est-il une alternative crédible à Mistral Large 2 ?
Pour 70-80 % des cas : oui. Mistral Nemo (12B) sur 1× L40S est ~5× moins cher à servir que Mistral Large 2 (123B). Pour les cas simples (RAG, classification, génération courte), Nemo suffit. Pour le raisonnement long ou très spécialisé : Large 2.
Codestral pour le code, ça vaut quoi ?
Excellent. Codestral 22B (Mistral) est notre choix pour les agents qui génèrent du code en français commenté. Sur HumanEval-FR : 78 % vs 73 % pour Llama 3.3 70B et 84 % pour GPT-4o. Très bon ratio qualité/coût.
Peut-on fine-tuner Mistral Large 2 ?
Oui via LoRA/QLoRA (1× H100 suffit). Full fine-tuning 123B nécessite 8× H100 minimum. Validix accompagne les fine-tunings métier (juridique, médical, RH). Voir Mistral juridique.