Modèle · Nous Research · open-weight

Hermes 4 pour les agents.
Pourquoi c'est notre défaut.

Hermes 4 (Nous Research, sortie 2025) est devenu notre choix par défaut chez Validix pour les agents avec function calling. Pourquoi, comment le déployer, et quand préférer autre chose.

Tester Hermes sur mes tâches→

01 / Le pari Hermes

Hermes est une famille de modèles open-weight développée par Nous Research, un collectif de recherche IA indépendant fondé en 2023. La spécificité d'Hermes : être conçu spécifiquement pour les agents avec raisonnement structuré et function calling, là où Llama et Qwen sont des généralistes.

Hermes 4 (sortie 2025) est notre choix par défaut chez Validix pour 60 % des cas d'usage agentiques. Sur les benchmarks publics (BFCL, ToolBench, AgentBench), Hermes 4 70B rivalise avec GPT-4o sur les tâches d'agent — et reste open-weight, donc auto-hébergeable.

02 / Forces et limites

Pourquoi Hermes plutôt que Llama Instruct ?

Force 01

Function calling robuste

Hermes est entraîné spécifiquement sur des datasets de function calling et de raisonnement multi-étapes. Score BFCL (Berkeley Function Calling Leaderboard) : 89 % en mai 2026 vs 81 % pour Llama 3.3 70B Instruct.

Force 02

Raisonnement structuré

Excellent sur les workflows multi-étapes : analyse → décision → action → vérification. Moins prompt-sensible que les modèles "chat" génériques.

Force 03

Apache 2.0

Licence Apache 2.0 (vs Llama Community License). Aucune restriction sur l'usage commercial, le fine-tuning, ou la redistribution. Confort juridique total.

Limite 01

Anglais-centric

Hermes est entraîné majoritairement en anglais. Performance en français acceptable mais en retrait vs Mistral Large 2. Pour un agent FR-pur, préférer Mistral.

Limite 02

Pas de vision

Pas de capacité multimodale native. Si vision nécessaire, basculer sur Qwen3-VL ou utiliser Hermes en duo avec un modèle vision.

Limite 03

Communauté plus petite

Vs Llama qui a une communauté massive, Hermes est plus niche. Moins de tutoriels, moins d'intégrations one-click. Mais l'écosystème HF couvre l'essentiel.

03 / Déploiement

Recommandations Validix.

Variante recommandée

Hermes 4 70B (le sweet spot qualité/coût)

Quantization

Q4_K_M pour la majorité des cas (90 % qualité, 38 GB VRAM). FP8 si data center bien équipé (70 GB VRAM, qualité full).

GPU minimum

1× H100 80 GB (Q4) ou 2× H100 (FP8). 1× H200 confortable en FP8.

Throughput typique

80-100 tokens/seconde par utilisateur (vLLM, batch 8).

Runtime

vLLM. TGI fonctionne aussi mais vLLM a 15-25 % de meilleures perfs sur Hermes.

Context window

131 072 tokens natifs. Très bon RoPE scaling jusqu'à 256K si vraiment nécessaire.

Téléchargement

huggingface.co/NousResearch

04 / Cas d'usage Validix

Où Hermes 4 brille en prod.

Juridique

Revue de data room M&A

Lecture de centaines de documents, analyse de clauses, génération de mémos structurés. Hermes excelle sur le raisonnement séquentiel et les outputs JSON.

Ops / SRE

Triage d'alertes + runbooks

Lecture de logs, classification, exécution de runbooks via tool calls (kubectl, PagerDuty, Grafana). Hermes traite proprement les workflows multi-étapes avec validation humaine.

Finance

Prépa clôture mensuelle

Analyse de factures, contrôle de cohérence, mise à jour comptable. Hermes appelle les bonnes APIs SAP/Sage avec une fiabilité supérieure à Llama.

05 / FAQ

Hermes 4 vs Llama 3.3 Instruct : lequel choisir ?

Pour les agents avec function calling : Hermes 4. Pour les tâches généralistes (rédaction, traduction, analyse longue) : Llama 3.3 Instruct ou Mistral Large 2 selon la langue. Hermes a 8 points d'écart sur BFCL, c'est significatif.

Hermes 4 supporte-t-il le format Anthropic ou OpenAI ?

Hermes 4 est compatible avec le format OpenAI function calling (le standard de facto en 2026). Il fonctionne donc out-of-the-box avec Praeon, LangChain, ou tout client OpenAI-compatible.

Peut-on fine-tuner Hermes 4 ?

Oui, licence Apache 2.0 permissive. LoRA/QLoRA recommandé sur 1× H100 pour Hermes 4 70B. Full fine-tuning : 8× H100 ou cloud GPU. Validix peut accompagner un fine-tuning métier (juridique, médical) en 6-10 semaines.

Quelle différence entre Hermes 3 et Hermes 4 ?

Hermes 4 (2025) améliore : function calling (+12 % BFCL), raisonnement multi-étapes, format JSON output, support des tool calls parallèles. Recommandation : passer directement à Hermes 4 pour les nouveaux déploiements.

Hermes est-il français-friendly ?

Acceptable, pas excellent. Pour un agent FR-natif (juridique, contractuel, RH), préférer Mistral Large 2. Hermes peut être combiné à Mistral en "router" : Hermes pour la logique d'agent, Mistral pour la génération de texte FR.

            Pour aller plus loin
            Pillar Modèles →Qwen on-premise →Fine-tuning Llama →Mistral on-premise →Mistral juridique →Pillar Praeon →Pillar Audit IA →Agents IA souverains (home) →
          

Hermes 4 pour les agents.Pourquoi c'est notre défaut.