Fine-tuning Llama 3.3 entreprise : recette terrain 2026

01 / RAG vs Fine-tuning

Avant de fine-tuner : faut-il vraiment ?

Dans 70 % des cas Validix audités, le RAG suffit. Le fine-tuning n'est pertinent que dans des cas précis.

RAG d'abord

Quand le RAG suffit

Vous voulez exploiter un corpus d'entreprise (docs, mails, contrats). Le modèle reste générique mais a accès au contexte. Mise en place rapide (2-4 sem). Mise à jour des données = mise à jour du RAG, pas du modèle. Voir guide RAG.

FT pertinent

Quand fine-tuner

Vous voulez : 1) un style spécifique (ton de l'entreprise, jargon métier), 2) une terminologie sectorielle pointue (juridique, médical), 3) réduire les coûts d'inférence en utilisant un modèle plus petit fine-tuné qu'un gros modèle générique, 4) gérer un format de sortie très contraint.

02 / Préparer les données

La qualité des données, c'est 80 % du succès.

Volume minimum

1000 paires (input, output) pour LoRA. 10 000+ pour full fine-tuning. En dessous, le RAG est meilleur.

Qualité avant volume

Mieux vaut 1000 exemples vérifiés humainement qu'10 000 scrapés non vérifiés. Validix vérifie systématiquement 100 % des exemples avec un expert métier.

Format Llama 3.3

Train/val/test

Split classique 80/10/10. Stratification par typologie de tâche.

Anonymisation

Si données personnelles : pseudonymisation systématique avant fine-tuning (RGPD art. 17 — droit à l'effacement non garanti après FT).

Diversité

Couvrir les edge cases (15-20 % du dataset), pas seulement le happy path.

03 / LoRA vs Full FT

LoRA suffit dans 90 % des cas.

Critère

LoRA / QLoRA

Full Fine-tuning

GPU minimum

1× H100 80 GB

8× H100 ou 1× H200 cluster

Durée typique 70B

8-24h

2-7 jours

Coût compute

~500-2000 €

~15 000-50 000 €

Qualité finale

90-95 % du full FT

100 %

Stockage modèle FT

200 MB (adapter LoRA)

140 GB (modèle complet)

Hot-swap multiples FT

Oui (1 base + N adapters)

Non (1 modèle = 1 use case)

Cas où c'est nécessaire

90 % des cas business

Cas où LoRA insuffisant : changement de comportement profond

04 / Process Validix

Process en 6 semaines.

Sem 1 — Cadrage. Définir l'objectif, les métriques de qualité, la baseline (modèle de base sur les mêmes prompts). Si la baseline est déjà à 85 %+, le FT peut être contre-productif.
Sem 2-3 — Préparation des données. Collecte, filtrage, annotation, anonymisation. La phase la plus longue mais la plus critique.
Sem 4 — Training. LoRA sur 1× H100. Hyperparam standard (lr 1e-4, batch 4, epochs 3). Eval continue sur le validation set.
Sem 5 — Évaluation. Tests sur le test set, comparaison à la baseline, eval humaine sur 50-100 outputs. Détection de regression sur les comportements génériques (toxicity, refus, hallucinations).
Sem 6 — Déploiement. Adapter LoRA chargé dans vLLM. Hot-swap si plusieurs adapters. Mise en production progressive (10 % du trafic d'abord).

05 / FAQ

LoRA vs QLoRA, quelle différence ?

QLoRA = LoRA + quantization du modèle de base à 4 bits. Permet de fine-tuner un 70B sur 1× A100 40 GB (vs 1× H100 80 GB pour LoRA pur). Légère perte de qualité (~2-3 %), mais utile si pas de H100 disponible.

Combien coûte un fine-tuning Llama 3.3 70B chez Validix ?

Sur devis selon ambition selon volumétrie de données et complexité. Inclut : préparation des données, entraînement, évaluation, déploiement vLLM. Délai 5-7 semaines. Garantie : si la qualité n'améliore pas significativement la baseline, fine-tuning remboursé à 50 %.

Le fine-tuning rend-il le modèle moins bon sur les autres tâches ?

Oui légèrement (catastrophic forgetting). Mitigation : LoRA limite l'effet (modifications restreintes). Mélange du dataset métier avec 10-15 % de données génériques (Open Hermes par exemple) pour préserver les compétences générales.

Combien de temps un fine-tuning reste-t-il pertinent ?

6-18 mois selon évolution des données et nouvelles versions de modèle de base. Si Llama 4 sort avec un saut de qualité, refaire le fine-tuning avec la même recette est 2 jours de travail.

Peut-on combiner RAG et fine-tuning ?

Oui, c'est même la norme. Fine-tuning pour le style et la terminologie, RAG pour les données récentes. Architecture complémentaire.

            Pour aller plus loin
            Pillar Modèles →Hermes 4 →Qwen on-premise →Mistral on-premise →Mistral juridique →Pillar Praeon →Pillar Infra →Pillar Audit IA →Agents IA souverains (home) →
          

Fine-tuning Llama 3.3en entreprise.