Recette technique · 6 cas terrain

Fine-tuning Llama 3.3
en entreprise.

Quand fine-tuner Llama 3.3 vs faire du RAG, comment préparer les données, choisir LoRA ou full fine-tuning, éviter les pièges. Retour terrain Validix sur 6 fine-tuning métier en 2025.

Cadrer mon fine-tuning

Avant de fine-tuner : faut-il vraiment ?

Dans 70 % des cas Validix audités, le RAG suffit. Le fine-tuning n'est pertinent que dans des cas précis.

RAG d'abord

Quand le RAG suffit

Vous voulez exploiter un corpus d'entreprise (docs, mails, contrats). Le modèle reste générique mais a accès au contexte. Mise en place rapide (2-4 sem). Mise à jour des données = mise à jour du RAG, pas du modèle. Voir guide RAG.

FT pertinent

Quand fine-tuner

Vous voulez : 1) un style spécifique (ton de l'entreprise, jargon métier), 2) une terminologie sectorielle pointue (juridique, médical), 3) réduire les coûts d'inférence en utilisant un modèle plus petit fine-tuné qu'un gros modèle générique, 4) gérer un format de sortie très contraint.

La qualité des données, c'est 80 % du succès.

Volume minimum
1000 paires (input, output) pour LoRA. 10 000+ pour full fine-tuning. En dessous, le RAG est meilleur.
Qualité avant volume
Mieux vaut 1000 exemples vérifiés humainement qu'10 000 scrapés non vérifiés. Validix vérifie systématiquement 100 % des exemples avec un expert métier.
Format Llama 3.3
ChatML ou format Llama Instruct. Tokens spéciaux : <|begin_of_text|>, <|start_header_id|>system, user, assistant<|end_header_id|>, <|eot_id|>.
Train/val/test
Split classique 80/10/10. Stratification par typologie de tâche.
Anonymisation
Si données personnelles : pseudonymisation systématique avant fine-tuning (RGPD art. 17 — droit à l'effacement non garanti après FT).
Diversité
Couvrir les edge cases (15-20 % du dataset), pas seulement le happy path.

LoRA suffit dans 90 % des cas.

Critère
LoRA / QLoRA
Full Fine-tuning
GPU minimum
1× H100 80 GB
8× H100 ou 1× H200 cluster
Durée typique 70B
8-24h
2-7 jours
Coût compute
~500-2000 €
~15 000-50 000 €
Qualité finale
90-95 % du full FT
100 %
Stockage modèle FT
200 MB (adapter LoRA)
140 GB (modèle complet)
Hot-swap multiples FT
Oui (1 base + N adapters)
Non (1 modèle = 1 use case)
Cas où c'est nécessaire
90 % des cas business
Cas où LoRA insuffisant : changement de comportement profond

Process en 6 semaines.

  1. Sem 1 — Cadrage. Définir l'objectif, les métriques de qualité, la baseline (modèle de base sur les mêmes prompts). Si la baseline est déjà à 85 %+, le FT peut être contre-productif.
  2. Sem 2-3 — Préparation des données. Collecte, filtrage, annotation, anonymisation. La phase la plus longue mais la plus critique.
  3. Sem 4 — Training. LoRA sur 1× H100. Hyperparam standard (lr 1e-4, batch 4, epochs 3). Eval continue sur le validation set.
  4. Sem 5 — Évaluation. Tests sur le test set, comparaison à la baseline, eval humaine sur 50-100 outputs. Détection de regression sur les comportements génériques (toxicity, refus, hallucinations).
  5. Sem 6 — Déploiement. Adapter LoRA chargé dans vLLM. Hot-swap si plusieurs adapters. Mise en production progressive (10 % du trafic d'abord).
LoRA vs QLoRA, quelle différence ?
QLoRA = LoRA + quantization du modèle de base à 4 bits. Permet de fine-tuner un 70B sur 1× A100 40 GB (vs 1× H100 80 GB pour LoRA pur). Légère perte de qualité (~2-3 %), mais utile si pas de H100 disponible.
Combien coûte un fine-tuning Llama 3.3 70B chez Validix ?
Sur devis selon ambition selon volumétrie de données et complexité. Inclut : préparation des données, entraînement, évaluation, déploiement vLLM. Délai 5-7 semaines. Garantie : si la qualité n'améliore pas significativement la baseline, fine-tuning remboursé à 50 %.
Le fine-tuning rend-il le modèle moins bon sur les autres tâches ?
Oui légèrement (catastrophic forgetting). Mitigation : LoRA limite l'effet (modifications restreintes). Mélange du dataset métier avec 10-15 % de données génériques (Open Hermes par exemple) pour préserver les compétences générales.
Combien de temps un fine-tuning reste-t-il pertinent ?
6-18 mois selon évolution des données et nouvelles versions de modèle de base. Si Llama 4 sort avec un saut de qualité, refaire le fine-tuning avec la même recette est 2 jours de travail.
Peut-on combiner RAG et fine-tuning ?
Oui, c'est même la norme. Fine-tuning pour le style et la terminologie, RAG pour les données récentes. Architecture complémentaire.