Fine-tuning Llama 3.3
en entreprise.
Quand fine-tuner Llama 3.3 vs faire du RAG, comment préparer les données, choisir LoRA ou full fine-tuning, éviter les pièges. Retour terrain Validix sur 6 fine-tuning métier en 2025.
Avant de fine-tuner : faut-il vraiment ?
Dans 70 % des cas Validix audités, le RAG suffit. Le fine-tuning n'est pertinent que dans des cas précis.
Quand le RAG suffit
Vous voulez exploiter un corpus d'entreprise (docs, mails, contrats). Le modèle reste générique mais a accès au contexte. Mise en place rapide (2-4 sem). Mise à jour des données = mise à jour du RAG, pas du modèle. Voir guide RAG.
Quand fine-tuner
Vous voulez : 1) un style spécifique (ton de l'entreprise, jargon métier), 2) une terminologie sectorielle pointue (juridique, médical), 3) réduire les coûts d'inférence en utilisant un modèle plus petit fine-tuné qu'un gros modèle générique, 4) gérer un format de sortie très contraint.
La qualité des données, c'est 80 % du succès.
LoRA suffit dans 90 % des cas.
Process en 6 semaines.
- Sem 1 — Cadrage. Définir l'objectif, les métriques de qualité, la baseline (modèle de base sur les mêmes prompts). Si la baseline est déjà à 85 %+, le FT peut être contre-productif.
- Sem 2-3 — Préparation des données. Collecte, filtrage, annotation, anonymisation. La phase la plus longue mais la plus critique.
- Sem 4 — Training. LoRA sur 1× H100. Hyperparam standard (lr 1e-4, batch 4, epochs 3). Eval continue sur le validation set.
- Sem 5 — Évaluation. Tests sur le test set, comparaison à la baseline, eval humaine sur 50-100 outputs. Détection de regression sur les comportements génériques (toxicity, refus, hallucinations).
- Sem 6 — Déploiement. Adapter LoRA chargé dans vLLM. Hot-swap si plusieurs adapters. Mise en production progressive (10 % du trafic d'abord).