Modèle · Alibaba · open-weight

Déployer Qwen 3
on-premise.

Qwen 3 (Alibaba, 2025) couvre une gamme énorme : de 0,5B pour l'edge à 235B en MoE pour les déploiements premium. Quand utiliser quelle variante, comment déployer en vLLM, et quelle place pour la vision (Qwen3-VL).

Auditer mon cas Qwen

Quelle variante pour quoi.

Variante
Taille
Use case
GPU min
Qwen 3 0.5B/1.8B
0,5-1,8B
Edge, mobile, embedded
CPU ou 1× L4
Qwen 3 7B
7B
Tâches simples, RAG léger
1× L40S
Qwen 3 14B
14B
Polyvalence, RAG moyen
1× A100 40 GB
Qwen 3 32B
32B
Polyvalence avancée, agents
1× H100 80 GB
Qwen 3 72B (dense)
72B
Cas d'usage premium
1× H100 (Q4) / 2× (FP8)
Qwen 3 30B-A3B (MoE)
30B / 3B actifs
Très bon ratio coût/perf
1× H100
Qwen 3 235B-A22B (MoE)
235B / 22B actifs
Tâches très complexes
4× H100 minimum
Qwen3-VL
8B / 72B vision
OCR, captures, photos
1× H100

Pourquoi MoE est intéressant en prod.

Les variantes MoE (30B-A3B, 235B-A22B) ont N paramètres totaux mais seulement K actifs par token. Beaucoup moins coûteux à servir que leur taille suggère.

Avantage 01

Coût compute réduit

Qwen3-30B-A3B = 30B paramètres mais 3B actifs par token. Throughput ~3× supérieur à un dense 30B traditionnel pour qualité comparable.

Avantage 02

VRAM optimisée

VRAM Q4 : ~32 GB pour 30B-A3B (vs ~38 GB pour Llama 3.3 70B dense). Tient dans 1× H100 sans problème.

Limite 01

Latence de premier token

Routing entre experts ajoute ~5-10 ms de latence sur le premier token. Imperceptible en pratique mais à noter pour les use case temps réel.

Limite 02

Complexité runtime

vLLM gère MoE depuis fin 2024. TGI depuis début 2025. Si vous utilisez TensorRT-LLM ou un runtime moins courant, vérifier la compatibilité MoE.

La vision : la vraie force de Qwen.

Qwen3-VL est devenu en 2026 notre choix par défaut pour tous les cas d'usage avec composante visuelle. Document scanning, captures d'écran, photos, vidéos courtes.

Sur les benchmarks vision (MMVet, MathVista, DocVQA, ChartQA), Qwen3-VL 72B rivalise avec GPT-4V et Claude Opus Vision. En open-weight, il n'a pas vraiment de concurrent en mai 2026 (Llama 3.3 Vision est solide mais en retrait, Pixtral de Mistral encore jeune).

Cas d'usage où on l'utilise : lecture de PDF scannés (factures, contrats, dossiers médicaux), analyse de captures d'écran (debug, support N1), OCR sur formulaires, lecture de plans techniques, analyse de photos thermographiques (maintenance prédictive).

Limite : entreprise chinoise. Pour les OIV/défense, c'est rédhibitoire. Pour le reste (cabinets juridiques, ETI industrielles, banque), c'est juste un open-weight comme un autre — les poids sont publics, le déploiement est on-prem chez vous.

Recommandations Validix.

Variante recommandée
Qwen 3 72B Instruct ou 30B-A3B selon coût
Quantization
Q4_K_M (équilibre qualité/perf) pour la prod
GPU
1× H100 80 GB suffit pour 72B Q4 ou 30B-A3B
Runtime
vLLM 0.7+ (support MoE optimisé)
Context window
131 072 natif, jusqu'à 1M sur Qwen3-Max
Vision
Qwen3-VL 72B sur 1× H100 si OCR/photos/captures nécessaire
Qwen est-il vraiment utilisable en France malgré l'origine chinoise ?
Oui pour la majorité des secteurs. Les poids sont publics, le déploiement est on-prem chez vous, aucune télémétrie sortante. Aucun "cheval de Troie" possible — les modèles sont des poids inertes. Pour les OIV/défense/secret défense : rédhibitoire pour des raisons politiques, pas techniques.
MoE vs Dense pour mon cas, comment trancher ?
Si vous avez du throughput soutenu et plusieurs utilisateurs : MoE (Qwen3-30B-A3B, Qwen3-235B-A22B) — coût compute réduit. Si vous avez un volume sporadique ou besoin de latence ultra-faible : dense (Qwen3-32B, 72B) — plus prévisible.
Qwen3-VL vs Llama 3.3 Vision pour OCR de factures ?
Qwen3-VL nettement supérieur sur les documents structurés (factures, formulaires). Llama 3.3 Vision est meilleur sur les images naturelles et les diagrammes. Pour 90 % des cas business : Qwen3-VL.
Peut-on fine-tuner Qwen 3 ?
Oui. Licence Apache 2.0 (les variantes Tongyi sont sous licence plus restrictive — vérifier avant déploiement commercial). LoRA/QLoRA possible sur 1× H100. Validix accompagne le fine-tuning métier.
Qwen3-Max (le plus gros) en open-weight ?
Non, Qwen3-Max est propriétaire et accessible uniquement via l'API Alibaba. Les variantes open-weight max sont 235B-A22B et 72B dense. Suffisant pour 99 % des cas en entreprise.