Déployer Qwen 3
on-premise.
Qwen 3 (Alibaba, 2025) couvre une gamme énorme : de 0,5B pour l'edge à 235B en MoE pour les déploiements premium. Quand utiliser quelle variante, comment déployer en vLLM, et quelle place pour la vision (Qwen3-VL).
Quelle variante pour quoi.
Pourquoi MoE est intéressant en prod.
Les variantes MoE (30B-A3B, 235B-A22B) ont N paramètres totaux mais seulement K actifs par token. Beaucoup moins coûteux à servir que leur taille suggère.
Coût compute réduit
Qwen3-30B-A3B = 30B paramètres mais 3B actifs par token. Throughput ~3× supérieur à un dense 30B traditionnel pour qualité comparable.
VRAM optimisée
VRAM Q4 : ~32 GB pour 30B-A3B (vs ~38 GB pour Llama 3.3 70B dense). Tient dans 1× H100 sans problème.
Latence de premier token
Routing entre experts ajoute ~5-10 ms de latence sur le premier token. Imperceptible en pratique mais à noter pour les use case temps réel.
Complexité runtime
vLLM gère MoE depuis fin 2024. TGI depuis début 2025. Si vous utilisez TensorRT-LLM ou un runtime moins courant, vérifier la compatibilité MoE.
La vision : la vraie force de Qwen.
Qwen3-VL est devenu en 2026 notre choix par défaut pour tous les cas d'usage avec composante visuelle. Document scanning, captures d'écran, photos, vidéos courtes.
Sur les benchmarks vision (MMVet, MathVista, DocVQA, ChartQA), Qwen3-VL 72B rivalise avec GPT-4V et Claude Opus Vision. En open-weight, il n'a pas vraiment de concurrent en mai 2026 (Llama 3.3 Vision est solide mais en retrait, Pixtral de Mistral encore jeune).
Cas d'usage où on l'utilise : lecture de PDF scannés (factures, contrats, dossiers médicaux), analyse de captures d'écran (debug, support N1), OCR sur formulaires, lecture de plans techniques, analyse de photos thermographiques (maintenance prédictive).
Limite : entreprise chinoise. Pour les OIV/défense, c'est rédhibitoire. Pour le reste (cabinets juridiques, ETI industrielles, banque), c'est juste un open-weight comme un autre — les poids sont publics, le déploiement est on-prem chez vous.