Modèle · Alibaba · open-weight

Déployer Qwen 3
on-premise.

Qwen 3 (Alibaba, 2025) couvre une gamme énorme : de 0,5B pour l'edge à 235B en MoE pour les déploiements premium. Quand utiliser quelle variante, comment déployer en vLLM, et quelle place pour la vision (Qwen3-VL).

Auditer mon cas Qwen→

01 / Famille Qwen 3

Quelle variante pour quoi.

Variante

Taille

Use case

GPU min

Qwen 3 0.5B/1.8B

0,5-1,8B

Edge, mobile, embedded

CPU ou 1× L4

Qwen 3 7B

Tâches simples, RAG léger

1× L40S

Qwen 3 14B

14B

Polyvalence, RAG moyen

1× A100 40 GB

Qwen 3 32B

32B

Polyvalence avancée, agents

1× H100 80 GB

Qwen 3 72B (dense)

72B

Cas d'usage premium

1× H100 (Q4) / 2× (FP8)

Qwen 3 30B-A3B (MoE)

30B / 3B actifs

Très bon ratio coût/perf

1× H100

Qwen 3 235B-A22B (MoE)

235B / 22B actifs

Tâches très complexes

4× H100 minimum

Qwen3-VL

8B / 72B vision

OCR, captures, photos

1× H100

02 / Mixture of Experts

Pourquoi MoE est intéressant en prod.

Les variantes MoE (30B-A3B, 235B-A22B) ont N paramètres totaux mais seulement K actifs par token. Beaucoup moins coûteux à servir que leur taille suggère.

Avantage 01

Coût compute réduit

Qwen3-30B-A3B = 30B paramètres mais 3B actifs par token. Throughput ~3× supérieur à un dense 30B traditionnel pour qualité comparable.

Avantage 02

VRAM optimisée

VRAM Q4 : ~32 GB pour 30B-A3B (vs ~38 GB pour Llama 3.3 70B dense). Tient dans 1× H100 sans problème.

Limite 01

Latence de premier token

Routing entre experts ajoute ~5-10 ms de latence sur le premier token. Imperceptible en pratique mais à noter pour les use case temps réel.

Limite 02

Complexité runtime

vLLM gère MoE depuis fin 2024. TGI depuis début 2025. Si vous utilisez TensorRT-LLM ou un runtime moins courant, vérifier la compatibilité MoE.

03 / Qwen3-VL

La vision : la vraie force de Qwen.

Qwen3-VL est devenu en 2026 notre choix par défaut pour tous les cas d'usage avec composante visuelle. Document scanning, captures d'écran, photos, vidéos courtes.

Sur les benchmarks vision (MMVet, MathVista, DocVQA, ChartQA), Qwen3-VL 72B rivalise avec GPT-4V et Claude Opus Vision. En open-weight, il n'a pas vraiment de concurrent en mai 2026 (Llama 3.3 Vision est solide mais en retrait, Pixtral de Mistral encore jeune).

Cas d'usage où on l'utilise : lecture de PDF scannés (factures, contrats, dossiers médicaux), analyse de captures d'écran (debug, support N1), OCR sur formulaires, lecture de plans techniques, analyse de photos thermographiques (maintenance prédictive).

Limite : entreprise chinoise. Pour les OIV/défense, c'est rédhibitoire. Pour le reste (cabinets juridiques, ETI industrielles, banque), c'est juste un open-weight comme un autre — les poids sont publics, le déploiement est on-prem chez vous.

04 / Déploiement

Recommandations Validix.

Variante recommandée

Qwen 3 72B Instruct ou 30B-A3B selon coût

Quantization

Q4_K_M (équilibre qualité/perf) pour la prod

GPU

1× H100 80 GB suffit pour 72B Q4 ou 30B-A3B

Runtime

vLLM 0.7+ (support MoE optimisé)

Context window

131 072 natif, jusqu'à 1M sur Qwen3-Max

Vision

Qwen3-VL 72B sur 1× H100 si OCR/photos/captures nécessaire

05 / FAQ

Qwen est-il vraiment utilisable en France malgré l'origine chinoise ?

Oui pour la majorité des secteurs. Les poids sont publics, le déploiement est on-prem chez vous, aucune télémétrie sortante. Aucun "cheval de Troie" possible — les modèles sont des poids inertes. Pour les OIV/défense/secret défense : rédhibitoire pour des raisons politiques, pas techniques.

MoE vs Dense pour mon cas, comment trancher ?

Si vous avez du throughput soutenu et plusieurs utilisateurs : MoE (Qwen3-30B-A3B, Qwen3-235B-A22B) — coût compute réduit. Si vous avez un volume sporadique ou besoin de latence ultra-faible : dense (Qwen3-32B, 72B) — plus prévisible.

Qwen3-VL vs Llama 3.3 Vision pour OCR de factures ?

Qwen3-VL nettement supérieur sur les documents structurés (factures, formulaires). Llama 3.3 Vision est meilleur sur les images naturelles et les diagrammes. Pour 90 % des cas business : Qwen3-VL.

Peut-on fine-tuner Qwen 3 ?

Oui. Licence Apache 2.0 (les variantes Tongyi sont sous licence plus restrictive — vérifier avant déploiement commercial). LoRA/QLoRA possible sur 1× H100. Validix accompagne le fine-tuning métier.

Qwen3-Max (le plus gros) en open-weight ?

Non, Qwen3-Max est propriétaire et accessible uniquement via l'API Alibaba. Les variantes open-weight max sont 235B-A22B et 72B dense. Suffisant pour 99 % des cas en entreprise.

            Pour aller plus loin
            Pillar Modèles →Hermes 4 →Fine-tuning Llama →Mistral on-premise →Mistral juridique →Pillar Praeon →Pillar Infra →Agents IA souverains (home) →
          

Déployer Qwen 3on-premise.