Qwen
| Développé par | Alibaba Cloud |
|---|---|
| Première version | |
| Type |
Dialogueur Grand modèle de langage |
| Licence | Licence Apache 2.0 |
| Site web | qwen.ai |
Qwen (également connu sous le nom de Tongyi Qianwen, ou en chinois 通义千问) est une famille de grands modèles de langage développés par Alibaba Cloud. De nombreuses variantes de Qwen sont diffusées sous la licence Apache-2.0, tandis que d'autres sont servies via Alibaba Cloud[1].
En juillet 2024, le South China Morning Post a rapporté que la plateforme d'évaluation comparative SuperCLUE classait Qwen2‑72B‑Instruct derrière GPT‑4o d'OpenAI et Claude 3.5 Sonnet d'Anthropic et devant d'autres modèles chinois[2].
Modèles
[modifier | modifier le code]
Transform this image into painting in the style of Picasso and Juan GrisAlibaba a lancé une version bêta de Qwen en avril 2023 sous le nom de Tongyi Qianwen, puis l'a ouverte au public en septembre 2023 après avoir obtenu l'autorisation réglementaire[3],[4].
L'architecture du modèle était basée sur l'architecture Llama développée par Meta AI[5],[6] En décembre 2023, Meta AI a mis à disposition ses modèles de taille 72B et 1,8B (c.-à-d. 72 et 1,8 milliards de paramètres), tandis que les poids de Qwen 7B ont été publiés en août[7],[8]. Bien que leurs modèles soient parfois qualifiés d'open source, le code d'entraînement n'a été ni publié ni documenté, et ils ne répondent ni aux critères de la définition de l'IA open source, ni à ceux du Model Openness Framework de la Fondation Linux.
En juin 2024, Alibaba a lancé Qwen2 et, en septembre, a rendu public les paramètres entraînés (« poids ») de ses modèles, tout en conservant la propriété de ses modèles les plus avancés[9],[10]. Qwen2 contient des modèles clairsemés (mélange d'experts (en)) et des modèles denses[11].
En novembre 2024, QwQ-32B-Preview, un modèle de raisonnement similaire à o1 d'OpenAI, a été publié sous licence Apache 2.0. Cependant, seuls les poids ont été rendus publics, pas le jeu de données ou la méthode d'entraînement[12],[13]. QwQ possède une fenêtre de contexte de 32 000 jetons, et surpasse o1 sur certains tests de performance[14].
La série Qwen-VL est une gamme de modèles de langage visuels qui combine un transformateur transformateur visuel (en) avec un grand modèle de langage[5],[15]. Alibaba a lancé Qwen2-VL avec des variantes à 2 et 7 milliards de paramètres[16],[17],[18].
En janvier 2025, Qwen2.5-VL a été lancé avec des variantes à 3, 7, 32 et 72 milliards de paramètres[19]. Tous les modèles, à l'exception de la variante 72 milliards, sont distribués sous licence Apache 2.0[20]. Qwen-VL-Max était le modèle de vision phare d'Alibaba depuis 2024, commercialisé par Alibaba Cloud au prix de 0,41 USD par million de jetons d'entrée[21].
Alibaba a lancé plusieurs autres modèles, tels que Qwen-Audio et Qwen2-Math[22]. Au total, plus de 100 modèles ont été rendus accessibles au public, et ces modèles ont été téléchargés plus de 40 millions de fois[10]. Des versions améliorées de Qwen ont été développées par des passionnés, comme « Liberated Qwen », développé par Abacus AI, une entreprise basée à San Francisco. Cette version répond à toute requête des utilisateurs sans restriction de contenu[23].
Le 29 janvier 2025, Alibaba a lancé Qwen2.5-Max. Selon un article de blog d'Alibaba, Qwen2.5-Max surpasse d'autres modèles de base tels que GPT-4o, DeepSeek-V3 et Llama-3.1-405B dans des tests de performance clés[24],[25]. En février 2025, Alibaba a annoncé sur son compte X officiel que le modèle 2.5-Max serait rendu public, mais il n'a pas encore été publié[26].
Le 24 mars 2025, Alibaba a lancé Qwen2.5-VL-32B-Instruct comme successeur au modèle Qwen2.5-VL. Il a été publié sous la licence Apache 2.0[27],[28].
Le 26 mars 2025, Qwen2.5-Omni-7B a été publié sous licence Apache 2.0 et mis à disposition via chat.qwen.ai, ainsi que sur des plateformes telles que Hugging Face, GitHub et ModelScope[29]. Le modèle Qwen2.5-Omni accepte du texte, des images, des vidéos et de l'audio en entrée, et peut générer du texte et de l'audio en sortie, ce qui permet de l'utiliser pour la conversation vocale en temps réel, à l'instar de GPT-4o d'OpenAI[29].
Le 28 avril 2025, la famille de modèles Qwen3 est publiée[30], tous les modèles étant distribués sous licence Apache 2.0. Cette famille comprend des modèles denses (0,6 milliard, 1,7 milliard, 4 milliards, 8 milliards, 14 milliards et 32 milliards de paramètres) et des modèles clairsemés (30 milliards avec 3 milliards de paramètres activés, 235 milliards avec 22 milliards de paramètres activés). Ils sont entraînés sur 36 000 milliards de tokens dans 119 langues et dialectes[31]. Tous les modèles, à l'exception des variantes 0,6 milliard, 1,7 milliard et 4 milliards, disposent d'une fenêtre de contexte de 128 000 tokens. À l'instar du modèle o1 d'OpenAI et de QwQ 32B, le modèle Qwen3 est un modèle de raisonnement dont les capacités avancées de raisonnement peuvent être activées ou désactivées via le tokenizer. Les modèles Qwen3 sont disponibles sur chat.qwen.ai, et peuvent être téléchargés via Hugging Face et ModelScope[32].
Le 5 septembre 2025, Alibaba a lancé Qwen3-Max[33]. Selon le compte X officiel d'Alibaba, ce modèle surpasse d'autres modèles de base sans raisonnement tels que Qwen3-235B-A22B-Instruct-2507, Kimi K2 et DeepSeek V3.1[34]. Bien qu'il n'ait pas été disponible dès le départ, le mode de réflexion a été rendu public en novembre 2025.
Le 10 septembre 2025, Qwen3-Next a été publié sous licence Apache 2.0 et mis à disposition via chat.qwen.ai, ainsi que sur des plateformes telles que Hugging Face et Model Scope. Qwen3-Next inclut deux modèles post-entraînés : Instruct et Thinking. Qwen3-Next a été créé avec une nouvelle architecture de modèle, Qwen3-Next, partant du principe que l'augmentation de la taille de la fenêtre de contexte et du nombre de paramètres constituent deux tendances majeures pour l'avenir des grands modèles. Qwen3-Next introduit plusieurs améliorations clés par rapport à l'architecture Qwen3 : un mécanisme d'attention hybride, une structure de mélange d'experts très clairsemée, des optimisations favorisant la stabilité de l'entraînement et un mécanisme de prédiction multi-jetons pour une inférence plus rapide. Un modèle comportant 80 milliards de paramètres au total, dont 3 milliards de paramètres actifs, a été créé à partir de l'architecture Qwen3-Next. Le modèle Qwen3-Next offre des performances comparables, voire supérieures dans certains cas, à celles de Qwen3-32b, tout en consommant moins de 10 % de son coût d'entraînement. En inférence, notamment avec des contextes de plus de 32 000 jetons, son débit est plus de 10 fois supérieur. Qwen3.5 utilise une version améliorée de l'architecture Qwen3-Next[35].
Le 22 septembre 2025, Qwen3-Omni a été publié sous la licence Apache 2.0 et mis à disposition via chat.qwen.ai, ainsi que sur des plateformes telles que Hugging Face et Model Scope. Qwen3-Omni est un modèle mixte/multimodal capable de traiter du texte, des images, de l'audio et de la vidéo, et de fournir des réponses en temps réel, à la fois textuelles et vocales[36].
| Version | Date de sortie | Réf. |
|---|---|---|
| Tongyi Qianwen | [37] | |
| Qwen-VL | [38] | |
| Qwen2 | [10] | |
| Qwen2-Audio | [39] | |
| Qwen2-VL | [16] | |
| Qwen2.5 | [40] | |
| Qwen2.5-Coder | [41] | |
| QwQ | [42] | |
| Qwen2.5-VL | [43] | |
| QwQ-32B | [44] | |
| Qwen2.5-Omni | [29] | |
| Qwen3 | [30] | |
| Qwen3-Coder | [45] | |
| Qwen3-Max | [33] | |
| Qwen3-Next | [46] | |
| Qwen3-Omni | [36] | |
| Qwen3-VL | [47] |
Références
[modifier | modifier le code]- ↑ (en) « Alibaba accelerates AI push by releasing new open-source models, text-to-video », Reuters, (lire en ligne).
- ↑ (en) Ben Jiang, « Alibaba's open-source AI model tops Chinese rivals, ranks 3rd globally » [archive du ], sur South China Morning Post, (consulté le ).
- ↑ Josh Horwitz, « Alibaba to roll out generative AI across apps », Reuters, (lire en ligne).
- ↑ (en) Casey Hall, « Alibaba opens AI model Tongyi Qianwen to the public », Reuters, (lire en ligne).
- (en) Jinze Bai, Shuai Bai, Yunfei Chu et Zeyu Cui, « Qwen Technical Report », ..
- ↑ (en) « Qwen/techmemo-draft.md » [archive du ], GitHub, (consulté le ).
- ↑ (en) Feifei Fan, « Alibaba unveils new Tongyi Qianwen AI language model », sur global.chinadaily.com.cn, .
- ↑ (en) Josh Ye, « Alibaba rolls out open-sourced AI model to take on Meta's Llama 2 » [archive du ], sur Reuters, (consulté le ).
- ↑ (en) Ben Jiang, « Alibaba says new AI model Qwen2 bests Meta's Llama 3 in tasks like maths and coding », sur South China Morning Post, .
- (en) Arjun Kharpal, « China's Alibaba launches over 100 new open-source AI models, releases text-to-video generation tool », sur CNBC, .
- ↑ (en) An Yang et al., « Qwen2 Technical Report », ..
- ↑ (en) Ben Dickson, « Alibaba releases Qwen with Questions, an open reasoning model that beats o1-preview » [archive du ], VentureBeat, (consulté le ).
- ↑ (zh) 故渊, « 阿里通义千问 QwQ 登场:开源 AI 推理新王,MATH 测试超 OpenAI o1 模型 - IT之家 », sur ITHome, .
- ↑ (en) Kyle Wiggers, « Alibaba releases an 'open' challenger to OpenAI's o1 reasoning model », sur TechCrunch, .
- ↑ (en) Ryan Browne, « Alibaba slashes prices on large language models by up to 85% as China AI rivalry heats up », sur CNBC, .
- (en) Carl Franzen, « Alibaba releases new AI model Qwen2-VL that can analyze videos more than 20 minutes long » [archive du ], sur VentureBeat, (consulté le ).
- ↑ (zh) 沛霖, « 阿里通义千问推出 Qwen2-VL:开源 2B / 7B 参数 AI 大模型,处理任意分辨率图像无需分割成块 », sur ITHome, .
- ↑ (en) Peng Wang, Shuai Bai, Tan et Shijie Wang, « Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution », Arxiv, (arXiv 2409.12191).
- ↑ (en) « Qwen2.5 VL! Qwen2.5 VL! Qwen2.5 VL! », Qwen, (consulté le ).
- ↑ (en) « Qwen/Qwen2.5-VL-72B-Instruct », sur Hugging Face, (consulté le ).
- ↑ (en) Ben Jiang, « Alibaba Cloud cuts AI visual model price by 85% on last day of the year », sur South China Morning Post, .
- ↑ (en) Carl Franzen, « Alibaba claims no. 1 spot in AI math models with Qwen2-Math » [archive du ], sur VentureBeat, (consulté le ).
- ↑ (en) Christopher Mims, « Here Come the Anti-Woke AIs » [archive du ], sur Wall Street Journal, (consulté le ).
- ↑ (en) « Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model », sur qwenlm.github.io, .
- ↑ (en) Eduardo Baptista, « Alibaba releases AI model it says surpasses DeepSeek », Reuters, .
- ↑ (en) Qwen, « QwQ-Max-Preview » [archive du ], sur X, .
- ↑ (en) « Qwen2.5-VL-32B: Smarter and Lighter », sur Qwen, (consulté le ).
- ↑ (en-US) « Qwen Releases the Qwen2.5-VL-32B-Instruct: A 32B Parameter VLM that Surpasses Qwen2.5-VL-72B and Other Models like GPT-4o Mini », sur MarkTechPost, (consulté le ).
- (en) Kyt Dotson, « Alibaba releases new open-source AI model to power intelligent voice applications », sur SiliconANGLE, .
- (en) Jasmeen Ara Shaikh, « Alibaba unveils advanced Qwen 3 AI as Chinese tech rivalry intensifies », sur Reuters, .
- ↑ (en) Kyle Wiggers, « Alibaba unveils Qwen3, a family of 'hybrid' AI reasoning models » [archive du ], sur TechCrunch, (consulté le ).
- ↑ (en) « Qwen3: Think Deeper, Act Faster », Qwen, (consulté le ).
- (en) Matthias Bastian, « Alibaba unveils Qwen3-Max-Preview, its largest language model yet », sur The Decoder, (consulté le ).
- ↑ (en) « Big news: Introducing Qwen3-Max-Preview... » [archive du ], X (formerly Twitter) (consulté le ).
- ↑ (en) « Qwen3-Next: Towards Ultimate Training & Inference Efficiency » [archive du ], sur Qwen Blog, (consulté le ).
- (en) « Qwen/Qwen3-Omni-30B-A3B-Instruct », sur Hugging Face, (consulté le ).
- ↑ (en) Ben Jiang, « Alibaba opens Tongyi Qianwen model to public as new CEO embraces AI », sur South China Morning Post, .
- ↑ (en) Arjun Kharpal, « Alibaba launches AI model that can understand images and have more complex conversations », sur CNBC, .
- ↑ (zh) 沛霖, « 阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型:自由互动,无需输入文本 », sur ITHome, .
- ↑ (en) « Alibaba accelerates AI push by releasing new open-source models, text-to-video », sur Reuters, .
- ↑ (en) Michael Nuñez, « Qwen2.5-Coder just changed the game for AI programming—and it's free », sur VentureBeat, .
- ↑ (en) Kyt Dotson, « Alibaba announces advanced experimental visual reasoning QVQ-72B AI model », sur SiliconANGLE, .
- ↑ (en) Kyle Wiggers, « Alibaba's Qwen team releases AI models that can control PCs and phones », sur TechCrunch, .
- ↑ (en) Carl Franzen, « Alibaba's new open source model QwQ-32B matches DeepSeek-R1 with way smaller compute requirements » [archive du ], sur VentureBeat, (consulté le ).
- ↑ (en) « Alibaba rolls out new AI coding model Qwen3-Coder, says it's their most powerful », sur Computerworld (consulté le ).
- ↑ (en) « Qwen/Qwen3-Next-80B-A3B-Instruct », sur Hugging Face, (consulté le ).
- ↑ (en) « Qwen3-VL: Sharper Vision, Deeper Thought, Broader Action », qwen.ai, (consulté le ).
Liens externes
[modifier | modifier le code]