近一个月来,业内传的沸沸扬扬的Qwen3正式发布。
4月29日凌晨,阿里巴巴宣布开源新一代通义千问模型Qwen3(简称千问3)。千问3是国内首个“混合推理模型”,将“快思考”与“慢思考”集成进同一个模型。
千问3采用混合专家(MoE)架构,总参数量235B,激活仅需22B。千问3预训练数据量达36T tokens,并在后训练阶段经过多轮强化学习,将非思考模式无缝整合到思考模型中。在推理、指令遵循、工具调用、多语言能力等方面,千问3均大幅增强。
性能大幅提升的同时,千问3的部署成本还大幅下降,据阿里透露,仅需4张H20即可部署千问3满血版,显存占用仅为性能相近模型的三分之一。千问3还提供了丰富的模型版本,包含2款30B、235B的MoE模型,以及0.6B、1.7B、4B、8B、14B、32B等6款密集模型。
据了解,千问3系列模型依旧采用宽松的Apache2.0协议开源,并首次支持119多种语言,全球开发者、研究机构和企业均可免费在魔搭社区、HuggingFace等平台下载模型并商用,也可以通过阿里云百炼调用千问3的API服务。
同时,千问3原生支持MCP协议,并具备function calling能力,或为即将到来的智能体Agent和大模型应用爆发提供更好的支持。值得注意的是,此前爆火的智能体产品Manus背后的公司与阿里通义千问团队已达成战略合作,双方将基于通义千问系列开源模型,在国产模型和算力平台上实现Manus的全部功能。
梅花天使创始合伙人吴世春表示:“千问3的发布,给人一种脱胎换股的感觉,像是进入了加速进化的过程。”在大模型的这轮竞赛中,他认为在进入技术收敛期后,产品应用和生态建设将是比拼关键,厂商之间的技术差距将会变成规模差距。
何为“混合推理”?
简单来说,“混合推理”是把推理模型和非推理模型集成到同一个模型里,这需要极其精细、创新的设计及训练。
在今年2月25日,Anthropic发布了新一代旗舰模型Claude 3.7 Sonnet,彼时被称作为市面上首款混合推理模型。Anthropic联合创始人兼首席科学官Jared Kaplan将其比作人类大脑的运行方式:有的问题需要深度思考,有的问题需要快速作答。但Anthropic希望将这两种能力整合在同一个模型中,而不是完全分开。
曾参与共同创立Instagram的Anthropic产品主管Mike Krieger对媒体表示,这种混合方法能简化聊天机器人的使用流程,让用户无需思考究竟哪种功能最适合。
4月17日谷歌发布公告,宣布在 Google AI Studio 和 Vertex AI 中,以 Gemini API 的方式推出 Gemini 2.5 Flash Preview 预览AI模型。据IT之家此前报道,Gemini 2.5 Flash是一个混合推理模型,具备“动态且可控”的计算能力,开发者能够根据查询请求的复杂程度灵活调整处理时间。
据阿里云官方介绍,千问3是国内首个混合推理模型。具体而言,在“推理模式”下,模型会执行更多中间步骤,如分解问题、逐步推导、验证答案等,给出更深思熟虑的答案;而在“非推理模式”下,模型则可快速遵循指令生成答案。
也就是说,同一个模型,可以完成“快思考”和“慢思考”,这类似于人类在回答简单问题时,凭经验或直觉快速作答,面对复杂难题时再深思熟虑,仔细思考给出答案。
另外,千问3还可API设置“思考预算”,即预期最大thinking tokens数量,进行不同程度的思考,让模型在性能和成本间取得更好的平衡,以满足开发者和机构的多样需求。比如,4B模型面向手机端,8B可在电脑和汽车端侧部署应用等。
阿里云 CTO、通义实验室负责人周靖人在和《晚点》对话中提到,设计和训练混合推理模型的难度,是远超单纯的推理模型的。具体而言,训练混合推理模型,有复杂的机制,相当于模型要学习两种不同的输出分布,要做到两个模式融合且基本不影响任何一种模式下的效果,很考验训练过程的训练策略。
目前,混合推理的大模型路线,正成为头部大模型公司争相突破的前沿技术领域。天使投资人、资深人工智能专家郭涛表示,阿里千问3的发布标志着大模型技术进入“效率革命”时代,其通过混合专家架构(MoE)与双模式推理设计,在性能与成本间实现颠覆性平衡。
技术差距将变成规模差距
在开源上,阿里通义始终不留余力。2023年至今,阿里通义团队已开源200多款模型,包含大语言模型千问Qwen及视觉生成模型万相Wan等两大基模系列,开源囊括文本生成模型、视觉理解/生成模型、语音理解/生成模型、文生图及视频模型等全模态,覆盖0.5B、0.6、1.5B、3B、4B、7B、14B、30B、32B、72B、110B、235B等全尺寸参数。
通义模型也多次登顶HuggingFace、Github榜单,目前,通义千问Qwen衍生模型数量已突破10万。通义千问Qwen在全球下载量超过3亿,在HuggingFace社区2024年全球模型下载量中千问Qwen占比超30%,稳居第一。
中国人民大学国际货币研究所研究员、独立国际策略研究员陈佳表示,千问3融合了阿里此前的模型技术积累,未来潜力非常强大,“考虑到苹果AI中文引擎与阿里的合作,以及阿里在云计算架构和算力服务方面的传统优势,阿里系大模型这次的‘突袭’可能会很成功,谨慎看好。”
在资源投入上,阿里巴巴集团CEO吴泳铭2月24日宣布,未来三年,阿里将投入超过3800亿元,用于建设云和AI硬件基础设施,总额超过去十年总和。吴泳铭表示:“AI爆发远超预期,国内科技产业方兴未艾,潜力巨大。阿里巴巴将不遗余力加速云和AI硬件基础设施建设,助推全行业生态发展。”
另据媒体报道阿里云近日在全球顶尖高校招募AI技术储备人才,为近年来规模最大的AI人才校园招聘。据了解,此次校招面向清华大学、北京大学、浙江大学、麻省理工大学、斯坦福大学等全球顶尖高校,招募大语言模型、多模态理解与生成、模型应用、AI Infra等领域技术人才。
4月29日,也有消息称腾讯对其混元大模型研发体系进行了全面重组,主要围绕算力、算法和数据三大核心板块刷新团队部署,加码研发投入。
今年春节以来,DeepSeek凭借着“低价+开源”,像一条鲶鱼一样搅动着大模型市场。大模型价格仍在持续,对此吴世春认为对价格敏感性的客户,价格战会把用户积累起来,客户累计越多,数据越多越好,模型就会进入飞轮效应。
“当客户越来越多,(模型)越来越好用,差距就会从最早期的技术差距变成规模差距。”吴世春判断,技术收敛期预计要到明年到来,彼时大模型行业将会呈现“3+1”的格局,即阿里、腾讯、字节和DeepSeek。
郭涛认为,千问3发布也将使大模型竞争进入“三维立体战”时代。技术维度,其MoE架构与推理优化或引领行业变革,促使行业从单纯堆参数转向架构创新与硬件协同,提升算力利用率。商业维度,阿里“开源生态引流+企业服务变现”模式吸引众多ISV加入,重构大模型商业格局,中小厂商面临生态位被挤压的局面,行业集中度进一步提升。战略维度,阿里“软硬一体+行业深耕”路径为云厂商提供参考,加速大模型走向产业纵深,推动全球企业级大模型市场规模增长。