阿里开源全新架构Qwen3-Next,80B参数新模型只需激活3B即可实现旗舰性能。
9月12日,阿里通义发布下一代基础模型架构Qwen3-Next和基于新架构的模型Qwen3-Next-80B-A3B ,包含两个版本:更擅长理解和执行指令的指令(Insctruct)模型,以及更擅长多步推理和深度思考的推理(Thinking)模型 。
据介绍,相比Qwen3的MoE(混合专家)模型结构 ,Qwen3-Next进行了以下核心改进:混合注意力机制、高稀疏度MoE结构、一系列训练稳定友好的优化,以及提升推理效率的多token预测机制(简称MTP,Multiple-Token Prediction)。
在核心技术方面 ,新模型采用全球首创混合架构,75%用Gated DeltaNet(线性注意力),25%用原创Gated Attention(门控注意力) ,总参数80B只需激活3B,就可以在性能上媲美Qwen3旗舰版235B模型,算力利用率约为3.7% ,帮助用户“极致省钱”。
在训练成本方面,Qwen3-Next模型较今年4月发布的密集模型Qwen3-32B大降超90%,长文本推理吞吐量提升10倍以上 。新模型在Qwen3预训练数据的子集15T tokens上进行预训练,仅需Qwen3-32B所用GPU计算资源的9.3% ,便能训练出性能更好的Qwen3-Next-Base基座模型,大幅提升了训练效率。
阿里通义团队指出,高稀疏MoE架构是Qwen3-Next面向下一代模型的最新探索。当前 ,MoE是主流大模型都采用的架构,通过激活大参数中的小部分专家完成推理任务 。此前,Qwen3系列的MoE专家激活比约为1比16 ,而Qwen3-Next通过更精密的高稀疏MoE架构设计,实现了1比50的极致激活比,创下业界新高。
在性能表现方面 ,Qwen3-Next指令模型的性能表现与参数规模更大的Qwen3-235B-A22B-Instruct-2507持平,思维模型表现优于谷歌闭源模型Gemini-2.5-Flash-Thinking。
Qwen3-Next-80B-A3B-Instruct指令模型性能评测图 。来源:阿里通义
目前,新模型已在魔搭社区和HuggingFace开源 ,开发者也可通过Qwen Chat免费体验,或直接调用阿里云百炼平台提供的API服务。
关于Qwen3-Next模型值得注意的创新点,Pine AI联合创始人 、首席科学家李博杰对澎湃新闻记者表示,Qwen3-Next采用了混合注意力机制和高稀疏MoE架构 ,从而大幅提升效率;除了这两大创新点以外,Qwen3-Next还在预训练时采用了多Token预测技术MTP(Mutiple-Token Prediction),模型推理速度大幅提升。
李博杰表示 ,虽然以上三种技术创新在学界已有研究,但阿里证明了其在工业界的实用性,同时还保持了开源:“Qwen3-Next第一次证明了这些技术能够放在一起共同运作 ,并且能够在实际的业务场景中展现出很好的能力表现 。从评测结果和模型架构来看,Qwen3-Next已经达到了谷歌Geimini 2.5 flash的水平。”
近期,阿里通义动作频频 ,包括推出超万亿参数的Qwen3-Max-Preview、文生图及编辑模型Qwen-Image-edit、语音识别模型Qwen3-ASR-Flash等。全球AI开源社区HuggingFace的最新数据显示,通义千问Qwen衍生模型数已超17万,稳坐全球第一开源模型。
9月1日 ,国际权威市场调研机构沙利文(Frost&Sullivan)发布了最新的《中国GenAI市场洞察:企业级大模型调用全景研究,2025》,报告显示,中国企业级大模型调用呈爆发式增长 ,2025年上半年日均调用量较2024年底实现363%的增长,目前超10万亿Tokens 。其中,阿里通义占比17.7%位列第一 ,是中国企业选择最多的大模型。
(文章来源:澎湃新闻)
炒股怎么选优质股票:十大股票杠杆平台-股市做多情绪高涨 多家银行发文严禁信用卡套现炒股
在手机上怎么开户买股票:炒股多少钱可以加杠杆-美欧贸易谈判“7月9日大限” 不过是特朗普戏剧性表演的节点?
在手机上怎么买股票:配资炒股网-全球市场:美股三大指数收跌 纳指跌超1% 英伟达跌超3% 阿里涨近13%
股票交流论坛有那些:国内十大炒股杠杆平台-以军约15架战机对伊朗发动新一轮空袭!特朗普发声:可能会支持停火!
炒股什么是杠杆原理:股票在线配资平台-脑机接口收费机制初显 国家医保局:技术获批后可快速进入临床应用
广州股票配资平台交流:炒股加杠杆怎么操作-“摩尔线程概念股”批量涨停 多家公司回应持股情况
按天配资-正规配资平台提供配资开户及资讯服务提示:文章来自网络,不代表本站观点。
2025年4月10日,高华科技(688539.SH)发布了限售股份上市流通公告。本次股份上市类型为A股发行法人配售上市,...
Wind数据显示,由民营物流企业顺丰控股发起的公募REITs——南方顺丰物流REIT(代码:180305)今日正式上市。...
3月25日消息,离岸人民币(CNH)兑美元北京时间04:59报7.2639元,较上周五纽约尾盘跌68点,日内整体交投于7...
春意盎然之际,国际劳动妇女节即将蹁跹而至。过去的一年,浦发银行上海宝山支行荣获“上海市巾帼文明岗”称号,上海分行...
截至2025年4月11日 13:54,恒生科技HKETF(513890)上涨2.88%, 冲击3连涨,盘中换手62.05...
今日A股V型反弹,TMT行业探底回升。芯片50ETF(516920)探底回升,尾盘翻红收涨0.92%,资金连续涌入,近2...
界面新闻记者|邹文榕政策引导叠加企业融资需求旺盛,界面新闻记者关注到,开年以来,产业债一级市场发行量较往年明...
3月21日,曾因高调宣布收购罗永浩直播公司而声名大噪的尚纬股份(603333.SH)发布公告称,股东李广元6500万股被...
3月10日,“连锁火锅第一股”呷哺呷哺开盘再下跌,股价不足一港元,已成“仙股”。此前,呷哺呷哺(0520.HK)...
纳斯达克中国金龙指数收盘涨1.73%,本周累计下跌5.3%。热门中概股涨多跌少,小鹏汽车涨超11%,蔚来涨超7%,百度、...
界面新闻记者|陈靖金融市场充满变数。年初至今,券商研究所分析师“转会”频频。过去三个月,券业并购下的...
记者辛圆保护知识产权就是保护创新。3月21日,国家知识产权局、教育部等七部门发布《关于进一步优...
2025年3月7日,A500ETF(159339.SZ)收跌0.31%,主力资金(单笔成交额100万元以上...
【隔夜行情】•周五(2025年3月21日),A股三大指数集体下跌,截至收盘,截止收盘,沪指跌1.29%,报收33...
2024年,该行实现营业收入124.18亿元,同比增加10.73亿元,增幅9.46%;净利润37.79亿元,同比增加1....