首頁 |
滾動(dòng) | 財(cái)經(jīng) | 國內(nèi) | 樂活 | 娛樂 | 科技 | 教育 | 體育 | 時(shí)尚 | 汽車 | 熱點(diǎn) | 資訊 | 法律 | 資訊 |
智東西
(資料圖片)
作者 | 程茜
編輯 | 心緣
智東西9月12日?qǐng)?bào)道,今天凌晨,阿里通義實(shí)驗(yàn)室正式發(fā)布下一代基礎(chǔ)模型架構(gòu)Qwen3-Next,并訓(xùn)練了基于該架構(gòu)的Qwen3-Next-80B-A3B-Base模型,該模型擁有800億個(gè)參數(shù)僅激活30億個(gè)參數(shù)。
Base模型在Qwen3預(yù)訓(xùn)練數(shù)據(jù)的子集15T tokens上進(jìn)行,僅需Qwen3-32B 9.3%的GPU計(jì)算資源,針對(duì)超過32k的上下文,推理吞吐量可達(dá)到Qwen3-32B的10倍以上。
同時(shí),基于Base模型,阿里開源了Qwen3-Next-80B-A3B的指令模型(Instruct)和思維模型(Thinking),模型支持原生262144個(gè)token上下文長度,可擴(kuò)展至1010000個(gè)token。
其中,Qwen3-Next-80B-A3B-Instruct僅支持指令(非思考)模式,其輸出中不生成塊;Qwen3-Next-80B-A3B-Thinking僅支持思考模式,為了強(qiáng)制模型進(jìn)行思考,默認(rèn)聊天模板自動(dòng)包含。
指令模型的性能表現(xiàn)與參數(shù)規(guī)模更大的Qwen3-235B-A22B-Instruct-2507相當(dāng),思維模型優(yōu)于谷歌閉源模型Gemini-2.5-Flash-Thinking。
▲指令模型測試基準(zhǔn)
▲思維模型測試基準(zhǔn)
在架構(gòu)升級(jí)方面,相比阿里4月底的Qwen3 MoE模型,新增了混合注意力機(jī)制、高稀疏度MoE結(jié)構(gòu)、一系列訓(xùn)練穩(wěn)定友好的優(yōu)化,以及提升推理效率的多Token預(yù)測(MTP)機(jī)制等。
新模型已在魔搭社區(qū)和HuggingFace開源,開發(fā)者們也可通過Qwen Chat免費(fèi)體驗(yàn)或阿里云百煉、NVIDIA API Catalog體驗(yàn)Qwen3-Next。
開發(fā)者在Qwen的X評(píng)論區(qū)稱贊其新增的多Token預(yù)測(MTP)機(jī)制,稱這是最令人印象深刻的部分。
阿里云百煉:https://bailian.console.aliyun.com/?tab=model#/model-market/detail/qwen3?modelGroup=qwen3
一、指令模型接近235B旗艦?zāi)P停评砟P统珿emini-2.5
Qwen3-Next模型支持原生262144個(gè)token上下文長度,可擴(kuò)展至1010000個(gè)token。
總的來看在性能方面,指令模型接近阿里參數(shù)規(guī)模235B的旗艦?zāi)P停季S模型表現(xiàn)優(yōu)于Gemini-2.5-Flash-Thinking。
其基座模型為Qwen3-Next-80B-A3B-Base,僅使用1/10的Non-Embedding激活參數(shù),在大多數(shù)基準(zhǔn)測試中,性能表現(xiàn)與Qwen3-32B-Base相近。但其總訓(xùn)練成本為Qwen3-32B-Base的10%不到,并且對(duì)于超過32K上下文的推理吞吐是Qwen3-32B的10倍以上。
得益于其新的混合模型架構(gòu),Qwen3-Next在推理效率方面,與Qwen3-32B相比,Qwen3-Next-80B-A3B在預(yù)填充(prefill)階段,在4k tokens的上下文長度下,吞吐量接近前者的7倍,當(dāng)上下文長度超過32k時(shí),吞吐提升達(dá)到10倍以上。
在解碼(decode)階段,該模型在4k上下文下實(shí)現(xiàn)近4倍的吞吐提升,在超過32k的長上下文場景中能保持10倍以上的吞吐優(yōu)勢(shì)。
具體來看,其指令模型表現(xiàn)優(yōu)于Qwen3-30B-A3B-Instruct-2507和Qwen3-32B-Non-thinking,并取得了幾乎與參數(shù)規(guī)模更大的Qwen3-235B-A22B-Instruct-2507模型相近的結(jié)果。
只有在面向大模型的綜合性評(píng)測基準(zhǔn)、高難度數(shù)學(xué)推理基準(zhǔn)AIME25中,指令模型的表現(xiàn)略遜色于Qwen3-235B-A22B-Instruct-2507,在編程、復(fù)雜問答與長對(duì)話的評(píng)測中表現(xiàn)更好。
Qwen3-Next-80B-A3B-Instruct在RULER上所有長度的表現(xiàn)明顯優(yōu)于層數(shù)相同、注意力層數(shù)更多的Qwen3-30B-A3B-Instruct-2507,甚至在256k范圍內(nèi)都超過了層數(shù)更多的Qwen3-235B-A22B-Instruct-2507。
思維模型的表現(xiàn)優(yōu)于預(yù)訓(xùn)練成本更高的Qwen3-30B-A3B-Thinking-2507、Qwen3-32B-thinking,全面超過了谷歌的閉源模型Gemini-2.5-Flash-Thinking,并在部分指標(biāo)上接近阿里最新旗艦?zāi)P蚎wen3-235B-A22B-Thinking-2507。
二、混合注意力、MoE、穩(wěn)定優(yōu)化、多Token預(yù)測加持
研究人員在博客中提到,Qwen3-Next是針對(duì)大模型在上下文長度和總參數(shù)兩方面不斷擴(kuò)展(Scaling)的未來趨勢(shì)而設(shè)計(jì)。
Qwen3-Next采用的是Qwen3 36T預(yù)訓(xùn)練語料的一個(gè)均勻采樣子集,包含15T tokens。其訓(xùn)練所消耗的GPU Hours不到Qwen3-30A-3B的80%;與Qwen3-32B相比,僅需9.3%的GPU計(jì)算資源,即可實(shí)現(xiàn)更優(yōu)的模型性能。
這一模型結(jié)構(gòu)相較其4月底推出的Qwen3的MoE模型,新增了多種新技術(shù)并進(jìn)行了核心改進(jìn),包括混合注意力機(jī)制、高稀疏度MoE結(jié)構(gòu)、一系列訓(xùn)練穩(wěn)定友好的優(yōu)化,以及提升推理效率的多Token預(yù)測(MTP)機(jī)制等。
混合注意力機(jī)制:用Gated DeltaNet(線性注意力)和Gated Attention(門控注意力)的組合替換標(biāo)準(zhǔn)注意力,實(shí)現(xiàn)超長上下文長度的有效上下文建模。
研究人員發(fā)現(xiàn)Gated DeltaNet相比常用的滑動(dòng)窗口注意力(Sliding Window Attention)和Mamba2有更強(qiáng)的上下文學(xué)習(xí)能力, 并在3:1的混合比例下,即75%層使用Gated DeltaNet,25%層保留標(biāo)準(zhǔn)注意力,能一致超過超越單一架構(gòu),實(shí)現(xiàn)性能與效率的雙重優(yōu)化。
同時(shí)在保留的標(biāo)準(zhǔn)注意力中,研究人員進(jìn)一步引入多項(xiàng)增強(qiáng)設(shè)計(jì),包括沿用先前工作的輸出門控機(jī)制,緩解注意力中的低秩問題,將單個(gè)注意力頭維度從128擴(kuò)展至256,僅對(duì)注意力頭前25%的位置維度添加旋轉(zhuǎn)位置編碼,提高長度外推效果。
高稀疏度混合專家(MoE):在MoE層中實(shí)現(xiàn)極低的激活比率,大幅減少每個(gè)token的FLOPs,同時(shí)保留模型容量。研究人員的實(shí)驗(yàn)表明,在使用全局負(fù)載均衡后,當(dāng)激活專家固定時(shí),持續(xù)增加專家總參數(shù)可帶來訓(xùn)練loss的穩(wěn)定下降。
此前,Qwen3系列的MoE專家激活比約為1比16,Qwen3-Next實(shí)現(xiàn)了1比50的激活比。
穩(wěn)定性優(yōu)化:包括零中心化和權(quán)重衰減layernorm等技術(shù),以及其他增強(qiáng)穩(wěn)定性以實(shí)現(xiàn)魯棒的預(yù)訓(xùn)練和后訓(xùn)練。研究人員發(fā)現(xiàn),注意力輸出門控機(jī)制能消除注意力池與極大激活等現(xiàn)象,保證模型各部分的數(shù)值穩(wěn)定。
多Token預(yù)測(MTP):提升預(yù)訓(xùn)練模型性能并加速推理,Qwen3-Next特別優(yōu)化了MTP多步推理性能,通過訓(xùn)練推理一致的多步訓(xùn)練,進(jìn)一步提高了實(shí)用場景下的Speculative Decoding接受率。
結(jié)語:3B激活參數(shù)對(duì)標(biāo)旗艦?zāi)P停“⒗飸{架構(gòu)創(chuàng)新為模型降本提速Q(mào)wen3-Next的突破點(diǎn)在于同時(shí)實(shí)現(xiàn)了大規(guī)模參數(shù)容量、低激活開銷、長上下文處理與并行推理加速。此外結(jié)合注意力機(jī)制、MoE設(shè)計(jì)等方面的多項(xiàng)架構(gòu)創(chuàng)新,阿里通義此次實(shí)現(xiàn)僅激活3B參數(shù)模型就能對(duì)標(biāo)規(guī)模更大模型的性能,使得模型在性能與效率之間找到更佳平衡點(diǎn),同時(shí)為降低模型訓(xùn)練、推理成本提供了有效路徑。 研究人員在博客提到,未來他們將持續(xù)優(yōu)化這一架構(gòu)并開發(fā)Qwen3.5。與此同時(shí)近期阿里通義已經(jīng)推出數(shù)個(gè)不同領(lǐng)域的模型,如超萬億參數(shù)的Qwen3-Max-Preview、文生圖及編輯模型Qwen-Image-edit、語音識(shí)別模型Qwen3-ASR-Flash等。隨著其多領(lǐng)域模型的持續(xù)落地與開源,阿里通義在開源社區(qū)的技術(shù)影響力正逐步增強(qiáng)。
中新網(wǎng)北京9月9日電(高琰瑭)“當(dāng)代的太陽系探測,月球探測是起點(diǎn),火星
從哈爾濱工業(yè)大學(xué)研究生院獲悉,2023年哈爾濱工業(yè)大學(xué)碩士研究生入學(xué)考
圖源:cfp2023年10月1日起,《深圳市醫(yī)療保障辦法》(下稱《醫(yī)保辦法》
據(jù)“北京房山”官方公眾號(hào)消息,按照北京市相關(guān)部門要求,9月9日,房山
近日,區(qū)政府召開常務(wù)會(huì)議,區(qū)委副書記、區(qū)長沈山州主持會(huì)議。《黃浦區(qū)
向左轉(zhuǎn)|向右轉(zhuǎn)1、靜靜地(離去)2、靜靜地(思考)3、靜靜地(望著)4
截至2023年9月8日收盤,萊克電氣(603355)報(bào)收于27 36元,上漲0 29%,換
美麗生態(tài)(SZ000010,收盤價(jià):元)9月8日晚間發(fā)布公告稱,本激勵(lì)計(jì)劃授
天下煙火,半湖湘;湘菜高度,看北京。北京,是文化融合之都,也是美食
拓邦股份(002139)09月08日在投資者關(guān)系平臺(tái)上答復(fù)了投資者關(guān)心的問題。
對(duì)講機(jī)行業(yè)市場發(fā)展態(tài)勢(shì)如何?科技飛速進(jìn)步,現(xiàn)代生活逐漸走向智能化,
1、在1個(gè)標(biāo)準(zhǔn)大氣壓和15攝氏度的條件下約為340米/秒,或1224公里/小
《千與千尋》、《龍貓》和《幽靈公主》的電影大師宮崎駿在2013年的電影
2 公務(wù)員考試招生簡章的主要內(nèi)容包括:招生計(jì)劃、招生條件、招生對(duì)象、
諸多的對(duì)于夏天哈爾濱旅游必去景點(diǎn),哈爾濱旅游必去景點(diǎn)這個(gè)問題都頗為
安徽安慶市正式成立“老年助餐慈善基
記者日前從安慶市民政局獲悉,該市慈善會(huì)近日設(shè)立老年助餐慈善基金,共同守護(hù)老年人舌尖上的幸福。該基金專項(xiàng)用于資助城鄉(xiāng)社區(qū)老年食堂、社
安徽淮北積極落實(shí)2022年電網(wǎng)防汛度汛
近日,國網(wǎng)淮北供電公司工作人員來到110千伏中泰變電站開展防汛隱患排查。該公司積極落實(shí)2022年防汛度汛措施,提前細(xì)化應(yīng)急預(yù)案,推進(jìn)極端
安徽全椒縣完善拓展人力信息資源助企
今年以來,全椒縣不斷完善拓展人力資源信息庫、勞務(wù)對(duì)接信息庫、企業(yè)用工需求信息庫三庫信息資源,已摸排400多家次企業(yè)缺工崗位信息1 2萬個(gè)
宿州市埇橋區(qū)柔性引進(jìn)博士推進(jìn)鄉(xiāng)村振
宿州市埇橋區(qū)實(shí)施博士匯工程,柔性引進(jìn)29名博士擔(dān)任副鄉(xiāng)鎮(zhèn)長或園區(qū)副主任,他們將為加快產(chǎn)業(yè)發(fā)展、推進(jìn)鄉(xiāng)村振興強(qiáng)化智力支持。目前,博士專
安徽印發(fā)出臺(tái)全面實(shí)施零基預(yù)算改革方
為進(jìn)一步提高財(cái)政資源配置效率和資金使用效益,省政府印發(fā)《安徽省全面實(shí)施零基預(yù)算改革方案》,明確從編制2023年預(yù)算起,在全省范圍內(nèi)全面
5月份安徽居民消費(fèi)價(jià)格同比上漲2.3%
近日,國家統(tǒng)計(jì)局安徽調(diào)查總隊(duì)發(fā)布了我省5月份居民消費(fèi)價(jià)格統(tǒng)計(jì)數(shù)據(jù)。統(tǒng)計(jì)顯示,我省居民消費(fèi)價(jià)格同比上漲2 3%,同比漲幅比上月回落0 4個(gè)百分
安徽多種方式引導(dǎo)群眾防范非法集資風(fēng)
合肥地鐵1號(hào)線、3號(hào)線上滾動(dòng)播放防范非法集資宣傳視頻,淮南市發(fā)布《致老年群眾的一封信》……6月份是一年一度防范和處置非法集資宣傳月,今
鐵路部門持續(xù)加大長三角地區(qū)運(yùn)力投放
記者從中國鐵路上海局集團(tuán)有限公司獲悉,隨著上海疫情防控形勢(shì)持續(xù)向好,為進(jìn)一步適應(yīng)旅客出行需要,助力復(fù)工復(fù)產(chǎn),鐵路部門自6月10日起持續(xù)加
安徽六安持續(xù)精準(zhǔn)施策全力促進(jìn)工業(yè)發(fā)
六安市與蔚來汽車簽署合作協(xié)議,共建智能電動(dòng)汽車零部件配套產(chǎn)業(yè)園區(qū)。該園區(qū)一期計(jì)劃2023年上半年投產(chǎn),建成后將具備年產(chǎn)30萬噸鋁壓鑄產(chǎn)能,
安徽淮北全力維護(hù)外賣送餐員合法權(quán)益
為切實(shí)防范化解新業(yè)態(tài)領(lǐng)域重大風(fēng)險(xiǎn)隱患,強(qiáng)化外賣送餐員權(quán)益保障工作,淮北市市場監(jiān)管局充分發(fā)揮職能作用,全力維護(hù)外賣送餐員合法權(quán)益。淮北
湖南漣源開展專項(xiàng)行動(dòng)一對(duì)一為企業(yè)紓
位于漣源市的湖南三合美新材料科技有限公司,兩條生產(chǎn)線滿負(fù)荷運(yùn)行,生產(chǎn)聚氨酯和巖棉復(fù)合板。因產(chǎn)品升級(jí)與產(chǎn)能擴(kuò)充,急需新增兩條生產(chǎn)線,
湖南藍(lán)山縣進(jìn)村入戶排查整治自建房安
老叔,這棟房屋墻體有開裂痕跡,要維修加固,安全重要!5月20日,藍(lán)山縣塔峰鎮(zhèn)果木村,黨員干部上門開展農(nóng)村自建房安全隱患排查整治。連日來
一季度湖南萬元產(chǎn)值綜合能耗同比下降
近日,湖南省工業(yè)通信業(yè)節(jié)能監(jiān)察中心發(fā)布一季度全省六大高耗能行業(yè)能源消耗統(tǒng)計(jì)監(jiān)測報(bào)告。據(jù)該報(bào)告,一季度全省146家主要高耗能企業(yè)的萬元
濟(jì)南起步區(qū)一年來累計(jì)簽約優(yōu)質(zhì)項(xiàng)目11
萬里黃河第一隧濟(jì)南黃河濟(jì)濼路隧道建成通車,占地4000余畝的新能源乘用車零部件產(chǎn)業(yè)園加快施工……記者21日采訪獲悉,建設(shè)實(shí)施方案獲批復(fù)一
山東發(fā)布通知啟動(dòng)傳統(tǒng)民居保護(hù)利用試
省住房城鄉(xiāng)建設(shè)廳、省財(cái)政廳近日聯(lián)合印發(fā)《關(guān)于做好傳統(tǒng)民居保護(hù)利用試點(diǎn)工作的通知》,在全省部署開展傳統(tǒng)民居保護(hù)利用試點(diǎn)工作。此次試點(diǎn)