• <li id="yeaqi"><button id="yeaqi"></button></li>
  • <fieldset id="yeaqi"></fieldset>
    <fieldset id="yeaqi"><table id="yeaqi"></table></fieldset>

    •  

      阿里深夜干了件大事,成本暴降90%!
      發(fā)布時(shí)間:2025-09-12 19:06:09 文章來源:智東西
      智東西作者|程茜編輯|心緣智東西9月12日?qǐng)?bào)道,今天凌晨,阿里通義實(shí)驗(yàn)

      智東西


      (資料圖片)

      作者 | 程茜

      編輯 | 心緣

      智東西9月12日?qǐng)?bào)道,今天凌晨,阿里通義實(shí)驗(yàn)室正式發(fā)布下一代基礎(chǔ)模型架構(gòu)Qwen3-Next,并訓(xùn)練了基于該架構(gòu)的Qwen3-Next-80B-A3B-Base模型,該模型擁有800億個(gè)參數(shù)僅激活30億個(gè)參數(shù)。

      Base模型在Qwen3預(yù)訓(xùn)練數(shù)據(jù)的子集15T tokens上進(jìn)行,僅需Qwen3-32B 9.3%的GPU計(jì)算資源,針對(duì)超過32k的上下文,推理吞吐量可達(dá)到Qwen3-32B的10倍以上。

      同時(shí),基于Base模型,阿里開源了Qwen3-Next-80B-A3B的指令模型(Instruct)和思維模型(Thinking),模型支持原生262144個(gè)token上下文長度,可擴(kuò)展至1010000個(gè)token。

      其中,Qwen3-Next-80B-A3B-Instruct僅支持指令(非思考)模式,其輸出中不生成塊;Qwen3-Next-80B-A3B-Thinking僅支持思考模式,為了強(qiáng)制模型進(jìn)行思考,默認(rèn)聊天模板自動(dòng)包含。

      指令模型的性能表現(xiàn)與參數(shù)規(guī)模更大的Qwen3-235B-A22B-Instruct-2507相當(dāng),思維模型優(yōu)于谷歌閉源模型Gemini-2.5-Flash-Thinking。

      ▲指令模型測試基準(zhǔn)

      ▲思維模型測試基準(zhǔn)

      在架構(gòu)升級(jí)方面,相比阿里4月底的Qwen3 MoE模型,新增了混合注意力機(jī)制、高稀疏度MoE結(jié)構(gòu)、一系列訓(xùn)練穩(wěn)定友好的優(yōu)化,以及提升推理效率的多Token預(yù)測(MTP)機(jī)制等。

      新模型已在魔搭社區(qū)和HuggingFace開源,開發(fā)者們也可通過Qwen Chat免費(fèi)體驗(yàn)或阿里云百煉、NVIDIA API Catalog體驗(yàn)Qwen3-Next。

      開發(fā)者在Qwen的X評(píng)論區(qū)稱贊其新增的多Token預(yù)測(MTP)機(jī)制,稱這是最令人印象深刻的部分。

      阿里云百煉:https://bailian.console.aliyun.com/?tab=model#/model-market/detail/qwen3?modelGroup=qwen3

      一、指令模型接近235B旗艦?zāi)P停评砟P统珿emini-2.5

      Qwen3-Next模型支持原生262144個(gè)token上下文長度,可擴(kuò)展至1010000個(gè)token。

      總的來看在性能方面,指令模型接近阿里參數(shù)規(guī)模235B的旗艦?zāi)P停季S模型表現(xiàn)優(yōu)于Gemini-2.5-Flash-Thinking。

      其基座模型為Qwen3-Next-80B-A3B-Base,僅使用1/10的Non-Embedding激活參數(shù),在大多數(shù)基準(zhǔn)測試中,性能表現(xiàn)與Qwen3-32B-Base相近。但其總訓(xùn)練成本為Qwen3-32B-Base的10%不到,并且對(duì)于超過32K上下文的推理吞吐是Qwen3-32B的10倍以上。

      得益于其新的混合模型架構(gòu),Qwen3-Next在推理效率方面,與Qwen3-32B相比,Qwen3-Next-80B-A3B在預(yù)填充(prefill)階段,在4k tokens的上下文長度下,吞吐量接近前者的7倍,當(dāng)上下文長度超過32k時(shí),吞吐提升達(dá)到10倍以上。

      在解碼(decode)階段,該模型在4k上下文下實(shí)現(xiàn)近4倍的吞吐提升,在超過32k的長上下文場景中能保持10倍以上的吞吐優(yōu)勢(shì)。

      具體來看,其指令模型表現(xiàn)優(yōu)于Qwen3-30B-A3B-Instruct-2507和Qwen3-32B-Non-thinking,并取得了幾乎與參數(shù)規(guī)模更大的Qwen3-235B-A22B-Instruct-2507模型相近的結(jié)果。

      只有在面向大模型的綜合性評(píng)測基準(zhǔn)、高難度數(shù)學(xué)推理基準(zhǔn)AIME25中,指令模型的表現(xiàn)略遜色于Qwen3-235B-A22B-Instruct-2507,在編程、復(fù)雜問答與長對(duì)話的評(píng)測中表現(xiàn)更好。

      Qwen3-Next-80B-A3B-Instruct在RULER上所有長度的表現(xiàn)明顯優(yōu)于層數(shù)相同、注意力層數(shù)更多的Qwen3-30B-A3B-Instruct-2507,甚至在256k范圍內(nèi)都超過了層數(shù)更多的Qwen3-235B-A22B-Instruct-2507。

      思維模型的表現(xiàn)優(yōu)于預(yù)訓(xùn)練成本更高的Qwen3-30B-A3B-Thinking-2507、Qwen3-32B-thinking,全面超過了谷歌的閉源模型Gemini-2.5-Flash-Thinking,并在部分指標(biāo)上接近阿里最新旗艦?zāi)P蚎wen3-235B-A22B-Thinking-2507。

      二、混合注意力、MoE、穩(wěn)定優(yōu)化、多Token預(yù)測加持

      研究人員在博客中提到,Qwen3-Next是針對(duì)大模型在上下文長度和總參數(shù)兩方面不斷擴(kuò)展(Scaling)的未來趨勢(shì)而設(shè)計(jì)。

      Qwen3-Next采用的是Qwen3 36T預(yù)訓(xùn)練語料的一個(gè)均勻采樣子集,包含15T tokens。其訓(xùn)練所消耗的GPU Hours不到Qwen3-30A-3B的80%;與Qwen3-32B相比,僅需9.3%的GPU計(jì)算資源,即可實(shí)現(xiàn)更優(yōu)的模型性能。

      這一模型結(jié)構(gòu)相較其4月底推出的Qwen3的MoE模型,新增了多種新技術(shù)并進(jìn)行了核心改進(jìn),包括混合注意力機(jī)制、高稀疏度MoE結(jié)構(gòu)、一系列訓(xùn)練穩(wěn)定友好的優(yōu)化,以及提升推理效率的多Token預(yù)測(MTP)機(jī)制等。

      混合注意力機(jī)制:用Gated DeltaNet(線性注意力)和Gated Attention(門控注意力)的組合替換標(biāo)準(zhǔn)注意力,實(shí)現(xiàn)超長上下文長度的有效上下文建模。

      研究人員發(fā)現(xiàn)Gated DeltaNet相比常用的滑動(dòng)窗口注意力(Sliding Window Attention)和Mamba2有更強(qiáng)的上下文學(xué)習(xí)能力, 并在3:1的混合比例下,即75%層使用Gated DeltaNet,25%層保留標(biāo)準(zhǔn)注意力,能一致超過超越單一架構(gòu),實(shí)現(xiàn)性能與效率的雙重優(yōu)化。

      同時(shí)在保留的標(biāo)準(zhǔn)注意力中,研究人員進(jìn)一步引入多項(xiàng)增強(qiáng)設(shè)計(jì),包括沿用先前工作的輸出門控機(jī)制,緩解注意力中的低秩問題,將單個(gè)注意力頭維度從128擴(kuò)展至256,僅對(duì)注意力頭前25%的位置維度添加旋轉(zhuǎn)位置編碼,提高長度外推效果。

      高稀疏度混合專家(MoE):在MoE層中實(shí)現(xiàn)極低的激活比率,大幅減少每個(gè)token的FLOPs,同時(shí)保留模型容量。研究人員的實(shí)驗(yàn)表明,在使用全局負(fù)載均衡后,當(dāng)激活專家固定時(shí),持續(xù)增加專家總參數(shù)可帶來訓(xùn)練loss的穩(wěn)定下降。

      此前,Qwen3系列的MoE專家激活比約為1比16,Qwen3-Next實(shí)現(xiàn)了1比50的激活比。

      穩(wěn)定性優(yōu)化:包括零中心化和權(quán)重衰減layernorm等技術(shù),以及其他增強(qiáng)穩(wěn)定性以實(shí)現(xiàn)魯棒的預(yù)訓(xùn)練和后訓(xùn)練。研究人員發(fā)現(xiàn),注意力輸出門控機(jī)制能消除注意力池與極大激活等現(xiàn)象,保證模型各部分的數(shù)值穩(wěn)定。

      多Token預(yù)測(MTP):提升預(yù)訓(xùn)練模型性能并加速推理,Qwen3-Next特別優(yōu)化了MTP多步推理性能,通過訓(xùn)練推理一致的多步訓(xùn)練,進(jìn)一步提高了實(shí)用場景下的Speculative Decoding接受率。

      結(jié)語:3B激活參數(shù)對(duì)標(biāo)旗艦?zāi)P停“⒗飸{架構(gòu)創(chuàng)新為模型降本提速Q(mào)wen3-Next的突破點(diǎn)在于同時(shí)實(shí)現(xiàn)了大規(guī)模參數(shù)容量、低激活開銷、長上下文處理與并行推理加速。此外結(jié)合注意力機(jī)制、MoE設(shè)計(jì)等方面的多項(xiàng)架構(gòu)創(chuàng)新,阿里通義此次實(shí)現(xiàn)僅激活3B參數(shù)模型就能對(duì)標(biāo)規(guī)模更大模型的性能,使得模型在性能與效率之間找到更佳平衡點(diǎn),同時(shí)為降低模型訓(xùn)練、推理成本提供了有效路徑。 研究人員在博客提到,未來他們將持續(xù)優(yōu)化這一架構(gòu)并開發(fā)Qwen3.5。與此同時(shí)近期阿里通義已經(jīng)推出數(shù)個(gè)不同領(lǐng)域的模型,如超萬億參數(shù)的Qwen3-Max-Preview、文生圖及編輯模型Qwen-Image-edit、語音識(shí)別模型Qwen3-ASR-Flash等。隨著其多領(lǐng)域模型的持續(xù)落地與開源,阿里通義在開源社區(qū)的技術(shù)影響力正逐步增強(qiáng)。

      樂活HOT

      娛樂LOVE