| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

成本暴降90%!阿裡深夜幹了件大事


請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
9月12日凌晨,阿裡通義實驗室正式發布下一代基礎模型架構Qwen3-Next,並訓練了基於該架構的Qwen3-Next-80B-A3B-Base模型,該模型擁有800億個參數僅激活30億個參數。


Base模型在Qwen3預訓練數據的子集15T tokens上進行,僅需Qwen3-32B 9.3%的GPU計算資源,針對超過32k的上下文,推理吞吐量可達到Qwen3-32B的10倍以上。

同時,基於Base模型,阿裡開源了Qwen3-Next-80B-A3B的指令模型(Instruct)和思維模型(Thinking),模型支持原生262144個token上下文長度,可擴展至1010000個token。


其中,Qwen3-Next-80B-A3B-Instruct僅支持指令(非思考)模式,其輸出中不生成塊;Qwen3-Next-80B-A3B-Thinking僅支持思考模式,為了強制模型進行思考,默認聊天模板自動包含。

指令模型的性能表現與參數規模更大的Qwen3-235B-A22B-Instruct-2507相當,思維模型優於谷歌閉源模型Gemini-2.5-Flash-Thinking。

在架構升級方面,相比阿裡4月底的Qwen3 MoE模型,新增了混合注意力機制、高稀疏度MoE結構、一系列訓練穩定友好的優化,以及提升推理效率的多Token預測(MTP)機制等。

新模型已在魔搭社區和HuggingFace開源,開發者們也可通過Qwen Chat免費體驗或阿裡雲百煉、NVIDIA API Catalog體驗Qwen3-Next。

開發者在Qwen的X評論區稱贊其新增的多Token預測(MTP)機制,稱這是最令人印象深刻的部分。




思維模型測試基准

阿裡雲百煉:https://bailian.console.aliyun.com/?tab=model#/model-market/detail/qwen3?modelGroup=qwen3

一、指令模型接近235B旗艦模型,推理模型超Gemini-2.5


Qwen3-Next模型支持原生262144個token上下文長度,可擴展至1010000個token。

總的來看在性能方面,指令模型接近阿裡參數規模235B的旗艦模型,思維模型表現優於Gemini-2.5-Flash-Thinking。

其基座模型為Qwen3-Next-80B-A3B-Base,僅使用1/10的Non-Embedding激活參數,在大多數基准測試中,性能表現與Qwen3-32B-Base相近。但其總訓練成本為Qwen3-32B-Base的10%不到,並且對於超過32K上下文的推理吞吐是Qwen3-32B的10倍以上。



得益於其新的混合模型架構,Qwen3-Next在推理效率方面,與Qwen3-32B相比,Qwen3-Next-80B-A3B在預填充(prefill)階段,在4k tokens的上下文長度下,吞吐量接近前者的7倍,當上下文長度超過32k時,吞吐提升達到10倍以上。


覺得新聞不錯,請點個贊吧     無評論不新聞,發表一下您的意見吧
上一頁123下一頁
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0331 秒 and 5 DB Queries in 0.0029 秒