成本暴降90%!阿裡深夜幹了件大事

2025-09-12 | 來源: 智東西 | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

9月12日凌晨，阿裡通義實驗室正式發布下一代基礎模型架構Qwen3-Next，並訓練了基於該架構的Qwen3-Next-80B-A3B-Base模型，該模型擁有800億個參數僅激活30億個參數。

Base模型在Qwen3預訓練數據的子集15T tokens上進行，僅需Qwen3-32B 9.3%的GPU計算資源，針對超過32k的上下文，推理吞吐量可達到Qwen3-32B的10倍以上。

同時，基於Base模型，阿裡開源了Qwen3-Next-80B-A3B的指令模型（Instruct）和思維模型（Thinking），模型支持原生262144個token上下文長度，可擴展至1010000個token。

其中，Qwen3-Next-80B-A3B-Instruct僅支持指令（非思考）模式，其輸出中不生成塊；Qwen3-Next-80B-A3B-Thinking僅支持思考模式，為了強制模型進行思考，默認聊天模板自動包含。

指令模型的性能表現與參數規模更大的Qwen3-235B-A22B-Instruct-2507相當，思維模型優於谷歌閉源模型Gemini-2.5-Flash-Thinking。

在架構升級方面，相比阿裡4月底的Qwen3 MoE模型，新增了混合注意力機制、高稀疏度MoE結構、一系列訓練穩定友好的優化，以及提升推理效率的多Token預測（MTP）機制等。

新模型已在魔搭社區和HuggingFace開源，開發者們也可通過Qwen Chat免費體驗或阿裡雲百煉、NVIDIA API Catalog體驗Qwen3-Next。

開發者在Qwen的X評論區稱贊其新增的多Token預測（MTP）機制，稱這是最令人印象深刻的部分。

全球連爆兩件大事,川普"強人領袖"形象沒了

向西! 一路向西! 中亞方向中國正在幹大事!

怕龔家父子埋伏住處外江祖平深夜突貼全黑圖

思維模型測試基准

阿裡雲百煉：https://bailian.console.aliyun.com/?tab=model#/model-market/detail/qwen3?modelGroup=qwen3

一、指令模型接近235B旗艦模型，推理模型超Gemini-2.5

Qwen3-Next模型支持原生262144個token上下文長度，可擴展至1010000個token。

總的來看在性能方面，指令模型接近阿裡參數規模235B的旗艦模型，思維模型表現優於Gemini-2.5-Flash-Thinking。

其基座模型為Qwen3-Next-80B-A3B-Base，僅使用1/10的Non-Embedding激活參數，在大多數基准測試中，性能表現與Qwen3-32B-Base相近。但其總訓練成本為Qwen3-32B-Base的10%不到，並且對於超過32K上下文的推理吞吐是Qwen3-32B的10倍以上。