2025年9月12日凌晨,阿里通义实验室正式发布下一代基础模型架构Qwen3-Next,并训练了基于该架构的Qwen3-Next-80B-A3B-Base模型。以下是关于Qwen3-Next的详细介绍:模型参数与性能:Qwen3-Next-80B-A3B-Base模型拥有800亿个参数,仅激活30亿个参数。其在Qwen3预训练数据的子集上训练,包含15T tokens训练数据,仅需Qwen3-32B 9.3%的GPU计算资源,针对超过32k的上下文,推理吞吐量可达到Qwen3-32B的10倍以上。开源模型版本:基于Base模型,阿里开源了Qwen3-Next-80B-A3B的指令模型(Instruct)和思维模型(Thinking),模型支持原生262144个token上下文长度,可扩展至1010000个token。其中,Qwen3-Next-80B-A3B-Instruct仅支持指令模式,其输出中不生成块;Qwen3-Next-80B-A3B-Thinking仅支持思考模式。指令模型的性能表现与参数规模更大的Qwen3-235B-A22B-Instruct-2507相当,思维模型优于谷歌闭源模型Gemini-2.5-Flash-Thinking。架构升级改进: 混合注意力机制:用Gated DeltaNet(线性注意力)和Gated Attention(门控注意力)的组合替换标准注意力,75%的层使用Gated DeltaNet,25%的层保留标准注意力,能一致超过超越单一架构,实现性能与效率的双重优化。 高稀疏度MoE结构:Qwen3-Next的MoE层实现了1比50的激活比,创下业界新高。相比Qwen3系列之前约1比16的MoE专家激活比,新架构扩展到了512总专家,10路由专家与1共享专家的组合,大幅减少每个token的FLOPS。 训练稳定优化:包括零中心化和权重衰减LayerNorm等技术,以及其他增强稳定性以实现鲁棒的预训练和后训练。注意力输出门控机制能消除注意力池与极大激活等现象,保证模型各部分的数值稳定。 多Token预测(MTP)机制:Qwen3-Next特别优化了MTP多步推理性能,通过训练推理一致的多步训练,进一步提高了实用场景下的投机采样接受率,提升了预训练模型性能并加速推理。开源与使用方式:新模型已在魔搭社区和Hugging Face开源,开发者也可通过Qwen Chat或阿里云百炼、NVIDIA API Catalog体验Qwen3-Next。
|
|