币圈新手入门教程
用户
  • 文章
  • 用户

开启精彩搜索

首页> 资讯> 正文

阿里巴巴通义千问 Qwen3-Next 升级:更智能、更经济、更绿色

近日,阿里巴巴通义千问团队正式推出了全新的Qwen3-Next模型架构,并同步开源了基于这一架构的Qwen3-Next-80B-A3B系列模型。

相比上一代产品,新版本在训练成本、推理效率以及超长上下文处理能力上都有大幅提升,引发了业界广泛关注。

更高效的模型设计

Qwen3-Next 的总参数量达到800 亿,但在实际推理过程中只需激活约 30 亿参数。这得益于其架构上的多项创新:

混合注意力机制:让模型在不同场景下更高效地处理信息。

高稀疏度专家混合结构(MoE):在保证性能的同时显著降低计算开销。

多 token 预测机制:提升长文本推理的吞吐效率。

训练稳定性优化:在大规模训练过程中更稳定、更高效。

这些改进不仅提升了模型在复杂任务中的表现,也让其在资源消耗上更具优势。

640?wx_fmt=jpeg&from=appmsg

性能提升一览

根据公开报道,Qwen3-Next 相比上一代 dense 模型Qwen3-32B,在多个方面有明显提升:

训练成本:降低约90%。

推理效率:在一般场景中速度提升数倍,在超长文本(32K token 以上)场景下,吞吐率提升超过 10 倍。

性能表现:在多数下游任务中,Qwen3-Next 的基础版(Base)已经超越 Qwen3-32B-Base。

特别是在超长上下文处理方面,Qwen3-Next 拥有明显优势,这对于法律文书、科研论文、大规模代码库等场景都有重要意义。

多版本满足不同需求

此次开源的 Qwen3-Next-80B-A3B 系列包含多个版本,适配不同任务:

Base:通用版本,用于研究与基线对比。

Instruct:指令调优版本,更适合对话、问答、命令执行等场景。

Thinking:强化推理能力的版本,专注复杂推理任务,在部分测试中表现超过前代模型,甚至超过部分闭源大模型。

640?wx_fmt=jpeg&from=appmsg

开源与应用

阿里巴巴已将 Qwen3-Next 系列全面开源,开发者和研究者可在Hugging Face、魔搭社区下载模型,也可通过阿里云百炼平台 API或通义千问 直接体验。

这一开放举措,不仅推动学术研究,也加速产业落地,尤其适合法律、科研、教育等需要处理超长文本的场景。

写在最后:Qwen3‑Next 的价值与前景

Qwen3‑Next 的发布,体现了阿里巴巴通义千问在国产大模型研发上的新突破:

技术升级:在效率、成本、长文本处理能力上实现明显提升。

产业应用价值:低成本、高效率的特性,使模型更适合企业部署和行业落地。

开源生态:开放下载和 API 接入,助力研究者和开发者进行二次开发和创新。

可持续发展:高效架构降低资源消耗,符合行业对绿色 AI 的期待,也便于持续迭代和优化。

可以说,Qwen3‑Next 不仅是一款性能强大的大模型,更是阿里巴巴在 AI 产业布局中,为企业和开发者提供的一张“新名片”,标志着国产大模型在效率、应用落地和开放生态上的新高度。

©版权声明

文章版权归作者所有,未经允许请勿转载,同时本站内容仅代表我们个人的观点,均不构成投资建议。

THE END

相关推荐

风险提示

防范以"虚拟货币""区块链"名义进行非法集资的风险

----银保监会等五部门

热门百科