国产万卡集群崛起:谁在领跑AI算力新赛道?

最近科技圈有个词特别火——”万卡集群”。你可能在新闻里看到过,但不太清楚它到底意味着什么。简单来说,这就像AI时代的”超级大脑”,由上万张GPU卡组成,专门用来训练那些动辄千亿、万亿参数的大模型。随着人工智能技术的快速发展,这场算力竞赛已经进入了白热化阶段。

gpu万卡集群哪些公司有

什么是万卡集群?为什么它如此重要?

万卡集群可不是简单的把一万张GPU卡堆在一起就完事了。它实际上是一个高度复杂的技术系统,需要将高性能GPU计算、RDMA网络、并行文件存储和智算平台等多个关键技术有机整合,最终形成一台”超级计算机”。

为什么各大公司都在拼命建设万卡集群呢?原因很简单——大模型的训练需求实在太恐怖了。以OpenAI训练GPT-4为例,它需要使用2.5万张英伟达A100 GPU,并行训练100天左右的时间,处理13万亿个token,涉及约1.76万亿个参数。而且,未来的需求还会更加惊人,预计GPT-5的训练需要部署20万到30万个H100 GPU,耗时130到200天。

中国移动云能力中心的专家牛红韦华说得特别到位:”万卡集群将有助于压缩大模型训练时间,实现模型能力的快速迭代。” 说白了,在这个AI飞速发展的时代,谁能在更短时间内训练出更好的模型,谁就能抢占先机。

国内万卡集群布局全景图

目前国内已经有多家企业在这场算力竞赛中取得了显著进展。从三大运营商到互联网巨头,大家都在积极布局。

三大运营商方面:

  • 中国移动已经商用哈尔滨、呼和浩特、贵阳三个自主可控万卡集群,总规模近6万张GPU卡
  • 中国电信在上海规划建设15000卡、总算力超过4500P的万卡算力池,其上海临港国产万卡算力池已正式启用
  • 中国联通建成了上海临港智算中心,这是中国联通第一个全液冷国产超万卡智算集群

互联网巨头方面:

  • 阿里巴巴在万卡集群建设上算是走得比较早的,2018年就开始研发AI集群,2021年已经升级到”万卡”规模,峰值算力达到了1.5 EFlops
  • 华为在2023年7月将其昇腾AI集群规模从4000卡扩展至16000卡,成为业界首个万卡AI集群
  • 蚂蚁集团最近宣布成功部署万卡规模国产算力集群,其训练与推理性能直接对标国际顶尖水平

国产算力的突破性进展

说到国产算力的突破,蚂蚁集团的案例特别值得一提。他们在2025年11月宣布的成果,可以说代表了国产算力的最新高度。

这个万卡集群实现了三个维度的突破:硬件层面,单集群总算力达到了每秒1.2EFLOPS,集群效率达到国际同类产品的92%;软件层面,自研的”异构算力调度系统”可动态分配不同厂商的国产GPU资源;应用层面,在安全风控场景中实现了98%的训练稳定性。

更让人振奋的是,3000亿参数的MoE大模型在国产GPU上跑出了与英伟达芯片相当的效率,推理延迟仅比英伟达A100集群高8%,训练周期缩短至14天,达到了商用标准。这意味着国产算力不再是”能用”,而是真正”好用”了。

我们解决了国产芯片间的通信延迟问题,集群效率达到国际同类产品的92%。”——蚂蚁集团平台技术事业群总裁骆骥

从”单卡争锋”到”集群竞速”的产业变革

现在的AI算力竞争已经发生了根本性的变化。根据最新的行业报告,我国智算产业发展正从”算力规模竞赛”迈入”体系协同竞争”阶段。简单来说,就是大家不再单纯比谁的单个GPU性能更强,而是比谁能把成千上万张卡更好地组织起来,发挥出最大的整体效能。

这种转变背后有着深刻的逻辑。单个GPU的性能再强,如果不能在集群中高效协同工作,整体算力也会大打折扣。就像一支足球队,光有超级球星不够,还需要良好的团队配合才能赢得比赛。

建设万卡集群面临的挑战

虽然万卡集群听起来很美好,但建设过程中面临着不少挑战。牛红韦华指出了三个主要难题:极致算力使用效率的挑战、数据中心机房先进性的挑战,以及大规模集群建设运维的挑战。

其中最大的难点在于,集群规模的线性提升并不能直接带来有效算力的线性提升。这就好比交通系统,单纯增加车辆数量并不能提高运输效率,反而可能造成拥堵。卡间和节点间的互联网络、软件和硬件的适配调优成为追求集群极致有效算力的关键。

成本问题也是个绕不开的坎。有AI创业公司CTO透露:”当前国产GPU单卡成本比英伟达高30%,但寿命仅为其80%。” 大公司可以通过规模效应摊薄成本,但中小厂商面临的压カ就比较大。

未来展望:国产算力的发展路径

展望未来,万卡甚至超万卡智算集群将会成为智算中心的主要演进趋势。根据《智算产业发展研究报告(2024)》显示,在中国,超万卡集群的智算中心已达十余个,这个数字还在持续增长。

清华大学计算机系张钹院士的点评很中肯:”过去行业总怀疑国产芯片的稳定性,蚂蚁98%的训练成功率打破了这个偏见。”但他同时也指出,国产算力生态仍存在短板,软件栈适配不足,部分开源框架对国产芯片的支持还不完善,这需要全行业协同解决。

从全球视野来看,海外头部厂商在2022年、2023年已经完成万卡集群搭建。比如谷歌在2023年5月推出的AI超级计算机A3,就搭载了约26000块英伟达H100 GPU。这意味着国产算力虽然取得了显著进步,但与国际顶尖水平相比仍有追赶空间。

万卡集群建设已经成为AI时代的基础设施竞赛,不仅关系到单个企业的发展,更关系到整个国家在人工智能领域的竞争力。随着技术的不断突破和生态的逐步完善,国产算力正在迎来属于自己的高光时刻。

内容均以整理官方公开资料,价格可能随活动调整,请以购买页面显示为准,如涉侵权,请联系客服处理。

本文由星速云发布。发布者:星速云。禁止采集与转载行为,违者必究。出处:https://www.67wa.com/137292.html

(0)
上一篇 2025年12月1日 上午8:22
下一篇 2025年12月1日 上午8:23
联系我们
关注微信
关注微信
分享本页
返回顶部