最近,AI大模型训练已经进入“万卡时代”,这个变化正在重塑整个算力产业的竞争格局。你可能听说过训练像GPT-4这样的大模型需要数万张GPU卡,但你知道国内哪些公司已经具备构建万卡集群的能力吗?今天我们就来聊聊这个话题。

为什么万卡集群成了AI竞赛的入场券?
要理解为什么各大公司都在拼命建设万卡集群,我们得先看看AI大模型对算力的惊人需求。OpenAI开发的ChatGPT-4拥有1.8万亿参数,一次训练需要在大约25,000个A100上训练90到100天。这就像是一场马拉松,不是随便谁都能参加的。
Meta在今年3月分享了其两个新的AI训练集群,每个集群都配备了24,576个NVIDIA H100 GPU。而马斯克更是透露,新版Grok 3的训练过程使用了高达10万张H100 GPU。这些数字听起来可能有些抽象,但想想看,如果别人用一个月就能训练出一个大模型,而你需要三年,这场竞赛你还怎么玩?
事实上,以训练一个5000亿参数模型、涉及15TB数据为例,如果只有1000P算力,这个过程将需要长达三年。而如果要将时间限定在两周或一个月内,则至少需要10000P的算力作为保障。这就是为什么业界普遍认为,万卡集群已经成为大模型预训练的标配。
国内万卡集群建设的主力军
在国内,万卡集群的建设已经形成了几个明显的梯队。三大电信运营商无疑是这场竞赛的领跑者。
根据最新信息,中国移动位于呼和浩特、哈尔滨、贵阳的万卡级别的智算中心已经先后投产运行,三大集群总规模近6万张GPU卡。这意味着什么?意味着中国移动已经建立了相当可观的算力基础设施,能够充分满足大模型集中训练的需求。
中国电信也不甘示弱,今年8月,其在上海与北京两大万卡集群已成功投产运营。从布局来看,电信选择在两大核心城市部署万卡集群,战略意图非常明确。
而中国联通虽然没有在参考资料中详细提及具体规模,但从行业趋势来看,肯定也在积极布局。
国产GPU厂商的突破性进展
在硬件层面,国产GPU厂商正在迎头赶上。今年7月3日,摩尔线程宣布其夸娥(KUAE)智算集群解决方案实现重大升级,从千卡级别大幅扩展至万卡规模。这是一个重要的里程碑,因为它标志着国产GPU技术开始具备支撑大规模AI训练的能力。
摩尔线程的创始人兼CEO张建中表示得很清楚:“当前,我们正处在生成式人工智能的黄金时代,GPU成为加速新技术浪潮来临的创新引擎。” 他们的目标很明确——打造国内领先的、能够承载万卡规模、具备万P级浮点运算能力的国产通用加速计算平台。
除了摩尔线程,华为昇腾AI集群的规模在去年已扩展至16000卡;科大讯飞在去年10月宣布启动万卡集群算力平台“飞星一号”。这些进展表明,在AI算力这条赛道上,国产力量正在快速成长。
云计算厂商的深度参与
云计算厂商在万卡集群建设中扮演着关键角色。今年3月,天翼云在上海临港启用了国产万卡算力池。这说明什么?说明万卡集群不仅仅是硬件堆砌,更需要完善的云服务能力来支撑。
各大云计算厂商都在加大投入,将大模型训练集群的规模推向10万卡量级。这种投入不是盲目的跟风,而是基于对AI发展趋势的深刻理解。
“构建国产AI卡的万卡大模型训练平台很难,但也很重要以及必要。”——中国工程院院士郑纬民
这句话道出了当前国产万卡集群建设的核心挑战和价值。难,是因为技术门槛高;重要且必要,是因为这关系到我们在AI时代的核心竞争力。
万卡集群的技术挑战有多大?
构建万卡集群绝不是简单地把一万张GPU卡插在一起就行了。这涉及到极其复杂的硬件和网络架构设计。
AI集群对网络提出了三大极致需求:超大规模扩展、高效低延迟、异构适配。听起来可能有点技术化,但你可以这样理解:就像要组织一万个人同时完成一个复杂任务,他们之间的沟通协作必须极其高效,任何一个人的延迟都会拖慢整个团队。
在技术架构上,业界主要存在两种设计路径:端点调度架构和交换机调度架构。这两种方案各有优劣,选择哪种取决于具体的应用场景和规模需求。
万卡集群的未来发展趋势
从目前的发展态势来看,万卡集群建设呈现出几个明显趋势:
- 规模化持续扩大:从万卡向十万卡级别迈进
- 国产化程度提升:越来越多的国产GPU被用于集群建设
- 地域分布优化:从集中在一线城市向全国主要区域扩展
- 应用场景多元化:从单纯的大模型训练向更广泛的AI应用拓展
根据《智算产业发展研究报告(2024)》显示,在中国,超万卡集群的智算中心已达十余个。这个数字还在持续增长中。
对产业发展的深远影响
万卡集群的兴起不仅仅是一个技术现象,它正在重塑整个AI产业链。对于AI创业公司来说,现在不需要自己投资建设万卡集群,可以通过租用方式获得所需的算力资源。这降低了AI研发的门槛,让更多创新想法有机会变成现实。
万卡集群建设也带动了相关产业链的发展,从GPU硬件到网络设备,从机房建设到运维服务,整个生态都在快速成熟。
国产GPU万卡集群的建设已经形成了运营商、GPU厂商、云计算服务商等多方参与的格局。虽然与国际领先水平相比还有差距,但发展的速度令人印象深刻。随着更多万卡集群的建成投产,我们将看到更多有竞争力的国产大模型涌现,这将为各行各业的智能化转型提供强大的算力支撑。
内容均以整理官方公开资料,价格可能随活动调整,请以购买页面显示为准,如涉侵权,请联系客服处理。
本文由星速云发布。发布者:星速云。禁止采集与转载行为,违者必究。出处:https://www.67wa.com/137291.html