官方网站-首页
我国超大规模智算集群管控达领先水平:中国移动实现智算万卡池在长周期训练场景持续稳定运行
【导语】10月14日消息,据人民邮电报报道,中国移动近期实现智算万卡池长周期训练持续稳定运行,攻克超大规模算力集群调度等难题,训练稳定性达行业领先;其主导研发的全调度以太网技术体系及系列新技术,大幅缩短大模型训练周期、提升资源利用率;此外,中国移动宣布升级“AI+”行动计划,明确2028年底总体投入翻番,探索十万卡智算集群建设。

10 月 14 日消息,据人民邮电报报道,中国移动近期实现了智算万卡池在长周期训练场景下持续稳定运行,训练稳定性达到行业领先水平,标志着我国在超大规模智算集群管控领域已具备领先水平,解决了超大规模算力集群调度、高可靠通信保障、故障智能诊断与快速自愈等业界难题。
据介绍,人工智能技术正迎来爆发式的发展,大模型参数规模正向万亿级升级,因此智算基础设施的算力密度、稳定性和协同效率面临挑战,万卡级规模协同训练场景是全球普遍面临智算集群稳定性问题。
中国移动基于哈尔滨数据中心智算集群,主导研发全调度以太网(GSE)技术体系,打造慢卡慢网络风险识别、断点续训、AI 运维智能体等新技术,攻克了超大规模智算基础设施运行的关键技术难题。在关键技术突破层面,团队重点攻关三大核心难题:
创新慢卡慢网络风险识别技术,实现典型场景故障全部感知、提升诊断准确率
研发断点续训机制,实现故障节点自动隔离后训练状态的分钟级回滚,硬件故障导致的断训量下降 50%
引入 AI 运维智能体,通过多层架构日志(zhì)分(fēn)析(xī)系(xì)统(tǒng)实(shí)现(xiàn)分(fēn)钟(zhōng)级(jí)故(gù)障(zhàng)定(dìng)界(jiè),覆(fù)盖(gài) 25 类(lèi)软(ruǎn)硬(yìng)件(jiàn)故(gù)障(zhàng)解(jiě)决(jué)方(fāng)案(àn),将(jiāng)故(gù)障(zhàng)处(chù)理(lǐ)时(shí)长(zhǎng)从(cóng)数(shù)天(tiān)级(jí)降(jiàng)至(zhì)分(fēn)钟(zhōng)级(jí)
从(cóng)人(rén)民(mín)邮(yóu)电(diàn)报(bào)报(bào)道(dào)获(huò)悉(xī),长(zhǎng)稳(wěn)运(yùn)行(xíng)能(néng)力(lì)直(zhí)接(jiē)将(jiāng)大(dà)模(mó)型(xíng)训(xun)练(liàn)周(zhōu)期(qī)缩(suō)短(duǎn)近(jìn)三(sān)分(fēn)之(zhī)一(yī),资(zī)源(yuán)利(lì)用(yòng)率(lǜ)近(jìn) 100%,为(wèi) AI 技(jì)术(shù)工(gōng)业(yè)化(huà)量(liàng)产(chǎn)奠(diàn)定(dìng)基(jī)础(chǔ),可(kě)支(zhī)撑(chēng)自(zì)动(dòng)驾(jià)驶(shǐ)、生(shēng)物(wù)医(yī)药(yào)、新(xīn)材(cái)料(liào)研(yán)发(fā)等(děng)前(qián)沿(yán)领(lǐng)域技(jì)术(shù)进(jìn)步(bù)。此(cǐ)外(wài),中(zhōng)国(guó)移(yí)动(dòng)还在黑龙江、广东(dōng)打(dǎ)造(zào)了(le)智(zhì)算(suàn)运(yùn)维(wéi)样(yàng)板(bǎn)间(jiān)。
值(zhí)得(de)一(yī)提(tí)的(de)是(shì),在(zài)今(jīn)年(nián) 10 月(yuè) 11 日(rì)的(de) 2025 中(zhōng)国(guó)移(yí)动(dòng)全球(qiú)合(hé)作(zuò)伙(huǒ)伴(bàn)大(dà)会(huì)主论(lùn)坛(tán)上(shàng),中国移动宣布升级“AI+”行动计划,明确到 2028 年底,中国移动将持续加大对人工智能领域的投入力度,总体投入翻一番,建成国内规模最大、技术领先(xiān)的(de)智(zhì)算(suàn)基(jī)础(chǔ)设(shè)施(shī),探(tàn)索(suǒ)十(shí)万(wàn)卡(kǎ)智(zhì)算(suàn)集群(qún)建(jiàn)设(shè),全国(guó)产(chǎn)智(zhì)能(néng)算(suàn)力(lì)规(guī)模(mó)突(tū)破(pò) 100 EFLOPS。
微信公众号搜索“ 新能源 ”加关注,最新环卫前沿洞察、企业动态、产品公告全面了解。推荐关注!
【微信扫描下方二维码可直接关注】



