揭秘超节点,AI算力需要“统一的语言” | 对话华为灵衢 超节点算力的优势和劣势 超节点AI算力
创始人
2025-10-20 15:25:10
0



文|白 鸽

编|王一粟

AI大模型带动的热潮,也在持续地席卷算力行业。

从CPU到GPU,再到NPU,各种AI芯片逐渐成为了市场中的香饽饽。

中国AI芯片也趁此机会开始崛起。从华为、阿里、百度等大厂,到寒武纪、云天励飞、‌壁仞科技‌、摩尔线程等新兴企业,中国AI芯片的单颗能力在不断提升。

但是,哪怕单颗芯片能力再强,算力也不能够满足大模型的需求。

尤其是随着大模型参数的不断翻倍,很多企业可能都会遇见的问题,就是8张卡的服务器根本跑不动,勉强用多台机器拆分任务,结果CPU、AI芯片、存储之间“各说各话”,数据传着传着就“堵车”,算力损耗快到一半。



更要命的在于,不同厂商的设备像说不同方言的人:

A厂的CPU用一套协议,B厂的GPU用另一套,数据从CPU传到GPU,得先“翻译”,一来一回就浪费时间;甚至同一厂商的不同设备,规模扩大后性能也会“打折”,比如10个节点本应发挥10倍算力,实际可能只到1倍,这就是行业常说的“线性度”问题。

单个芯片算力不够用、不同设备沟通有障碍,成了整个行业的“卡脖子”难题。那么,要怎么解决这些问题,才能够支撑大模型的需求?

众所周知,当单独作战打不过之时,团队配合战斗则成为了赢取战争胜利的关键,而中国AI算力突破算力瓶颈的一个关键,就是开始走团队战斗路线。

此前,华为发布了“超节点”架构,配套的技术则是“灵衢”(UnifiedBus)。

简单理解两者的关系,当单颗芯片算力不够用,就需要将多种算力如CPU、GPU、NPU、存力等统一起来干活,超节点架构就是将多种算力部件整合为一个大节点,而互联协议则是让这些部件能顺畅沟通的规则,只有双方相互配合,才能够把整个算力系统的能力提升上去。

其中最核心的就是灵衢技术,其搞出了“算力普通话”,即一套能覆盖所有场景的统一协议,不管是超节点内部的CPU和GPU的沟通,还是超节点之间的集群互联,都不用换“语言”,这就像全国都讲普通话,不用到一个地方学一种方言,沟通效率自然高。

这套“普通话”还打破了两个关键界限:计算机网络,如平时上网的物理层、链路层,以及计算机内部架构,如内存管理、节点控制等。

过去,这俩像两个独立的房间,数据得“开门、进门、再开门”,而灵衢直接拆了两者之间的“墙”,底层用网络逻辑连设备,上层用架构逻辑管资源,数据传输的“路”一下子变通畅了。

同时,灵衢的超节点也不是“把部件堆一起就行”。华为专家强调,灵衢超节点是“超级单一节点”,不是“松散的部件集合”,就像把多间小房子改成一套大平层,所有家具(CPU、GPU、NPU、内存)都连在一条“统一的高速总线”上,不用再绕路,如交换机,过去只是“数据中转站”,现在在灵衢里成了“处理单元”,能直接参与算力协作。

基于这些突破,灵衢要实现四个目标,即让不同算力“组队干活”(提升计算性能)、系统出问题能快速恢复(高可用)、内存带宽等资源“集中共用不浪费”(资源池化)、不同厂商部件“插进去就能用”(组件货架化)。

这些目标的最终目的,都是为了让整个算力系统“更高效、更灵活、更省钱”。

而华为灵衢之所以能够实现“一套通吃”,原因在于,华为从一开始就盯着“整个算力系统”,不是只做单个产品,没有受制于老产品的束缚。

同时,华为灵衢于2019年正式立项,并把华为过去自研IT设备的经验、技术成果,还有搞集群的工程经验全部融入其中,同时还和鲲鹏、昇腾这些华为芯片一起反复测试。

基于这些实践经验,“现在灵衢1.0已经完成产品化,经过了芯片验证、集群交付验证,是工业化级别的可靠系统。”华为集群计算总经理朱照生说。


华为集群计算总经理朱照生

同时,在具体落地客户实践场景中,也会考虑客户原有设备,比如客户已有以太网,灵衢也能直接在上面跑,不用大改基础设施,还能和现有的应用互通。

而为了让更多的厂商参与进来,华为还开放了灵衢的“全套说明书”,即从物理层到事务层的协议规范全公开,甚至找了第三方做“协议验证仪”。

“不管是做CPU的、做GPU的,只要按规范做,就能用灵衢,未来还能通过第三方验证是不是符合标准。”朱照生说到,“说实话,灵衢发布后,已经有很多厂商找过来跟我们交流,这已经超出了我们最初的预期。”毕竟,在其预期中,可能只有2-3家头部厂商会找过来。

业内皆知,过去,不同厂商的协议不互通,客户只能“绑定一家”,选择少还贵。但现在灵衢开放了协议,不管是华为的竞争对手,还是中小厂商,都能基于灵衢做产品。

朱照生说:“我们希望先做企标,再慢慢形成团标、甚至国标,让大家一起把算力基础设施做好。”比如某厂商想做GPU,不用自己再搞一套协议,直接用灵衢,就能和华为的CPU、其他厂商的存储兼容,大大降低了研发成本。

据灵衢系统架构师介绍,在AI大模型训练场景,通过超节点互联降低通信占比,端到端性能收益达到20%+;通算数据库场景,通过三层池化支撑多写多读,TPCC提升20%。结论表明,灵衢技术特别适合高并行、高同步的负载特征场景,能为业务带来显著提升。

另外,当前行业关于超节点是否越大越好也存在着诸多争议。对此,朱照生的回答很坦诚:“现在没人能说清‘甜点区’在哪,因为AI的发展总是超出预期。我们能做的,就是把超节点的规模做大,给行业留足空间。”

因此,灵衢2.0作为核心技术底座,支撑华为发布两款超大规模算力产品,覆盖不同阶段需求:

Atlas 950 SuperCluster(2026年Q4上市):由64个Atlas 950超节点组成,FP8算力达524 EFLOPS,规模与算力超过当前全球最大集群xAI Colossus;

Atlas 960 SuperCluster(2027年Q4上市):百万卡级集群,FP8算力2 ZFLOPS、FP4算力4 ZFLOPS,支持UBoE(灵衢推荐模式)与RoCE协议,适配未来更大规模AI训练、推理需求;

越大的超节点集群,整体算力性能越突出,以Atlas 950 SuperPoD为例,其支持8192张昇腾卡,训练吞吐达4.91M TPS,推理吞吐达19.6MTPS,远超前代产品。

“如果我们不能够准确预判未来负载模型一旦收敛于某一类模型某一个大小,我们就没法在算力基础设施层面给它设个框,如果设定那个框,那个框一定会反过来制约模型发展。”朱照生说。

当前,我们不难发现:算力的竞争,早已不是“单芯片谁更强”,而是“系统谁更高效”。

灵衢的价值,就在于用一套“通用语言”,把分散的算力聚合成一股力量,它或许不会马上改变所有,但至少给行业指了一个方向:未来的计算,不该有“语言壁垒”,不该有“设备孤岛”。

相关内容

热门资讯

V观财报|2连板三联锻造:经营... 【V观财报|2连板三联锻造:经营环境未发生重大变化】2连板三联锻造公告,公司未发现近期公共传媒报道了...
人类史上最大抄家案?华人受害,... *此图由AI生成作者| 史大郎&猫哥来源| 是史大郎&大猫财经Pro最近,英美联手制裁了一家柬埔寨公...
2.3亿元资金抢筹大洋电机,机... 10月20日,上证指数上涨0.63%,深证成指上涨0.98%,创业板指上涨1.98%。盘后龙虎榜数据...
为新能源再投10亿,苹果为何还... 10月14日,科技巨头苹果公司一则消息再次引发行业聚焦。苹果公司宣布,其在中国超过90%的生产制造环...
10月20日沪深两市强势个股与... 一、强势个股截至10月20日收盘,上证综指上涨0.63%,收于3863.89点,深证成指上涨0.98...
多股起飞!培育钻石概念狂飙,惠... 10月20日,A股市场冲高回落,创业板指一度涨超3%。板块上,培育钻石概念午后大幅拉升。惠丰钻石30...
通航城市超260个 我国四大世... 现在各地的机场越来越多、航线也更加四通八达。这五年,我国民航每年投入基础设施的资金均超过1000亿元...
苏超,明年有新变化!省政府再做... 10月18日晚,南京队球员(蓝)与泰州队球员在比赛中比拼。中新社记者 泱波 摄文/段修健气氛紧张!1...
最高涨18%,周大福年内再提价... 品牌“一口价”金饰再次传来涨价声音。10月20日,周大福珠宝表示,考虑到金价持续上涨对成本的影响,集...
片仔癀交出近10年最差季报:营... 近日,片仔癀公布三季报显示,今年前三季度,片仔癀实现营收74.4亿元,同比下降11.9%;归母净利润...