企业宣传,产品推广,广告招商,广告投放联系seowdb

HPN 训练的万卡集群 针对大规模 阿里 LLM

一、背景

之前的文章中咱们详细引见了万卡 GPU 集群中的网络拓扑以及在万卡 GPU 集群中启动大规模 LLM 训练面对的应战和处置打算;也进一步引见了阿里云的汇合通讯调度框架 C4 和 C4 底层的阿里云新一代智算集群网络架构 HPN 7.0。不过上述 HPN 7.0 的关系引见都是基于阿里官方或许之前的地下分享,最近阿里正式发布了 HPN 相应的 Paper,与咱们之前了解到的稍有不同,此处启动相应补充。无关双上联、双平面引见这里不再赘述。

对应的论文:​ ​​ ​

上方提到的几个引见可以参考:

二、拓扑

如下图所示为咱们之前引见的拓扑模式(图片来自 Revolutionizing>

如下图 Figure 7 所示,在 HPN Paper 中的拓扑模式与咱们之前看到的稍有不同(双上联、双平面等思绪都是齐全一样的),咱们这里便捷启动引见:

后向网络:有收敛,经常使用每个节点 9 个 NIC 中的 NIC1-NIC9 这 8 个互联,重要用于大规模散布式训练,并且一个 GPU 衔接一个 NIC。

前向网络:无收敛,经常使用每个节点 9 个 NIC 中的 NIC0 互联。为了允许更多的场景,比如训练/推理混部,模型传输,数据加载等场景。

一个 Segment 外面依然有 16 个 ToR 交流机,每个交流机 128 个 Gbps Port,然而有 60 衔接 Spine 交流机,68 个衔接节点的 NIC。

68 个 Gbps Port 可以对应 136 个 200Gbps NIC Port,也就是一个 Segment 外面 136 个节点,共 138*8=1104 个 GPU。

实践上 136 个节点中有 8 个是备份,以便节点缺点(比如 GPU、网卡、硬盘、CPU 等)时可以极速交流。实践经常使用 128 个节点,共 1024 GPU,对应的网络收敛比为 (1024*)/(60**16)=1.067:1。

Pod:一个 Pod 中的 Segment 从 8 个变成 15 个,所以最多能允许 15*1024=15K GPU。

三、附录

3.1 单 Segment 千卡

如下图 Figure 6 所示,消费环境中 96.3% 的训练义务须要的 GPU 数都不超越 1024 GPU,也就是都可以放在 1 个 Segment 里,这样通讯是十分高效的,不同 GPU 通讯最多只用经过 1 跳即可:

3.2 多 Pod 互联

HPN 中在 Core 交流机上驳回 15:1 的收敛比,也就是有额外 87.5% 的 Port 可以用于同一个 Pod 中的 Segment。所以同一个 Pod 的 Segment 从 8 个变成 15 个,GPU 数从 8192 参与到 15360,可以允许更多的义务在同一 Pod 外口头。同一个 Pod 内的 GPU 通讯最多只用经过 3 跳即可,而假设是 3 Tier 网络,则最多或许须要 5 跳。

那么为什么没有间接搞成 2 Tier 网络呢?重要是还需思考到技术的演进,模型在始终扩展,训练的数据也越来越多,相应须要的 GPU 也就越来越多,这就很难说能否未来的某一天须要超越 15K GPU 来训练大模型。与此同时,大模型训练理论会经常使用 DP(Data Parallelism)、TP(Tensor Parallelism)和 PP(Pipeline Parallelism)技术,而 PP 相对 DP 和 TP 的通讯量要小得多,如下图 Table 3 所示(GPT-175B,TP=8,PP=8,DP=512),因此就可以思考为其提供较低的通讯带宽,比如跨 Pod。

3.3 大规模预训练对比

如下图 Figure 20 所示为作者原来经常使用的 DCN+ 集群拓扑,驳回无收敛设计。一个 Segment 中只要 16 个节点,128 个 GPU,一个 Pod 只要 512 个 GPU:

作者用一个相反的 LLM 预训练义务启动了对比,该义务须要 2300+ GPU,共 288+ 个节点,训练几个月。在 DCN+ 中须要至少 5 个 Pod,19 个 Segment,而在 HPN 中只要要 3 个 Segment。如下图 Figure 15所示:

四、参考链接

本文转载自​​,作者:

© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender