HPN 训练的万卡集群针对大规模阿里 LLM

koi

2024-11-15 00:05:45发布
关注私信

244 638 311

一、背景

之前的文章中咱们详细引见了万卡 GPU 集群中的网络拓扑以及在万卡 GPU 集群中启动大规模 LLM 训练面对的应战和处置打算；也进一步引见了阿里云的汇合通讯调度框架 C4 和 C4 底层的阿里云新一代智算集群网络架构 HPN 7.0。不过上述 HPN 7.0 的关系引见都是基于阿里官方或许之前的地下分享，最近阿里正式发布了 HPN 相应的 Paper，与咱们之前了解到的稍有不同，此处启动相应补充。无关双上联、双平面引见这里不再赘述。

对应的论文：

上方提到的几个引见可以参考：

二、拓扑

如下图所示为咱们之前引见的拓扑模式（图片来自 Revolutionizing>

如下图 Figure 7 所示，在 HPN Paper 中的拓扑模式与咱们之前看到的稍有不同（双上联、双平面等思绪都是齐全一样的），咱们这里便捷启动引见：

后向网络：有收敛，经常使用每个节点 9 个 NIC 中的 NIC1-NIC9 这 8 个互联，重要用于大规模散布式训练，并且一个 GPU 衔接一个 NIC。

前向网络：无收敛，经常使用每个节点 9 个 NIC 中的 NIC0 互联。为了允许更多的场景，比如训练/推理混部，模型传输，数据加载等场景。

一个 Segment 外面依然有 16 个 ToR 交流机，每个交流机 128 个 Gbps Port，然而有 60 衔接 Spine 交流机，68 个衔接节点的 NIC。

68 个 Gbps Port 可以对应 136 个 200Gbps NIC Port，也就是一个 Segment 外面 136 个节点，共 138*8=1104 个 GPU。

实践上 136 个节点中有 8 个是备份，以便节点缺点（比如 GPU、网卡、硬盘、CPU 等）时可以极速交流。实践经常使用 128 个节点，共 1024 GPU，对应的网络收敛比为 (1024*)/(60**16)=1.067:1。

Pod：一个 Pod 中的 Segment 从 8 个变成 15 个，所以最多能允许 15*1024=15K GPU。

三、附录

3.1 单 Segment 千卡

如下图 Figure 6 所示，消费环境中 96.3% 的训练义务须要的 GPU 数都不超越 1024 GPU，也就是都可以放在 1 个 Segment 里，这样通讯是十分高效的，不同 GPU 通讯最多只用经过 1 跳即可：

3.2 多 Pod 互联

HPN 中在 Core 交流机上驳回 15:1 的收敛比，也就是有额外 87.5% 的 Port 可以用于同一个 Pod 中的 Segment。所以同一个 Pod 的 Segment 从 8 个变成 15 个，GPU 数从 8192 参与到 15360，可以允许更多的义务在同一 Pod 外口头。同一个 Pod 内的 GPU 通讯最多只用经过 3 跳即可，而假设是 3 Tier 网络，则最多或许须要 5 跳。

那么为什么没有间接搞成 2 Tier 网络呢？重要是还需思考到技术的演进，模型在始终扩展，训练的数据也越来越多，相应须要的 GPU 也就越来越多，这就很难说能否未来的某一天须要超越 15K GPU 来训练大模型。与此同时，大模型训练理论会经常使用 DP（Data Parallelism）、TP（Tensor Parallelism）和 PP（Pipeline Parallelism）技术，而 PP 相对 DP 和 TP 的通讯量要小得多，如下图 Table 3 所示（GPT-175B，TP=8，PP=8，DP=512），因此就可以思考为其提供较低的通讯带宽，比如跨 Pod。

3.3 大规模预训练对比

如下图 Figure 20 所示为作者原来经常使用的 DCN+ 集群拓扑，驳回无收敛设计。一个 Segment 中只要 16 个节点，128 个 GPU，一个 Pod 只要 512 个 GPU：

作者用一个相反的 LLM 预训练义务启动了对比，该义务须要 2300+ GPU，共 288+ 个节点，训练几个月。在 DCN+ 中须要至少 5 个 Pod，19 个 Segment，而在 HPN 中只要要 3 个 Segment。如下图 Figure 15所示:

四、参考链接

本文转载自，作者：

版权声明 1、本网站名称：萌爵百货商行网
2、本站永久网址：http://msbhsh.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#人工自动 #训练 #清言 #孟子 #AIGC运行 #AI #HPN #Bard #ChatGPT #通义千问 #大模型 #Copilot #言犀 #盘古 #GPT #紫东太初 #AIGC #混元 #LLM #LaMDA #4 #悟道 #开源大模型 #Sora #日日新 #云雀 #多模态 #Agent #文心一言 #OpenAI

HPN 训练的万卡集群 针对大规模 阿里 LLM