数据建模的基本流程 分布式数据处理的概念( 四 )

数据建模的基本流程 分布式数据处理的概念

下图 10 给出了每 1、2、4 和 8 次迭代进行梯度下降时每次迭代的平均延迟 。

数据建模的基本流程 分布式数据处理的概念


除了每次迭代延迟,测量收敛速度以验证加速度是否会因收敛放缓而被消除也非常关键 。实验采用 MNIST 数据集来训练 ResNet 。学习率设置为 0.02,批处理大小是 8 。结果如下图 11(a)所示;图 11(b)是将批处理大小设为 256,学习率设为 0.06 的测量结果 。

数据建模的基本流程 分布式数据处理的概念


循环分配(Round-Robin)进程组
PyTorch 分布式包支持将 Round-Robin 进程组和多个 NCCL 或 Gloo 进程组组合在一起,从而按照 Robin-Robin 顺序向各个进程组实例分配聚合通信 。
下图 12 展示了使用 1、3 和 5 个 NCCL 或 Gloo 进程组的 Round-Robin 进程组每次迭代的延迟 。最显著的加速是使用 NCCL 后端的 BERT 模型 。

数据建模的基本流程 分布式数据处理的概念


推荐阅读