TensorFlow在美团推荐系统中的分布式训练优化实践(11)


5 总结与展望
TensorFlow在大规模推荐系统中被广泛使用 , 但由于缺乏大规模稀疏的大规模分布式训练能力 , 阻碍了业务的发展 。美团基于TensorFlow原生架构 , 支持了大规模稀疏能力 , 并从多个角度进行了深度优化 , 做到千亿参数、千亿样本高效的分布式训练 , 并在美团内部进行了大规模的使用 。对于这类关键能力的缺失 , TensorFlow社区也引起了共鸣 , 社区官方在2020年创建了SIG Recommenders[11] , 通过社区共建的方式来解决此类问题 , 美团后续也会积极的参与到社区的贡献当中去 。
美团推荐系统场景的模型训练 , 目前主要运行在CPU上 , 但随着业务的发展 , 有些模型变得越来越复杂 , CPU上已经很难有优化空间(优化后的Worker CPU使用率在90%以上) 。而近几年 , GPU的计算能力突飞猛进 , 新一代的NVIDIA A100 GPU , 算力达到了156TFLOPS(TF32 Tensor Cores)、80G显存、卡间带宽600GB/s 。对于这类复杂模型的Workload , 我们基于A100 GPU架构 , 设计了下一代的分布式训练架构 , 经过初步优化 , 在美团某大流量业务推荐模型上也拿到了较好的效果 , 目前还在进一步优化当中 , 后续我们会进行分享 , 敬请期待 。
6 作者简介
逸帆、家恒、峥少、鹏鹏、永宇、正阳、黄军等 , 来自美团基础研发平台 , 机器学习平台训练引擎组 , 主要负责美团分布式机器学习训练系统的性能优化与能力建设 。
海涛 , 来自美团外卖广告策略团队 , 主要负责美团外卖广告业务的算法探索和策略落地工作 。
7 参考文献
[1] https://www.usenix.org/system/files/conference/osdi16/osdi16-abadi.pdf
[2] https://github.com/dianping/cat
[3] https://www.usenix.org/system/files/conference/osdi14/osdi14-paper-li_mu.pdf
[4] https://github.com/tensorflow/networking/tree/master/tensorflow_networking/verbs
[5] https://labs.criteo.com/2013/12/download-terabyte-click-logs/
[6] https://arxiv.org/abs/1906.00091
[7] https://github.com/tensorflow/networking/tree/master/tensorflow_networking/seastar
[8] https://github.com/bytedance/byteps
[9] http://research.baidu.com/Public/uploads/5e18a1017a7a0.pdf
[10] https://github.com/oneapi-src/oneTBB
[11] https://github.com/tensorflow/recommenders-addons
----------END----------
招聘信息
美团机器学习平台大量岗位持续招聘中 , 社招/校招均可(欢迎投递我们的校招北斗岗位:美团机器学习平台基础架构) , 坐标北京/上海 , 构建多领域的公司级机器学习平台 , 帮大家吃得更好 , 生活更好 。简历可投递至:huangjun03@meituan.com 。

推荐阅读