MLPerf AI存储基准测试,中国速度领跑
文章图片
近日 , MLCommons协会发布最新MLPerf? Storage v1.0 AI存储基准测试成绩 。
测试结果颇有些意外 , 却又在情理之中:以浪潮信息为首的三家中国存储厂商位列MLPerf? Storage多项细分评测最佳 , 中国速度在全球AI存储权威测试中实现领跑 。 这既是中国数据存储产业整体实力近年来稳步提升的客观反映 , 也是AI时代中国存储厂商产品与技术创新能力的集中体现 。
随着AI技术与AI应用不断进入到千行百业 , 各大行业围绕AI、数据要素等发展新质生产力已成为确定性趋势 。 可以预见 , 算力与存力齐头并进的局面也将全面打开 , 而中国存储厂商在AI存储领域的持续创新 , 有望推动存算协同效应持续优化 , 让AI技术在千行百业中遍地开花 。
MLPerf测试:存储性能的一把新标尺一直以来 , 性能都是衡量存储系统的重要指标之一 。
过去 , SPC测试(Storage Performance Council存储性能委员会测试)是存储系统性能的权威评测;如今 , 随着AI大模型获得越来越多应用 , 关键在于对于大规模海量数据的高效处理 , 这不仅仅需要强大的AI算力 , 亦离不开存储系统在性能、可靠性等方面的有力支撑 。 那么 , 如何衡量存储在AI场景中的性能、可靠性等能力?
【MLPerf AI存储基准测试,中国速度领跑】为此 , MLPerf?应运而生 。 MLPerf? 是影响力最广的国际AI性能基准评测 , 由图灵奖得主大卫?帕特森(David Patterson)联合顶尖学术机构发起成立 , 并于2023年推出MLPerf? Storage基准性能测试 , 该测试通过准确建模ML工作负载所产生的I/O模式来帮助解决存算平衡问题 , 为不同存储系统和不同加速器类型的混合和匹配提供灵活性 , 为ML/AI模型开发者选择存储解决方案提供权威的参考依据 。
据悉 , MLPerf? Storage基准性能测试推出两年时间里 , 已历多个版本迭代 , 并获得全球多家厂存储厂商的积极参与和支持 。 以本次测试为例 , 评测围绕医学影像分割、图像分类、宇宙学参数预测三大AI存储应用场景 , 采用主流的3D-Unet、ResNet50、CosmoFlow三类模型 , 在GPU利用率高达90%或70%的条件下 , 以带宽和支持的模拟 GPU (模拟加速器)数量为关键性能指标 , 评估单客户端或集群模式下存储系统的性能表现 。
可以说 , MLPerf? Storage基准测试正迅速成长为衡量存储在AI场景中性能产品力的一把标尺 。 浪潮信息存储产品线副总经理刘希猛介绍 , ML commons协会已有超过160个会员 , MLPerf? Storage基准测试建立之初就以架构中立、公平性和可重复性为宗旨 , 从测试的设计端尽量确保客观、公正地反映存储系统在AI场景中的的性能 。
再仔细分析MLPerf? Storage基准测试 , 其数据格式、测试套件框架、测试逻辑和流程均高度适配真实AI场景 , 任何存储厂商均能在相同的、公正的平台上测试自身软、硬件的产品性能 , 从而快速评估自身产品的能力 。
例如 , MLPerf? Storage基准测试为保证测试公正性 , 通过运行一个分布式训练测试程序 , 模拟GPU计算过程 , 最大程度还原AI服务器对存储系统的访问 , 在满足计算资源利用率和IO时间相同的条件下 , 比较存储在同样时间里加载和处理数据的利用率 , 以此来测试存储系统能够支撑的最大GPU数量和性能表现 。
“像3D-UNet测试不允许提前在主机上缓存数据 , 数据需要从存储节点读取 , 能够更加全面、科学体现存储系统在大规模AI集群中的性能表现 。 ”浪潮信息分布式存储方案架构师Lance Sun介绍道 。
事实上 , 全球有十三家重量级存储厂商参与本次评测 , 以浪潮信息为代表的三家中国存储厂商表现优异 。 其中 , 浪潮信息更是主动选择封闭赛道 , 严格遵循既定配置和代码规范 , 其分布式存储平台AS13000G7在3D-UNet和CosmoFlow两个模型共计8项测试中斩获5项最佳成绩 , 展现出极强的产品竞争力 。
中国速度领跑为什么中国存储厂商能在MLPerf? Storage性能基准测试中领跑?
事实上 , 这更像是中国存储产业不断积累和持续成长的必然结果 。 十年前的SPC测试开始 , 中国存储产品逐渐登陆SPC性能榜单之中 , 那时候中国存储厂商渴望在国际权威舞台中证明自己 , 后来甚至屡次上演霸榜的好戏 , “不服?跑个分!”成为中国存储厂商的常规操作 。
随着AI大模型的兴起 , AI场景的大量涌现 , 对于存储系统的性能、多协议、可靠性、数据管理等带来深远影响 。 与SPC那套成熟的测试机制相比 , 以MLPerf? Storage为代表的聚焦AI场景的存储基准测试刚刚起步 , 尚处于高速发展的阶段 。 此时 , 中国存储厂从早期就积极参与其中 , 更像产业新标准、新规则制定的参与者 , 是趋势理解、技术能力、场景洞察等能力的综合体现 。
例如 , 在本次MLPerf? Storage基准评测中 , 浪潮信息率先在Cosmoflow场景中发现问题 , 即哪怕将数据集放在内存之中 , GPU的利用率依然达不到90% 。 因此 , 浪潮信息第一时间与MLCommons进行沟通 , 反馈测试套件、平台标准的缺陷 , 并与英伟达等公司一起讨论、论证 , 最终制定出Cosmoflow场景GPU70%利用率的标准 。
另外 , 像浪潮信息能够在3D-UNet和CosmoFlow两个模型共计8项测试中斩获5项最佳 , 离不开其较早涉足大模型训练、推理等场景的深度实践 , 对于AI场景中软硬协同有着深刻理解 , 并且从整体架构到软硬件各个技术栈进行多个层面的针对性创新 , 从而在MLPerf? Storage基准评测中实现领跑 。
例如 , 在架构层面 , 浪潮信息采用自研分布式软件栈 , 通过全新数控分离架构 , 数据面和控制面完全解耦 , 实现120 GB/s的单存储节点超高性能 , 单存储节点支撑5台8卡计算节点规模 , 同时计算集群GPU利用率90%以上;在软件层面 , 浪潮信息通过多路并发透传技术 , 有效减少I/O操作中频繁的上下文切换 , 降低单次I/O时延50% , 并确保高并发下的时延稳定性;在软硬协同层面 , 浪潮信息通过内核亲和力调度 , I/O请求动态调整 , 增强文件系统与计算节点亲和性 , 确保负载均衡 , 将数据移动与多核CPU之间的访问效率提升400% 。
刘希猛介绍 , 针对AI场景的实践 , 浪潮信息的存储产品有两个核心策略:其一是以客户需求为导向 , 从实际AI场景应用出发来打造定制化的存储产品;其二 , 通过成熟的AI场景解决方案能力来精准平衡客户需求、资源分配与成本控制 , 为AI场景构建坚实的数据支撑平台 。
MLperf后续:存算协同将深入人心毫无疑问 , AI大模型彻底改变了基础设施的规模与复杂性 。
如今 , 随着AI大模型加速走向各大垂直行业 , 千卡、万卡集群也在不断涌现 , 并且多元算力也加速成为主流配置 。 可以说 , 在算力侧的巨大变化 , 无疑会进一步全面提高对存储侧在性能、可靠性、容量、功耗和管理的要求 。
因此 , 存算协同在未来必然会获得更多用户的关注 。 MLPerf? Storage基准性能测试无疑开了个好头 , 真正从基准测试的维度来衡量存算协同能力 , 也值得厂商、用户等更多关注 。
在Lance Sun看来 , MLPerf? Storage基准性能测试刚刚开展两年 , 但在产业界已产生了重要影响 , 值得持续关注和参与 。 首先 , 未来一定会有包括更多中国厂商参与到MLPerf? Storage基准性能测试中来;其次 , 未来像向量数据库、能耗等一些新的规则有望引入 , 测试标准和规范会得到持续迭代、完善 , 让基准性能测试更加科学准确 。
综合观察 , 在数实融合和发展新质生产力的驱动下 , 千行百业加速拥抱人工智能已是大势所趋 。 随着AI大模型技术自身的快速发展 , 对于算力、存力等基础设施带来巨大变革 。 如何最大化发挥基础设施的价值 , 让存算协同的重要性迅速提升 , 也驱动着中国存储产业加速成长与持续创新 。 MLPerf? Storage基准性能测试拉开AI存储赛道比拼的新序幕 , 以浪潮信息为代表的中国存储厂商有望在这条赛道中跑出中国速度、引领存储新变革 。
推荐阅读
- 苹果M4 Max在Geekbench 6基准测试中成为单核性能之王
- 小米、荣耀、OPPO、vivo、一加、iQOO 谁家内存和存储溢价更良心?
- 一加老旧旗舰跳水式降价,顶配存储+超大电池+骁龙8 Gen3!
- 涉嫌向韩国泄露长鑫存储相关信息,三星前员工被中国警方逮捕!
- OPPO大破价,只卖1499元,512GB存储+100W闪充+索尼5000万
- 自主可控无人机智能库房:集充电与存储为一体的创新解决方案
- 一加开启降价,玻璃后盖+160万跑分+512GB存储,如今降到1800以内!
- 千元也能买512GB大存储手机!Redmi香疯了
- 长江存储PC41Q测评:QLC闪存颗粒,无缓存设计性能也够强悍
- 小米14 Pro徕卡可变光圈,16GB疾速+512GB存储,骁龙8巅峰性能