寻找\算力王\:智算中心需要怎样的AI服务器(附典型比较)

寻找\算力王\:智算中心需要怎样的AI服务器(附典型比较)

文章图片

近两年 , AI大模型给产业带来了巨大的影响 , 以GPU为核心的智算逐步成为算力的主要发展方向 。 据工信部规划 , 中国智能算力的占比将在2025年达到35% , 年复合增长率在30%以上 , 这意味着智算中心将引领数据中心建设的潮流 。
服务器是提供数据存储、运算等服务的高性能计算机 , 包含处理器、内存、硬盘和其他功能及基础硬件 。 2024年以来 , 中国智算中心建设如火如荼 , 也在不断推动着服务器厂商持续推出加速计算服务器新品 。

运营商智算“加速跑”
AI算力基础需求高增 , 国内供给显著改善 。 今年以来 , 运营商开展了大规模的智算中心建设 , 并开展了几次重要的算力服务器集采 。
从资本开支来看 , 运营商加大算力相关资本开支 。 公开信息显示 , 2024年 , 中国移动算力领域预计投入475亿元 , 同比增长21.5% , 占资本开支比重提升5.8个百分点至27.5% 。 中国电信产业数字化计划资本开支370亿元 , 同比增长4.1% , 在云/算力计划投资180亿元 。 中国联通在算网数智投资方面将坚持适度超前、加快布局 , 但是未披露具体数额 。 可以看出 , 中国移动暂时拔得头筹 , 中国电信和中国联通紧随其后 。
此外 , 财报显示 , 到2024年底 , 中国电信智算算力规模将大幅领先 , 中国移动次之 。 中国电信计划2024年智算算力提升10EFLOPS , 超过21EFLOPS 。 中国移动2024年智算算力累计超过17EFLOPS 。
从运营商积极布局智算中心来看 , 据不完全统计 , 目前 , 国内建成和在建的智算中心项目超500个 , 运营商为满足市场需求 , 正加快建设智算中心项目超80个 , 争夺政企市场 。
中国移动优化全国性智算中心和边缘智算节点布局 , 全网智算规模达到17EFLOPS(FP16) , 年内将投产3个近两万卡超大规模单体智算中心和12个区域智算中心 。 中国电信适度超前建设智算基础设施 , 持续加大智算能力建设 , 规划并建设全国“2+3+7+X”公共智算云池 , 在京津冀、长三角地区建设两大万卡智算集群 , 西部地区打造大规模绿色智算池 。 中国联通布局热点集约、跨区辐射、边缘覆盖的多级算力体系 , 构建了“1+ N+X”全国分梯次智算资源 , IDC规模超40万架 , 云池覆盖230多个城市 。
从运营商招标项目来看 , 2024年4月 , 中国移动发布2024年至2025年新型智算中心采购招标公告 , 此次采购包含AI服务器7994台 , 成为有史以来国内最大规模的AI服务器集采 。 加上此前中国移动2023年至2024年新型智算中心(试验网)集采项目 , 12个标包对应AI训练服务器采购量总计达到2454台 , 中国移动这两次AI服务器集采规模合计超万台 。
除了中国移动之外 , 其他两大运营商此前也开启了AI服务器大规模采购 。 中国联通在今年3月启动2024年人工智能服务器集采 , 其中 , 人工智能服务器采购总规模为2503台 。 中国电信在去年10月也采购了4175台AI服务器 。 以算力基础设施来说 , 在大模型产品迭代发展中 , 算力需求持续增长 , 带动AI服务器的需求居高不下 。

AI服务器市场竞争激烈
在智算中心的建设中 , 服务器的选择至关重要 , 它直接关系到算力的强弱、任务的执行效率以及资源的利用率 。 一般来讲 , 智算中心的服务器主要包括训练服务器、推理服务器或训推一体服务器等三大类 。
【寻找\算力王\:智算中心需要怎样的AI服务器(附典型比较)】训练服务器主要利用大量数据对AI模型进行训练 , 通过调整模型参数使模型更好地拟合数据 , 学习数据中的特征和规律 。 这通常需要高性能的硬件支持 , 如高性能GPU或TPU(张量处理单元) , 以及大容量内存和高速存储设备 。 此类服务器的特点是适用于模型开发和训练阶段 , 需要强大的计算能力和长时间的稳定运行 。
推理服务器主要功能是对输入数据进行快速推理计算 , 生成预测结果 。 这通常用于实时应用场景 , 如自动驾驶、实时语音识别等 。 这类服务器特点是要求低延迟、高可靠性 , 通常采用低功耗的GPU或专用的推理芯片 , 如NVIDIA的TensorRT系列芯片 , 在保证推理速度的同时降低能耗和成本 。
训推一体服务器是既能进行模型训练又能进行推理计算的服务器 。 它的特点是资源利用率高 , 可以根据实际需求灵活分配计算和存储资源 。 但设计和维护成本也相对较高 , 需要解决CPU和GPU之间的算力融合问题 , 以及不同任务之间的资源调度问题 。
针对智算中心存在的算力融合、算力孤岛、算力低效、硬件投资与更新、网络与管理等问题 , 在智算中心的建设中 , 服务器的选择应根据实际需求进行权衡 。 训练服务器适用于模型开发和训练阶段 , 推理服务器适用于实时应用场景 , 而训推一体服务器则可以在两者之间实现灵活切换和资源共享 。
与此同时 , 智算服务器与传统通用服务器最大的区别 , 在于算力芯片的不同 。 智算服务器为了保证操作系统运行 , 也配置了CPU 。 但是 , 为了更好地完成AI计算任务 , 配置了更多的GPU、NPU(神经网络处理单元)、TPU等计算芯片(4块或8块) , 以这些芯片输出的算力为主 。
除了芯片不同之外 , 为了充分发挥性能以及保障稳定运行 , AI服务器在架构、存储、散热、拓扑等方面也进行了强化设计 。 例如 , 智算服务器的DRAM容量通常是普通服务器的8倍 , NAND容量是普通服务器的3倍 , 甚至它的PCB电路板层数也明显多于传统服务器 。
大模型发展带来了对超大规模算力、高性能存储、超大规模算力调度及管理、绿色节能等技术能力的需求 。 算力中心当前阶段 , 规模属于万卡集群、体量大 , 服务器采购要多型号、多厂家 , 配套液冷需要专业液冷供应商提供 , 来解决其解耦交付痛点 。
超聚变推出FusionPoD for AI整机柜液冷服务器 , 从双生态、多样性算力、绿色低碳方面全方位重构智算底座 , 为智算集群需求打造高密、坚实、开放平台 。 中兴通讯推出的新互联AI服务器突破单节点算力瓶颈 , 旨在应对AI大模型训练中的通信带宽和时延挑战 , 并在算力提升和扩展性方面展现了领先的技术创新 。 新华三新发布的H3C UniServer G7系列依托面向AI的可进化架构、内生AI的操作系统和管理中枢 , 以及拥抱AGI的多元算力体系 , 为用户提供了灵活、高效、绿色的算力支持 。
浪潮元脑服务器NF5898G8 , 在AI算力方面具有强大的兼容性和卓越的性能 , 进一步加速算力融合创新 。 联想新一代Neptune海神液冷服务器 , 允许AI和HPC客户在不需要专门的数据中心空调的情况下运行100千瓦以上的服务器机架 , 98%的热量将转移到水循环中 。 信维全新推出的AI训推服务器H8650G5I提供不同的散热SKU , 包括空气冷却和液体冷却解决方案 。
对于服务器厂商而言 , 当其身量已不再局限于提供单一硬件产品时 , 而是提供综合性解决方案 , 这些解决方案可能包括服务器、存储、网络、安全等方面 。 未来 , 智算服务器将采用更高效的能源使用方式 , 实现绿色计算 , 并加强数据和模型的保护措施 , 以确保数据的安全性和隐私性 。

    推荐阅读