阿里云AI基础设施获2024世界互联网大会领先科技奖

阿里云AI基础设施获2024世界互联网大会领先科技奖

文章图片

阿里云AI基础设施获2024世界互联网大会领先科技奖

11月19日 , 2024年世界互联网大会领先科技奖在乌镇揭晓 , 阿里云面向AI的云计算基础设施荣获该奖 , 成为世界互联网大会史上首个以AI基础设施整体获奖的科技成果 。 面向AI时代 , 阿里云全面重构了一个从底层硬件到计算、存储、网络、数据处理、模型训练和推理平台的全栈技术架构体系 , 成为国内最早自研、布局最深入的AI基础设施 。 目前 , 80%的中国科技公司、65%的专精特新“小巨人”企业和60%的A股上市公司使用阿里云的算力服务 。
随着人工智能加速发展 , 以CPU为核心的经典计算体系正快速向GPU主导的加速计算体系转移 , 同时 , AI大模型的训练数据和应用场景正快速增长 , 这对底层基础设施提出了性能和效率的全新要求 。 大会指出 , 阿里云通过软硬一体体系化创新 , 面向AI对云计算的全栈架构实现了技术全新改造 , 将数据中心全面升级为一台超级智能计算机 。
图:阿里云磐久AI计算服务器
在计算层 , 阿里云研发出全新的磐久AI服务器 , 单机支持16卡、显存1.5T , 并创新AI算法预测GPU故障 , 准确率达92% , 业界领先;同时 , 首次推出支持多种生态的Serverless化GPU容器算力 , 实现ACS容器计算亲和度和性能的全方位提升 。 在存储层 , 文件存储CPFS可为AI智算提供指数级扩展存储能力 , 并通过冷热数据分层大幅节省成本 。 在网络层 , 高性能网络架构HPN7.0可稳定连接超过10万个GPU 。 在平台层 , 人工智能平台PAI , 已实现万卡级别的训练推理一体化弹性调度 , AI算力有效利用率超90%;湖仓一体化平台OpenLake , 可提供大数据搜索、AI一体化能力体系;多模数据管理平台DMS , 可实现跨云数据库、数据仓库、数据湖统一治理 , 帮助业务决策提效10倍 。
图:阿里云AI基础设施全景
基于全栈优化 , 阿里云AI基础设施的系统稳定性和计算效率大为提升 , 连续训练有效时长达到 99% , GPU 使用效率(MFU)提升了 20% 以上 。 全新打造的阿里云灵骏智算集群 , 可支持10 万张GPU卡高效互联 , 在万卡规模下的性能线性增长率达到 96% , 可提供 20TB/S 的超高吞吐并行存储 , 网络有效使用率达到99%的业界领先水平 。
图:阿里云副总裁、基础设施事业部负责人蒋江伟
据介绍 , 阿里云AI Infra相关核心技术已被SIGCOMM、HPCA、ICDE、ACM等多个国际顶级学术会议收录认可 。 基于阿里云AI Infra打造的通义千问大模型 , 已成为全球性能领先的基础模型 , 服务中国一汽、联想、微博、携程、喜马拉雅、三得利(中国)等30多万企业客户;百川智能、月之暗面、零一万物等大部分中国大模型公司都在阿里云上进行AI创新;复旦大学、浙江大学等国内50多所院校机构也携手阿里云开展AI for Science的相关研究 。
世界互联网大会乌镇峰会已成功举办十年 , 「领先科技奖」也成为科技领域全年最重磅的奖项之一 。 此前 , 阿里云有多项自研技术获世界互联网大会领先科技成果奖肯定 , 包括飞天云操作系统、PolarDB数据库、神龙虚拟化架构、盘古分布式存储、ODPS大数据平台等 , 阿里云也成为获奖最多、涉及领域最广的中国科技企业之一 。
【阿里云AI基础设施获2024世界互联网大会领先科技奖】玉蕾 小风

    推荐阅读