3 月 30 日,英特尔正式发布英特尔锐炫 ARC 移动端独立显卡,代号 Alchemist(炼金术士),遥想英特尔首次面向消费端的独显产品推出已经 24 年了,在那之后英特尔独显产品开发就陷入了停滞转而专注核显开发 。
在经过多年的技术积累,英特尔此前面向服务器市场推出了 DG1 显卡,今年正式面向消费端推出英特尔锐炫 ARC 独显产品,首批针对移动端推出的 A 系列产品包含锐炫 3/5/7 三个型号 。
其中英特尔锐炫 3 主要面向主流游戏市场,锐炫 5 主要面向性能游戏市场,锐炫 7 主要面向发烧级硬核游戏 。此次英特尔推出了移动端 A 系列的 A350M 和 A370 M 产品 。全新英特尔锐炫显卡支持 XeSS 超采样、完整的 AV1 硬件加速、Smooth Sync 抖动过滤、Deep Link 功能,全方位覆盖游戏、创意设计、功耗控制等场景 。
首款搭载英特尔锐炫 ARC 独显的是三星 Galaxy Boo2 Pro 轻薄本产品,这款产品获得英特尔 Evo 严苛认证,目前已经在海外市场正式上市 。
未来借助英特尔在处理器市场上的份额优势,将会有大量搭载英特尔锐炫 ARC 独显笔记本产品上市 。通过英特尔 Evo 认证的产品在续航和显示能力上也将得到进一步提升 。
目前宏碁、华硕、戴尔、海尔、惠普、联想、微星、三星、英特尔 NUC 等品牌或者产品已经有推出锐炫独显笔记本的打算,通过锐炫独显,英特尔未来也可以整合自家产品,推出第一方英特尔笔记本 。
配套的英特尔锐炫控制面板也随着英特尔锐炫独显产品的上市同步推出,这一控制面板集合了驱动自动更新、性能监控、性能调优、直播管理、游戏高光时刻生成、活动推广等功能,并且无需强制登录就可使用 。
接下来了,我们通过详细的解析了解一下全新的英特尔锐炫 ARC 独立显卡的底层架构和技术亮点 。
底层架构
英特尔锐炫 ARC 独显产品基于英特尔 Xe HPG 架构开发,核心采用内置 XMX 的 Xe 内核,包含 Xe 媒体引擎、Xe 显示引擎以及 Xe 图形管线三大核心功能 。
通过 Xe HPG 微架构,英特尔锐炫显卡在开发过程中有很大的灵活性,渲染切片是 Xe HPG 微架构的基本模块,每个 Xe HPG 渲染切片包含 4 个 Xe 内核、4 个光追单元、4 个采样器、几何引擎、光栅引擎、HiZ 引擎以及 2 个像素后端构成 。
每个 Xe 内核中包含 XMX 矩阵引擎、XVE 适量引擎、光追单元、采样器等,这些构成了一个完整的 Xe 内核,也是 Xe HPG 微架构的基本运算单元,这与以往的执行单元 EU 概念有所不同,通过 4 个 Xe 内核构成的渲染切片,以不同组合方式就构成不同的 SoC 以此形成不同的产品形态 。
英特尔锐炫显卡通过叠加渲染切片方式构成不同的产品线,最小为 2 个,最大为 8 个,通过不同形式的组合构成了各种各样的产品 。针对光追和 DX12 Ultimate,Xe HPG 微架构也有很好的支持 。
回到 Xe 内核上,每个 Xe 内核提供 16 个 256 位的 XVE 矢量引擎、16 个 1024 位的 XMX 矩阵引擎,并配备 192KB 的共享一级缓存 。XVE 适量引擎用于执行传统的图像处理计算,XMX 矩阵引擎则主要用于 AI 加速 。
其中 XVE 矢量引擎每个时钟周期可以执行 16 个 FP32 操作、32 个 FP16 操作以及 64 个 INT8 操作,专用的 FP 浮点执行接口和共享 INT / EM 执行接口 。XMX 矩阵引擎每个时钟周期可以执行 128 个 FP16 / BF16 操作、256 个 INT8 操作、512 个 INT4 / INT2 操作 。
XMX 算力提升相比于传统的 MAC 或者进阶的 DP4a 是非常巨大的,我们知道 MAC 是图形中使用的基本 SIMD 矢量指令,每个时钟周期共执行 8 次并行运算乘法和 8 次并行加法 。而 DP4a 则针对不需要 32 位精度的 AI 计算所做的优化,每个时钟周期共执行 32 次并行乘法、32 次累加或每个周期总共 64 次 操作,这比标准 SIMD MAC 提高了 4 倍的性能 。