r52,IBM笔记本电脑R52,这台电脑好不好用( 七 )


对于语音设别 , 如果是需要做自然语言理解 , 性能可能要到100Gops 。对于无风扇设计引入的3瓦功耗限制 , CPU/DSP和加速器都可以选 。不过工艺就得用28纳米了或者更早的了 , 毕竟没那么多量 , 撑不起16纳米 。最便宜的方案 , 可以使用RISC-V+DLA , 没有生态系统绑定的情况下最省成本 。
家庭电子设备里还有一个成员 , 游戏机 。Xbox和PS每年出货量均在千万级别 。VR/AR和人体识别早已经用在其中 。
监控市场:能不能扔掉DSP?
接下去是监控市场 。监控市场上的图像识别是迄今为止深度学习最硬的需求 。监控芯片市场本身并不大 , 有1亿颗以上的量 , 销售额20亿刀左右 。主流公司有安霸 , 德州仪器和海思 , 外加几个小公司 , OEM自己做芯片的也有 。
传统的监控芯片数据流如上图蓝色部分 , 从传感器进来 , 经过图像信号处理单元 , 然后送给视频编码器编码 , 最后从网络输出 。如果要对图像内容进行识别 , 那可以从传感器直接拿原始数据 , 或者从ISP拿处理过的图像 , 然后进行识别 。中高端的监控芯片中还会有个DSP , 做一些后处理和识别的工作 。现在深度学习加速器进来 , 其实和DSP是有些冲突的 。以前的一些经典应用 , 比如车牌识别等 , DSP其实就已经做得很好了 。如果要做识别以外的一些图像算法 , 这颗DSP还是得在通路上 , 并不能被替代 。并且 , DSP对传统算法的软件库支持要好得多 。这样 , DSP替换不掉 , 额外增加处理单元在成本上就是一个问题 。
对于某些低功耗的场景 , 我看到有人在走另外一条路 。那就是完全扔掉DSP , 放弃存储和传输视频及图像 , 加入加速器 , 只把特征信息和数据通过NB-IOT上传 。这样整个芯片功耗可以控制在500毫瓦之下 。整个系统结合传感器 , 只在探测到有物体经过的时候打开 , 平时都处于几毫瓦的待机状态 。在供电上 , 采用太阳能电池 , 100mmx100mm的面板 , 输出功率可以有几瓦 。不过这个产品目前应用领域还很小众 。
做识别的另一个途径是在局端 。如果用显卡做 , GFX1080的FP32 GLOPS是9T , 180瓦 , 1.7Ghz , 16纳米 , 320mm 。而一个Mali G72MP32提供1T FP32的GFLOPS , 16纳米 , 850Mhz , 8瓦 , 9T的话就是72瓦 , 666mm 。当然 , 如果G72设计成跑在1.7Ghz , 我相信不会比180瓦低 。此外桌面GPU由于是Immediate rendering的 , 带宽大 , 但对缓存没有很大需求 , 所以移动端的GPU面积反而大很多 , 但相对的 , 它对于带宽需求小很多 , 相应的功耗少很多 。
GPU是拿来做训练的 , 而视频识别只需要做Inference , 如果用固定流水的加速器 , 按照NVIDIA Tesla P40的数据 , 48T INT8 TOPS , 使用固定流水加速器 , 在16nm上只需要48mm 。48Tops对应的识别能力是96路1080p60fps , 96路1080p60fps视频解码器对应的面积差不多是50mm , 加上SRAM啥的 , 估计200mm以下 。如果有一千万的量 , 那芯片成本可以做到40美金以下(假定良率还可以 , 不然路数得设计的小一点) , 而一块Tesla P40板子的售价是500美金(包括DDR颗粒) , 还算暴利 。国内现在不少小公司拿到了投资在做这块的芯片 。

推荐阅读