r52,IBM笔记本电脑R52,这台电脑好不好用( 三 )


9 , 5大千万级设备市场技术拆解_
近一年各种深度学习平台和硬件层出不穷 , 各种xPU的功耗和面积数据也是满天飞 , 感觉有点乱 。在这里我把我看到的一点情况做一些小结 , 顺便列一下可能的市场 。在展开之前 , 我想强调的是 , 深度学习的应用无数 , 我能看到的只有能在千万级以上的设备中部署的市场 , 各个小众市场并不在列 。
深度学习目前最能落地的应用有两个方向 , 一个是图像识别 , 一个是语音识别 。这两个应用可以在如下市场看到:个人终端(手机 , 平板) , 监控 , 家庭 , 汽车 , 机器人和无人机 。
手机和平板:安卓的天下 , 一定要紧跟谷歌爸爸
先说手机和平板 。这个市场一年的出货量在30亿颗左右(含功能机) , 除苹果外总值300亿刀 。手机主要玩家是苹果(3亿颗以下) , 高通(8亿颗以上) , 联发科(7亿颗以上) , 三星(1亿颗以下) , 海思(1亿颗) , 展讯(6亿颗以上) , 平板总共4亿颗左右 。而28纳米工艺 , 量很大的话(1亿颗以上) , 工程费用可以摊的很低 , 平均1平方毫米的成本是8美分左右 , 低端4G芯片(4核)的面积差不多是50平方毫米以下 , 成本就是4刀 。中端芯片(8核)一般在100平方毫米左右 , 成本8刀 。16纳米以及往上 , 同样的晶体管数 , 单位成本会到1.5倍 。
一般来说 , 手机的物料成本中 , 处理器芯片(含基带)价格占了1/6左右 。一个物料成本90刀的手机 , 用的处理器一般在15刀以下 , 甚至只有10刀 。这个10刀的芯片 , 包含了处理器 , 图形处理器 , 基带 , 图像信号处理器 , 每一样都是高科技的结晶 , 却和肯德基全家桶一个价 , 真是有点惨淡 。然而 , 生产成本只是一部分 , 人力也是很大的开销 。一颗智能机芯片 , 软硬开发 , 测试 , 生产 , 就算全用的成熟IP , 也不会少于300人 , 每人算10万刀的开销 , 量产周期两年 , 需要6000万刀 。外加各种EDA工具 , IP授权和开片费 , 芯片还没影子 , 1亿刀就下去了 。
言归正传 , 手机上的应用 , 最直接的就是美颜相机 , AR和语音助手 。这些需求翻译成硬件指令 , 就是对8位整数点乘(INT8)和16位浮点运算(FP16)的支持 。具体怎么支持?曾经看到过一张图 , 我觉得较好的诠释了这一点:
智能手机和平板是安卓的天下 , 所有独立芯片商都必须跟着谷歌爸爸走 。谷歌已经定义了Android NN作为上层接口 , 可以支持它的TensorFlow , 以及专为移动设备定义的TensorFlow Lite 。而下层 , 针对各种不同场景 , 可以是CPU , GPU , DSP , 也可以是硬件加速器 。它们的能效比如下图:
可以看到 , 在TSMC16纳米工艺下 , 大核能效比是10-100Gops/W(INT8) , 小核可以做到100G-1Tops/W , 手机GPU是300Gops/W , 而要做到1Tops/W以上 , 必须使用加速器 。这里要指出的是 , 小核前端设计思想与大核完全不同 , 在后端实现上也使用不同的物理单元 , 所以看上去和大核的频率只差50% , 但是在逻辑运算能效比上会差4倍以上 , 在向量计算中差的就更多了 。

推荐阅读