问:什么是Lake Crest编程模型?它与GPU相似吗?
Carey:不是的 , 从高层面看 , 任何加速器都是一样的 , 你有一个为特定的图层编写的内核 , 将内核放在设备里 , 然后将数据存储在设备上 , 这就可以了 。
所以从这个角度来看 , 它们都非常相似 , 在较低层面上 , Lake Crest和Crest家族一般都没有共享的二级缓存 , 它具有软件控制的内存 , 因此软件工程师或者内核开发工程师可以控制内存中的内容 , 控制其在内存中保留的时间 , 控制从处理元件到处理元件的内容 , 从芯片到芯片的内容 , 它是静态的 , 你无需处理缓存冲突等 。
让这成为可能的是 , 在深度学习中 , 你能提前知道所有的操作 , 内核开发工程师能更轻松地保留数据 , 移动数据和优化性能 , 我们可以这样做 , 因为我们不需要做随机指示 , 我可以提前知道指示 。
而这一切对数据科学家来说都是隐藏的 , 数据科学家从来不想围绕GPU编码 , 他们只是想要高速度 , 而Nervana GPU内核就是这样提供的 , 我们拥有世界上最快的GPU内核 , 我们拥有与某些客户合作的FT16内核 , 这也是Nervana比硬件更为出名的地方 , 硬件实际上并没有被讨论 , 这些高速内核使数据科学家能够从当时的硬件中获取最多的内容 , 而无需被低水平细节所打扰 , 这是一种很好的模式 , 因为可以在不同的产品中改变计算机结构 , 并且由于除了位于英特尔的专门核心团队外 , 没有人直接在硬件上编写代码 , 我们可以管理这一更改并且始终尽可能优化硬件 , 可以添加说明 , 可以添加函数 , 可以改变事物的工作方式 , 可以在不影响数据科学的情况下更改bfloat 。
积极应对行业变化新芯片明年上市
问:数据科学家本身不关注硬件?
Carey:没错 , 我不认为数据科学家真正关心的是底层的问题 , 他们只是希望它速度很快 , 他们不会在乎法拉利是电动的还是混合动力的 , 是V12还是四缸发动机他们只想在三秒钟内看到它从0到60 。
问:nGraph与CUDA相比的优势是什么?
Carey:nGraph与CUDA还是不一样的 , CUDA你可以理解为nGraph的底面 , 我们称之为变压器 , nGraph通过一个固定的API接收来自TensorFlow、Caffe或MXNet的输入 , 然后通过图形编译器进行性能优化 , 排除一些不需要的东西 , 然后将其发送给CPU的MKL-DNN , 所以CPU仍然使用MKL-DNN , 即使在nGraph中也是如此 , 相似的 , 我们也需要为Crest的变压器 , 我们也需要一个英特尔其他硬件的变压器 。
问:目前是否有关于Spring Crest的速度有多快的数据或基准?
Carey:我们暂时没有公布具体数字 , 与Lake Crest相比 , 在性能上有3-4倍的提升 , 基于我们用客户提供的Lake Crest反馈 , 我们在整个设计过程中提高了性能 。
问:有人认为我们正处于部署算法的早期 , 你对算法的潜在变化有什么看法?
Carey:我认为算法和硬件之间有一点共生关系 , 反之亦然 。
如果你往回看 , 过去的几年 , 在GPU上的GEMM核心会很快 , 因此当时所有的深度学习都指出如何利用GEMM核心来进行工作 , 因为这也是GPU仅有可以很快进行处理的地方 , 如今 , GPU上有很多新的核心 , 数据科学家指出许多新的写入核心 , 我们的硬件处于两者之间 , 它并没有完全固定的函数 , 我们的硬件处理各种各样的激励函数 , 通过bfloat处理各种浮点运算 , 并且我们控制设备执行超出当前浮点范围的事情 , 你的GEMM , 你的卷积神经 , 将会得到超级优化 , 我们不会像其他竞争对手一样拥有固定的函数 , 我们不会像GPU一样为了通用用途 , 我认为我们处于一个良好的中间点 , 在未来的几年也不会过时 , 随着时间的推移 , 我们将增加更多的通用硬件 , 以处理更多的混合工作负载 。
推荐阅读
- 大创负责人和成员的区别
- 安装Win8.1时提示“Windows安装程序无法将windows配置为在此计算机的硬件上运行”如何处理?
- 丁真所在国企负责人回应拒绝选秀
- Win8电脑硬件加速怎么调整?
- Win8系统关闭显卡硬件加速的步骤
- Linux系统硬件路由的转发原理
- Linux系统硬件处理和软件处理的区别
- 电脑查看硬件配置的方法 怎样查看笔记本配置
- ht是什么
- 主板与cpu的搭配原则 主板与CPU怎么搭配