半导体发展的另一个挑战 - 散热

半导体发展的另一个挑战 - 散热

文章图片

半导体发展的另一个挑战 - 散热
半导体工程师 2024年09月25日 09:59 北京在个人计算机中 , 使用风扇是最传统的散热方式 。
量子计算机、存算一体(in-memory computing)、硅光子、铜混合键合(copper hybrid bonding)、氮化铝基板/晶圆、氮化硅基板/晶圆等 , 这些新技术有什么共通点?

在进入详细讨论之前 , 我们先退一步看半导体过去的发展考虑 。 成本、效能、功耗等3个面向一直是半导体过去技术发展的主轴 。 成本以前靠制程微缩和良率提升 , 效能提升也靠微缩 。 功耗问题面向较为多样化 , 节省能耗基本上靠降电压、使用低电阻材料和设计优化等 , 处理废热的手段就更复杂了 。

上述3个面向的进展需要有权衡的考虑 - 工程一向是综合效能的权衡问题 。 资深的计算机使用者应该记得过去有一段时间的个人计算机中装有风扇 , 也就是说当时要求CPU效能的大幅迈进 , 迫使散热手段必须升级 , 外延到在系统层级另外加风扇气冷的手段 。 之后CPU的线路设计业界有个默契 , 控制CPU发热在单靠IC自然气冷散热就足以应付的程度 , 恼人的风扇声就暂时从办公桌上消失 。

芯片中的能耗机制主要有2种:一种是晶体管开关的能耗 。 目前一个状态切换(switch)的能耗大概是在飞焦耳(femto joule)的数量级;另外一种是焦耳热(joule heat) , 就是电子流经金属连线因为电阻所产生的废热 。 由于金属连线的宽度在制程长年的微缩下变得愈来愈细 , 电阻不容易再下降 , 芯片的效能又愈来愈高、传送的讯息愈来愈多 。 焦耳热在目前的von Neumann计算架构下是热耗散的主要源头 。

废热如果无法及时排出 , 可能会使芯片、系统失效甚或损毁 。 解决的源头自然是从降低能量使用开始 , 然后才是排放废热的处理 。

散热的手段有3种:辐射、传导和对流 。 辐射的功率正比于温度的四次方 , 对于芯片这样的低温 , 辐射的散热效率是远远不够的 , 所以半导体或电子系统的散热方法通常是传导和对流的结合 。

氮化铝和氮化硅都是半导体业界所熟悉的材料 , 现在也用做散热材料 。 氮化铝的导热系数高;氮化硅的导热系数虽然稍低 , 但是其他机械特性如强度和断裂韧性都很高 , 综合性能最佳 。 这二者目前都已制成陶瓷基板/晶圆 , 用于功率模块的隔热板、或做为外延(epitaxy)功率元件的衬底 。 这是以高导热率材料来散热的办法 。 如果需要的话 , 在衬底/晶圆底下还可以用活性金属釬焊法(Active Metal Brazing;AMB)加上一层铜 , 提高散热效率 。

更积极些的办法是减少电源及讯号传导所发出的焦耳热 。

硅光子是以光讯号来替代电讯号 。 理论上光讯号的传导是不耗能的 , 自然也不会有废热 , 可以极大程度的避免焦耳热的产生 。 这是为什么硅光子预计在2025年会进入量产的主要动力之一人工智能诱发的大量计算 , 使得现有的电讯号传送方式快要让功耗和散热难以负荷 。

3D封装中的铜混合键合让好几个异构(heterogeneous)芯片间原有的金属连线 , 变成堆栈芯片上重分布层(Redistribution Layer;RDL)的直接对口铜金属键合 , 大幅缩短芯片之间原先金属连线的长度 , 所以焦耳热是降低了 。 但是3D封装也大幅提升芯片的集积度 , 使得原本已然艰难的散热问题更加恶化 。 譬如原先用2.5D封装的HBM与CPU/GPU , 在改为3D封装之后 , 居于最底层的逻辑芯片由于上层的存储器芯片层数增加 , 势必要处理更多的资料运算 , 因此散热的负担更加沉重 , 这就是正在发生的挑战 。

存算一体的想法更为激进 。 如果计算机依照von Neumann架构运作 , 资料必须在CPU与存储器间反覆传递 , 这是焦耳热产生的最主要原因 , 那就干脆把二者合并为一 , 就没有两个芯片间相互传送的问题 。 这不算是原始创意 , 因为人脑就是这么运作的 。 只是这方向的研究还在摸索中 。
终极解决方案 - 量子计算
量子计算机有机会成为终极的散热问题解决方案 。
Richard Feynman最原始的概念是以量子的方法解决量子问题 , 首先讲究的是效能 。 现在耗电最凶的人工智能(AI)服务器相关应用 , 在量子计算机上也都有其相应的量子AI算法 , 速度相对于现有的传统AI运算都是平方加速(quadratic speedup)、甚至是指数加速(exponential speedup) 。

量子计算机计算速度快自然耗能小 , 逸出的废热就更少 。 这是量子计算于散热问题上的第一重好处 。

Feynman第二篇谈论量子计算的文献主题 , 是量子计算是可逆的(reversible) , 这是与散热直接相关的议题 。

传统的二进制逻辑闸运算 , 譬如AND gate , 输入有2个位元 , 但是输出只有1个位元 , 也就是说传统的二进制计算过程可能会丧失讯息 , 而丧失讯息意味着熵值增加 , 这就是废热的来源 。

量子计算的操作基本上是以微波来控制、转变量子位元的状态(state) , 计算起始的量子位元数目与计算完成的量子位元数目是一样的 , 因此没有讯息的丧失 。 量子计算的可逆性基本上是说如果从计算完成的量子位元反着步骤计算 , 可以回复出起始的量子位元状态 。 这种可逆性只存在于熵值不增加的计算过程中 。 也就是说 , 先姑且不论量子计算的外围线路和冷却需求所可能产生的废热 , 量子计算的核心部分理论上是不会生废热的 。 这是量子计算于散热问题上的第二重好处 。

量子计算另一个优点较少被提到:量子计算也是存算一体 。

所有的量子计算都在停留在一组量子位元上反复操作 , 毋需将讯息挪动到缓存(buffer memory)上其实目前也没有量子存储芯片可用 。 量子位元本身既是处理器 , 也是存储本身 , 这就是存算一体 , 自然不会产生搬运讯息产生的焦耳热 , 绝大部分的量子位元属于此一类型 。

唯一的例外是光子量子位元 。 光子在运算时的确会在硅光子的模块上处理 , 讯息的确会在光源和传感器中被传输 。 但是如上文硅光子一段所述 , 光子的传输理论上也不会生焦耳热的 。 因此目前困扰半导体业的焦耳热问题 , 在量子计算的过程中只存在于其周边线路 , 并不构成主要问题 。

这是量子计算于散热问题上的第三重好处 。

半导体发展迄今 , 摩耳定律的推进以及先进封装的应用 , 持续增益芯片系统的效能 。 但由于单位时间内所处理的资料量益发庞大 , 而芯片的集积度亦同时大幅提高 , 散热效率提升的需求更加迫切 , 从芯片、模块、系统各层次的散热方式必须同时于设计时就开始考虑 。 可以考虑的空间包括线路设计、材料使用、封装方式、外加的散热机制(液冷服务器因此产生?。 ┑?, 乃至变更基础的计算架构与原理 。

废热处理已成计算设备各层级工程的共同瓶颈 , 我们需要散热总动员!
来源于梓豪谈芯 , 作者林育中
半导体工程师半导体经验分享 , 半导体成果交流 , 半导体信息发布 。 半导体行业动态 , 半导体从业者职业规划 , 芯片工程师成长历程 。 216篇原创内容公众
【半导体发展的另一个挑战 - 散热】

    推荐阅读