3D 封装将成为主要工艺！芯片巨头决战先进封装！

发布时间：2022-03-18作者来源：澳门新葡萄新京威尼斯987浏览：3052

一、3D 封装将成为主要工艺

转自：智东西

近日，中国台湾工业技术研究院研究总监 Yang Rui 预测，台积电将在芯片制造业再占主导地位五年，此后 3D 封装将成为主要工艺挑战。

过去十年各种计算工作负载飞速发展，而摩尔定律却屡屡被传将走到尽头。面对更家多样化的计算应用需求，为了将更多功能 " 塞 " 到同一颗芯片里，先进封装技术成为持续优化芯片性能和成本的关键创新路径。

台积电、英特尔、三星均在加速 3D 封装技术的部署。今年 8 月，这三大芯片制造巨头均亮出，使得这一战场愈发硝烟四起。

▲英特尔封装技术路线图

通过三大芯片制造巨头的先进封装布局，我们可以看到在接下来的一年，3D 封装技术将是超越摩尔定律的重要杀手锏。

一、先进封装：将更多功能塞进一颗芯片

此前芯片多采用 2D 平面封装技术，但随着异构计算应用需求的增加，能将不同尺寸、不同制程工艺、不同材料的芯片集成整合的 3D 封装技术，已成为兼顾更高性能和更高灵活性的必要选择。

从[敏感词] 3D 封装技术落地进展来看，英特尔 Lakefield 采用 3D 封装技术 Foveros，台积电的 3D 封装技术 SoIC 按原计划将在 2021 年量产，三星的 3D 封装技术已应用于 7nm EUV 芯片。

为什么要迈向先进封装技术？主要原因有二点，一是迄今处理器的大多数性能限制来自内存带宽，二是生产率提高。

一方面，存储带宽的开发速度远远低于处理器逻辑电路的速度，因此存在 " 内存墙 " 的问题。

在传统 PCB 封装中，走线密度和信号传输速率难以提升，因而内存带宽缓慢增长。而先进封装的走线密度短，信号传输速率有很大的提升空间，同时能大大提高互连密度，因而先进封装技术成为解决内存墙问题的主要方法之一。

另一方面，高性能处理器的体系架构越来越复杂，晶体管的数量也在增加，但先进的半导体工艺仍然很昂贵，并且生产率也不令人满意。

在半导体制造中，芯片面积越小，往往成品率越高。为了降低使用先进半导体技术的成本并提高良率，一种有效的方法是将大芯片切分成多个小芯片，然后使用先进的封装技术将它们连接在一起。

在这一背景下，以台积电、英特尔、三星为代表的三大芯片巨头正积极探索 3D 封装技术及其他先进封装技术。

二、台积电的3D封装组合拳

今年 8 月底，台积电推出 3DFabric 整合技术平台，旨在加快系统级方案的创新速度，并缩短上市时间。

台积电 3DFabric 可将各种逻辑、存储器件或专用芯片与 SoC 集成在一起，为高性能计算机、智能手机、IoT 边缘设备等应用提供更小尺寸的芯片，并且可通过将高密度互连芯片集成到封装模块中，从而提高带宽、延迟和电源效率。

3DFabric 由台积电前端和后端封装技术组成。

前端 3D IC 技术为台积电 SoIC 技术，于 2018 年首次对外公布，支持 CoW（Chip on Wafer）和 WoW（Wafer on Wafer）两种键合方式。

▲ a 为芯片分割前的 SoC；b、c、d 为台积电 SoIC 服务平台支持的多种分区小芯片和重新集成方案

通过采用硅穿孔（TSV）技术，台积电 SoIC 技术可达到无凸起的键合结构，从而可将不同尺寸、制程、材料的小芯片重新集成到一个类似 SoC 的集成芯片中，使最终的集成芯片面积更小，并且系统性能优于原来的 SoC。

台积电后端技术包括 CoWoS（Chip on Wafer on Substrate）和 InFO（Integrated Fan-out）系列封装技术，已经广泛落地。例如今年全球 TOP 500 超算榜排名[敏感词]的日本超算 " 富岳 " 所搭载的 Fujitsu A64FX 处理器采用了台积电 CoWoS 封装技术，苹果手机芯片采用了台积电 InFO 封装技术。

此外，台积电拥有多个专门的后端晶圆厂，负责组装和测试包括 3D 堆叠芯片在内的硅芯片，将其加工成封装后的设备。

这带来的一大好处是，客户可以在模拟 IO、射频等不经常更改、扩展性不大的模块上采用更成熟、更低成本的半导体技术，在核心逻辑设计上采用[敏感词]的半导体技术，既节约了成本，又缩短了新产品的上市时间。

台积电 3DFabric 将先进的逻辑、高速存储器件集成到封装模块中。在给定的带宽下，高带宽内存（HBM）较宽的接口使其能以较低的时钟速度运行，从而减少功耗。

如果以数据中心规模来看，这些逻辑和 HBM 器件节省的成本十分可观。

三、英特尔用"分解设计"策略打出差异化优势

和台积电相似，英特尔也早已在封装领域布局了多种维度的先进封装技术。

在 8 月 13 日的 2020 年英特尔架构日上，英特尔发布一个全新的混合结合（Integrated Fan-out）技术，使用这一技术的测试芯片已在 2020 年第二季度流片。

相比当前大多数封装技术所使用的热压结合（Thermocompression bonding）技术，混合结合技术可将凸点间距降到 10 微米以下，提供更高互连密度、更高带宽和更低功率。

▲英特尔混合结合技术

此前英特尔已推出标准封装、2.5D 嵌入式多互连桥（EMIB）技术、3D 封装 Foveros 技术、将 EMIB 与 Foveros 相结合的 Co-EMIB 技术、全方位互连（ODI）技术和多模 I/O（MDIO）技术等，这些封装互连技术相互叠加后，能带来更大的可扩展性和灵活性。

据英特尔研究院院长宋继强介绍：" 封装技术的发展就像我们盖房子，一开始盖的是茅庐单间，然后盖成四合院，最后到高楼大厦。以 Foveros 3D 来说，它所实现的就是在建高楼的时候，能够让线路以低功率同时高速率地进行传输。"

他认为，英特尔在封装技术的优势在于，可以更早地知道未来这个房子会怎么搭，也就是说可以更好地对未来芯片进行设计。

面向未来的异构计算趋势，英特尔推出 " 分解设计（Digression design）" 策略，结合新的设计方法和先进的封装技术，将关键的架构组件拆分为仍在统一封装中单独晶片。

也就是说，将原先整个 SoC 芯片 " 化整为零 "，先做成如 CPU、GPU、I/O 等几个大部分，再将 SoC 的细粒度进一步提升，将以前按照功能性来组合的思路，转变为按晶片 IP 来进行组合。

这种思路的好处是，不仅能提升芯片设计效率、减少产品化的时间，而且能有效减少此前复杂设计所带来的 Bug 数量。

" 原来一定要放到一个晶片上做的方案，现在可以转换成多晶片来做。另外，不仅可以利用英特尔的多节点制程工艺，也可以利用合作伙伴的工艺。" 宋继强解释。

这些分解开的小部件整合起来之后，速度快、带宽足，同时还能实现低功耗，有很大的灵活性，将成为英特尔的一大差异性优势。

四、三星首秀3D封装技术，可用于7nm工艺

除了台积电和英特尔外，三星也在加速其 3D 封装技术的部署。

8 月 13 日，三星也公布了其 3D 封装技术为 "eXtended-Cube"，简称 "X-Cube"，通过 TSV 进行互连，已能用于 7nm 乃至 5nm 工艺。

据三星介绍，目前其 X-Cube 测试芯片可以做到将 SRAM 层堆叠在逻辑层上，可将 SRAM 与逻辑部分分离，从而能腾出更多空间来堆栈更多内存。

▲三星 X-Cube 测试芯片架构

此外，TSV 技术能大幅缩短裸片间的信号距离，提高数据传输速度和降低功耗。

三星称，该 3D 封装技术在速度和功效方面实现了重大飞跃，将帮助满足5G、AI、AR、VR、HPC、移动和可穿戴设备等前沿应用领域的严格性能要求。

结语：三大芯片巨头强攻先进封装

可以看到，在 2020 年，围绕 3D 封装技术的战火继续升级，台积电、英特尔、三星这三大先进芯片制造商纷纷加码，探索更广阔的芯片创新空间。

尽管这些技术方法的核心细节有所不同，但殊途同归，都是为了持续提升芯片密度、实现更为复杂和灵活的系统级芯片，以满足客户日益丰富的应用需求。

而随着制程工艺逼近极限，以及应用需求的持续多元化，未来芯片制造商除了要解决散热等技术挑战外，还有望推进来自不同厂商的先进封装技术的融合。

二、芯片巨头决战先进封装

转自：半导体行业观察

以《战略绪论》一书闻名的近代法国战略大师薄富尔曾说：「战略的要义是『预防』而非『治疗』，『未来和准备』比『现在和执行』更重要。」半导体业界亦同，当摩尔定律所预言的制程微缩曲线开始钝化，将不同制程性质的芯片，透过多芯片封装包在一起，以最短的时程推出符合市场需求的产品，就成为重要性持续水涨船高的技术显学。
而这些先进芯片封装也成为超级电脑和人工智能的必备[敏感词]。别的不提，光论nVidia 和AMD 的高效能运算专用GPU、Google 第二代TPU、无数「人工智能芯片」，就处处可见HBM 记忆体的存在。

毕竟天底下没有面面俱到的半导体制程，观察到先进制程晶圆厂每隔4 年成本倍增的「摩尔第二定律」，也突显了电晶体单位成本越来越高的残酷现实。AMD 处理器从7 纳米制程开始全面性「Chiplet 化」，将7 纳米制程的CPU 核心和12 纳米制程的I/O 记忆体控制器分而治之，实乃不得不然。

发展方兴未艾的先进封装技术

也因此，无论台积电还是英特尔，无不拼命加码，相关产品也如雨后春笋一个个冒出头来，而AMD 更在未来产品计画，大剌剌写着「融合2.5D 与3D 的X3D 封装」（虽然大概也是直接沿用台积电的现有技术），以达成超过时下产品十倍的记忆体频宽密度。

稍微替各位复习一下什么是「2.5D」封装，台积电拥有超过60 个实际导入案例的CoWos（Chip-on-Wafer-on-Substrate）算是这领域最为知名的技术，包含近期夺下超级电脑Top500 榜首的Fujitsu A64FX。英特尔用自家EMIB（Embedded Multi-Die Interconnect Bridge）将Kaby Lake 处理器与AMD Vega 绘图核心「送作堆」的Kaby Lake-G，也曾是轰动一时的热门话题。

有别于「2D」的SiP（System-in-Package），2.5D 封装在SiP 基板和芯片之间，[敏感词]了矽中介层（Silicon Interposer），透过矽穿孔（TSV，Through-Silicon Via）连接上下的金属层，克服SiP 基板（像多层走线印刷电路板）难以实做高密度布线而限制芯片数量的困难。

「叠叠乐」的3D 封装就不难理解了，台积电就靠着可减少30% 的封装厚度InFO（Integrated Fan-Out），在iPhone 7 的A10 处理器订单争夺战击败三星，终结了消费者购买iPhone 6S 还得担心拿到三星版A9 的尴尬处境（笔者不幸曾是受害者之一）。但3D 封装的散热手段与热量管理，也是明摆在半导体产业界的艰巨挑战。

英特尔相对应的3D 封装技术则为Foveros。最近正式发表、代号Lakefield 的「混合式x86 架构处理器」，堆叠了「1 大4 小核心」的10 纳米制程（代号P1274）运算芯片、22 纳米制程（代号P1222）系统I/O 芯片和PoP（Package-on-Package）封装的记忆体，待机耗电量仅2mW。

英特尔2019 年7 月公布的Co-EMIB，用2.5D 的EMIB 连接多个3D 的Foveros 封装，「整合成具备更多功能」的单一芯片。为EMIB 概念延伸的ODI（Omni-Directional Interconnect）则用来填补EMIB 与Foveros 之间的鸿沟，为封装内众多裸晶连接提供更高灵活性，细节在此不论。

连接封装内多颗裸晶之间的汇流排也是不可或缺的技术。
英特尔在2017 年将EMIB 连接裸晶的「矽桥」（Silicon Bridge）正式命名为「先进介面汇流排」（AIB，Advanced Interface Bus）并公开免费授权，2018 年将AIB 捐赠给美国[敏感词]先进研究计划署（DARPA），当作免专利费的裸晶互连标准，MDIO（Multi-Die I/O）则是AIB 的下一代。台积电相对应技术则为LIPINCON（Low-voltage-INPackage-INterCONnect），规格与英特尔互有长短。

超级电脑用的系统单芯片并非IBM 和Fujitsu 的专利

长期关心ARM 指令集相容处理器与超级电脑的读者，想必对先前采用Fujitsu A64FX 处理器打造的日本理化学研究所的「富岳」并不陌生。这颗台积电7 纳米制程并CoWoS 2.5D 封装4 颗8GB HBM2 记忆体的产物，堪称当代[敏感词]代表性的「超级电脑专用系统单芯片」，让人不得不想起十几年前的IBM BlueGene /L。

曾在21 世纪初期靠着「地球模拟器」（Earth Simulator）独领风骚两年多的NEC，其SX 向量处理器的[敏感词]成员SX-Aurora TSUBASA，也是台积电16 纳米制程、2.5D 封装6 颗8GB HBM2 记忆体的超级电脑心脏。

而英特尔的Xeon Phi 系列更是知名代表，透过2.5D 封装包了8 颗2GB MCDRAM（Multi-Channel DRAM），可设定为快取记忆体、主记忆体或混合两者之用。虽然Xeon Phi 家族两年前惨遭腰斩，中断自从Larrabee 以来的「超级多核心x86」路线，英特尔决定整个砍掉重练，一步一脚印重头打造「传统GPU」当作未来高效能运算与人工智能应用的基础，但异质多芯片封装的重要性仍不减反增，最起码被英特尔从AMD 挖角、主导GPU 发展的Raja Koduri，自己是这样讲的，也没什么怀疑的空间。

不过AMD 也并未缺席，并看似有后来居上的气势，而且这并非突发奇想，早在2010 年之前，就开始进行长期研究，至今超过十年，并「很有可能」以EHP（Exascale Heterogenous Processor）之名开花结果，融合2.5D 与3D 封装的X3D 则是达成EHP 的关键。

Exa 意指Peta 的1 千倍，也是近年来超级电脑的下一个竞争指标，像预定采用AMD Zen 2 世代EPYC 处理器的美国国家核能安全管理局El Capitan 超级电脑，理论运算效能就超过2ExaFlops。

AMD 自从2007 年购并ATI 之后，整合处理器与绘图核心的APU 之路，一直走得相当挣扎，迟迟难以找到适合的产品规格与市场定位，不是CPU 不够好、GPU 不够强、就是两者都不上不下，到了Zen 2 世代才算脱胎换骨。
这些年来，AMD 在超级电脑市场逐渐边缘化，今年6 月的Top500 只剩下10 台AMD CPU 和一台AMD GPU，更需要强力的新兵器，才能「突破英特尔和nVidia 的封锁」。身为「超级电脑APU」的EHP 就成为AMD 默默进行的新方向。

以加拿大ATI身分在2010年申请「藉由假矽穿孔替3D封装进行导热」（Dummy TSV To Improve Process Uniformity and Heat Dissipation）专利为起点，AMD一路累积了「记忆体运算的快取资料一致性」（2016年）、「3D晶粒堆叠的热量管理」（2017年）、「拥有[敏感词]频宽与可延展性能耗比的GPU架构」（2017年）、「记忆体内运算的阵列」（2018年）、「回圈脱离预测（2018年）以改善闲置模式的效率」到「混合CPU与GPU的动态记忆体管理」（2018年）等成果，确定了AMD在2015年的财务分析师大会透露的「伺服器专用APU」与当年7月IEEE Micro发表的「藉由异质运算实现百亿亿级运算」（Achieving Exascale Capabilities through Heterogeneous Computing）计画并不是玩假的，更何况现在AMD当家作主的还是一位以务实闻名的全球薪酬[敏感词]女性执行长。

根据已公开的资料，EHP 概略规格如下，但后面势必将随着技术演进而有更动：

32 个CPU 核心（当时是8 颗4 核心CCD）。
8 颗32 个GPU CU，总计256 CU 与16,384 个串流处理器（那时预定是GCN 第五代的Vega，看来将会推进到CDNA）。
8 块4GB HBM2 记忆体堆叠。
时脉1GHz 时，双倍浮点精确度理论效能为16TeraFlops，如十万颗组成超级电脑，就是1.6ExaFlops，预估耗电量为20MW。
AMD 在2015 年7 月IEEE Micro 专文，表示32 个CPU 核心、320 个时脉1GHz 的GPU CU（20,480 个串流处理器）、3TB/s 记忆体频宽、160W 功耗，是能耗比[敏感词]的组态，总之实际的产品一定会变。
EHP 和X3D 的技术资产会「推己及人」到Zen 3 世代EPYC 处理器「Milan」的可怕传言（像10 颗CCD 凑80 核心或塞HBM2 当L4 之类的），一直没有停过。

EHP 也有配置芯片封装以外的外部记忆体，像断电后资料不会消失的NVRAM（Non-Volatile RAM，如英特尔／Micro 的3D Xpoint 和发展中SST-MRAM 等）和「记忆体内运算」的PIM （Processing-In-Memory，记忆体内建位元运算电路），相关的动态记忆体管理与快取资料一致性，也是AMD 需要克服的技术门槛，至于软体环境的完备性，更将是AMD 能否追上nVidia 的最核心因素。

同场加映：nVidia 也没吃饱闲着

近来因「光明的未来前瞻性」而让公司市值一举超越英特尔的nVidia，在高效能运算、人工智能与自驾车等领域的优势地位几乎是牢不可破。除了帐面硬体规格，发展了十多年的CUDA 应用环境生态、远远超越英特尔和AMD 的GPU 虚拟化（这让客户使用AMD GPU 部署云端个人电脑的效益会明显不如nVidia，云端服务业者的虚拟GPU 亦同，比较一下可负荷用户端数量，就知道差别有多大了）和更多「不足外人道也」之处，才是支撑nVidia 股价的真正根基。
将话题拉回多芯片封装这件事，就算不论以「训练」为主的高阶GPU，nVidia 连「推论」用的芯片研究案都走向「多芯片封装延展性」。

但各位有没有想过一个更有趣的可能性：既然nVidia 高阶GPU 都这么大颗，干么不干脆「顺便」包一颗高效能的ARM（或RISC-V）指令集相容处理器，不再是英特尔、AMD 处理器的「附属品」，让GPU 变身成「可自行开机的超级电脑系统单芯片」？
事实上，nVidia GPU 内本来就有内建好几颗简称为Falcon（Fast Logic Controller）的微控制器，用来辅助GPU 运算处理，像支援影像图形解码到安全性机制，或减轻CPU 执行驱动程式的负担，如以前因为Windows 作业系统的延迟程序呼叫（DPC，Deferred Procedure Call）会逾时而不能进行的排程等。
2016 年，nVidia 先采用柏克莱大学的开源RISC-V 指令集相容处理器Rocket，开发出[敏感词]代Falcon 微控制器，2017 年第二代产品扩展到64 位元，并自行新增自定义的新指令。前述由27 颗封装而成的RC18 推论芯片，也是RISC-V 核心，每秒可执行128 兆次推论，功耗仅13.5W。
那么未来，假如nVidia 将「更多的工作」搬到GPU 内的RISC-V 核心，特别是驱动程式涉及大量GPU 底层机密资讯的「下面那一层」丢过去，或经由GPU 虚拟化掩盖起来，又会发生什么事？这件牵扯到另一个少人知悉的潜在需求了：来自官方的开源驱动程式。

弦外之音：GPU 驱动程式开源的冲击

台面上看不到或少人着墨的议题，举足轻重的程度往往远超乎看热闹外行人的想像。
无论超级电脑还是人工智能（尤其是人命关天的自动驾驶），基于安全性考量，芯片厂商的客户或多或少都希望检视所有程式码，理所当然包含驱动程式，这就是GPU 驱动程式开源之所以如此重要的主因。但偏偏这又是暗藏大量商业机密的黑盒子，要如何满足客户需求又不让机密外泄，大方释出「官方开源驱动程式」，就是nVidia、AMD 甚至即将「GPU 战线复归」的英特尔，已经面对很久的机会与挑战。

技术的发展跟着应用的需求走，这恐怕也将会注定AMD 靠着「超级电脑APU」反攻高效能运算市场的企图能否悲愿成就的锁钥。

免责声明：本文转载自“滤波器”，本文仅代表作者个人观点，不代表澳门新葡萄新京威尼斯987及行业观点，只为转载与分享，支持保护知识产权，转载请注明原出处及作者，如有侵权请联系我们删除。

公司电话：+86-0755-83044319
传真/FAX：+86-0755-83975897
邮箱：1615456225@qq.com
QQ：3518641314 李经理

QQ：332496225 丘经理

地址：深圳市龙华新区民治大道1079号展滔科技大厦C座809室

上一条：霍尔效应（HALL）是什么？霍尔效应传感器工作原理解析
下一条：功率mos管为何会被烧毁？都进来看看！