中国·澳门新葡萄新京威尼斯(987-官方网站)-Ultra Platform

/ EN
13922884048

技术交流

Technology Exchange
/
/

Chiplet助力AI芯片实现算力跨越

发布时间:2024-05-30作者来源:澳门新葡萄新京威尼斯987浏览:1622

图片


芯粒英文是Chiplet,是指预先制造好、具有特定功能、可组合集成的晶片(Die),Chiplet也有翻译为“小芯片”,中科院计算所韩银和等2020年时建议将Chiplet翻译为“芯粒”



2010年,蒋尚义先生提出通过半导体公司连接两颗芯片的方法,区别于传统封装,定义为先进封装。2015年Marvell创始人之一周秀文(Sehat Sutardja)博士曾提出Mochi (Modular Chip,模块化芯片)架构的概念,这是芯粒早期雏形。AMD率先将芯粒技术大规模应用于商业产品。2019年,国内华为等公司也在产品中使用芯粒技术。2022年基金委双清论坛上,孙凝晖院士、刘明院士、蒋尚义先生等讨论提出了“集成芯片”概念,也是对芯粒集成芯片的概括和定义。

关于芯粒技术,网上有多篇写的比较全面的介绍。如54所的许居衍院士的报告,ARM的邵博士写的文章《多Die封装:Chiplet小芯片的研究报告》,华为的夏博士的文章,成都电子科大的黄乐天的文章,清华大学研究组提出的芯粒设计成本估算模型。不过,网上也有一些值得关注的观点。清华大学少军教授指出,Chiplet处理器芯片是先进造工艺的“补充”,而不是替代。“其目标还是在成本可控情况下的异质集成。”


图片

随着AI、HPC等高算力需求日新月异,作为算力载体的高性能芯片的需求也随之水涨船高。先进封装因能提升芯片的集成密度与互联速度、降低芯片设计门槛,并增强功能搭配的灵活性,故而已成为超越摩尔定律、提升芯片系统性能的关键途径。Chiplet既是先进封装技术的重要应用,亦是后道制程提升AI芯片算力的[敏感词]途径之一。

01

AI芯片技术架构不断演进


随着人工智能技术的飞速发展,AI芯片的技术架构也在不断演进和升级。科技芯闻社介绍,中央处理器(CPU,Central Processing Unit)是计算机的核心,现代计算机发展所遵循的基本结构形式始终是冯·诺依曼机结构,需要CPU从存储器取出指令和数据进行相应的计算,CPU负责承担运算器和控制器这两个核心功能。CPU通常由运算器、控制器、时钟、寄存器等多个模块构成。


图片

AI芯片按照技术架构主要可以分为图形处理器(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)与类脑芯片

图形处理器(GPU,Graphics Processing Unit)是显卡的核心。CPU的定位是通用计算芯片,而GPU的定位是并行计算芯片,主要是将其中非常复杂的数学和几何计算抽出,变成一个超高密度、能够并行计算的方式。

目前,GPU已经发展到较为成熟的阶段,谷歌、FACEBOOK、微软、Twtter和百度等公司都在使用GPU分析图片、视频和音频文件,以改进搜索和图像标签等应用功能。

现场可编程门阵列(FPGA,Field Programmable Gate Array)是在PAL(可编程阵列逻辑)、GAL(通用阵列逻辑)等可编程器件的基础上进一步发展的产物。它是作为专用集成电路(ASIC)领域中的一种半定制电路而出现的,既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点。

由于FPGA具有可编程灵活性高、开发周期短以及并行计算效率高等特点,FPGA的应用场景非常广泛,遍布航空航天、汽车、医疗、广播、测试测量、消费电子、工业控制等热门领域。

专用集成电路(ASIC ,Application Specific Integrated Circuit )是针对用户对特定电子系统的需求,从根级设计、制造的专有应用程序芯片,其计算能力和计算效率可根据算法需要进行定制,是固定算法最优化设计的产物。

目前,ASIC在通信领域、图像与视频处理、汽车电子、医疗设备、人工智能等领域都有广泛应用。


类脑计算芯片(Neuro-inspired computing chips)就是用电路模拟人脑神经网络架构的芯片,它结合微电子技术和新型神经形态器件,模仿人脑神经系统计算原理进行设计,实现类似人脑的超低功耗和并行信息处理能力。

作为新一代的人工智能处理器,类脑芯片具有并行计算、低功耗设计和自适应学习等特点,为人工智能领域带来了许多新的机遇。目前,在模式识别与图像处理、自动机器人、大数据分析、医学与生物科学研究等领域,类脑芯片具有巨大的潜力,将推动人工智能技术的更大突破和进步。

华福证券认为,随着AI、HPC等高算力需求日新月异,作为算力载体的高性能芯片的需求也随之水涨船高。然而,先进制程的进阶之路已困难重重,一方面,摩尔定律迭代进度的放缓使芯片性能增长的边际成本急剧上升;另一方面,受限于光刻机瓶颈,前段制程的微缩也愈发困难。在此背景下,先进封装因能提升芯片的集成密度与互联速度、降低芯片设计门槛,并增强功能搭配的灵活性,故而已成为超越摩尔定律、提升芯片系统性能的关键途径。

02

Chiplet面临机遇与挑战


随着摩尔定律走到极限,Chiplet被行业普遍认为是未来5年算力的主要提升技术。

半导体产业纵横介绍,Chiplet俗称芯粒,也叫小芯片,它是将一类满足特定功能的die(裸片),通过die-to-die内部互联技术实现多个模块芯片与底层基础芯片封装在一起,形成一个系统芯片,以实现一种新形式的IP复用。简单来说,可以理解为将每个小的芯片用“胶水”缝合在一起,形成一个性能更强的大芯片。

去年,大部分厂商或许还沉浸在Chiplet技术的未来应用上,如今Chiplet已经成为各大厂商的产品中的必选角色。英特尔、AMD、英伟达都在自家的CPU、GPU上使用了Chiplet技术,这将Chiplet推入了一个全新的商业化阶段。

图片


总体来看,Chiplet有四大优点

[敏感词],通过将功能块划分为小芯片,那么不需要芯片尺寸的持续增加。这就提高了良率并简化了设计和验证的流程。

第二,每个小芯片是独立的,那就可以选择[敏感词]工艺。逻辑部分可以采用[敏感词]工艺制造,大容量SRAM可以使用7nm左右的工艺制造,I/O和外围电路可以使用12nm或28nm左右的工艺制造,这就大大降低了制造的成本。

第三,组合多样,适合定制化,轻松制造衍生类型。比如说采用相同的逻辑电路但是不一样的外围电路,或相同外围电路但不同的逻辑电路。

第四,不同制造商的小芯片可以混合使用,而不仅仅是局限在单个制造商内。

这些特点都非常适合用在大算力芯片上。相较于传统消费级芯片,算力芯片面积更大,存储容量更大,对互连速度要求更高。采用Chiplet既可以降低成本提升良率,又可以允许更多计算核心的“堆料”,还能便于引入HBM存储。

不过,目前的Chiplet仍存在一些门槛问题。电子发烧友网指出,Chiplet在成本、开放生态等方面仍面临挑战。目前基本只有大公司才用到这一先进技术,且主要集中在通信、大规模数据处理等领域,反倒是设计周期长的汽车、成本敏感的消费电子和可靠性要求高的工业领域,比较缺乏Chiplet设计的参与。

如今的Chiplet并没有大规模普及,尤其是在某些基于成熟工艺的芯片设计上,还是因为门槛问题。先进封装的成本还没有降低到设计公司可以考虑Chiplet方案的程度,这些较高的门槛阻止了Chiplet的普及。在设计公司看来,行业需要像现在的云服务一样,打造一个多供应商、多选择和开放的生态,这样才能彻底发挥Chiplet用于降低设计成本、提高综合性能的优势。

03

高性能多模态AI大模型

NPU+CPU异构解决方案


当前,大模型的应用如日中天,其使用场景正在从云端迅速向边缘端延伸。不论是在云端还是边缘端,CPU与NPU之间更加紧密的互联集成,已成为新一代AI计算硬件发展的显著趋势。AI PC等新颖概念和产品的涌现,正是这一趋势的生动体现。得益于Chiplet技术和先进封装技术的快速发展,CPU与NPU的集成得以实现更高的带宽、更出色的灵活性,同时降低了研发成本,缩短了研发周期。

近日,原粒半导体与超摩科技携手宣布达成战略合作,双方将围绕原粒半导体领先的高性能NPU Chiplet产品与超摩科技的高性能CPU Chiplet产品,共同致力于开发集高性能与高集成度于一身的多模态AI大模型解决方案

超摩科技成立于2021年,是高性能Chiplet设计的先行者与领导者,专注于通用Chiplet CPU及高性能Chiplet互联解决方案。超摩科技提供基于从智算中心、数据中心、边缘计算、数据网络通信、自动驾驶等领域的系列高性能Chiplet解决方案。

历经三年产品打磨,超摩科技已成为国内高性能Chiplet互联解决方案的主力方案商,产品得到客户认可,已有众多客户导入量产并形成规模营收,商业已达成落地闭环。下一步,超摩科技将推动高性能CPU Chiplet产品持续商业落地,助力产业新的价值成长。

目前,原粒半导体与超摩科技已经对双方的AI Chiplet和CPU Chiplet产品的互联适应性进行了验证,双方将联合开发推出高性能、高灵活性、高性价比的AI大模型解决方案,市场前景广阔,众多行业客户对此方案表现出浓厚的兴趣。

超摩科技创始人兼CEO范靖认为,AI大模型当前的形势十分活跃且富有潜力。在政策、技术和市场的三重驱动下,AI大模型产业得到了快速发展。原粒半导体的AI Chiplet凭借领先的技术实力和独特的产品定位,能够为广大客户提供卓越的高性能通用AI Chiplet解决方案。双方的合作将推动AI大模型CPU+NPU的高性能异构解决方案迈向新的高峰,为行业带来更多的价值创新与突破。


04 
—————— 大算力芯片,正在拥抱Chiplet ——————


首先来看AMD,AMD是选择Chiplet最积极的厂商之一


在2019年的时候,AMD就初次尝试了Chiplet封装,将不同工艺节点的CPU内核且I/O规格不同的芯片封装在一起,显著提高了能效和功能。
之后,AMD又发布了实验性产品,即基于3D Chiplet技术的3D V-Cache。使用的处理器芯片是Ryzen 5000,采用台积电3D Fabric先进封装技术,成功地将包含有64MB L3 Cache的Chiplet以3D堆叠的形式与处理器封装在了一起。
从数据性能来看,采用3D Chiplet的原型芯片将性能平均提高了12%。从这一点上,也能看到3D Chiplet对实际工作负载的提升有实质性的贡献。

不止在CPU,AMD在GPU方面也选择了Chiplet技术。目前,AMD发布的[敏感词]MI300系列芯片时,同样采用Chiplet技术,8个GPU Chiplet加4个I/O内存Chiplet的设计,总共12个5nm Chiplet封装在一起,使其集成的晶体管数量达到了1530亿,高于英伟达H100的800亿晶体管。这款芯片在推出时,也是打出了对标英伟达H100的口号。

此外,AMD含Chiplet技术的CPU销量占比也在不断提高。根据德国电脑零售商Mindfactory数据,2021年10月至2022年12月间AMD CPU的销量中,含Chiplet技术的CPU销量占比不断提高,从约80%上升至约97%。

图片 

再来看英特尔。英特尔的首次推出基于Chiplet设计的处理器是Sapphire Rapids,时间在2023年1月。
具体来看,通过两组镜像对称的相同架构的building blocks,组合4个Chiplets,获得4倍的性能和互联带宽。每个基本模块包含计算部分(CHA & LLC & Cores mesh, Accelerators)、memory interface部分(controller, Ch0/1)、I/O部分(UPI,PCIe)。通过将上述高性能组件组成基本的building block,再通过EMIB技术进行Chiplet互联,可以获得线性性能提升和成本收益。
最后,来看英伟达。英伟达坐稳GPU领域霸主这一点毋庸置疑,而霸主英伟达在今年推出的“最强”GPU B200也同样采用Chiplet技术。GB200超级芯片是由2颗B200 GPU和1颗Arm架构的Grace CPU(中央处理器)组合而来。
由此可见,英特尔、AMD、英伟达都在自家的CPU、GPU上使用了Chiplet技术。这将Chiplet推入了一个全新的商业化阶段。
Chiplet这一锤,算是重重砸下了。

Chiplet从CPU到GPU

在之前传统的GPU也是由一个中央工作负载处理器,将渲染任务发送到芯片内的多个着色器块之一。每个单元都被赋予一块几何体来处理、转换为像素,然后对它们进行着色。

后来AMD发现,Chiplet 用在CPU上效果很好,并且降低了制造成本。于是在GPU上也选择了放弃中央处理器,用多个小芯片取代单个硅块,每个小芯片处理自己的任务。渲染指令以称为命令列表的长序列发送到 GPU,其中所有内容都称为绘制调用。

图片AMD 2019年Chiplet专利

该文件于 2019 年 6 月发布,即提交近两年后,该功能已在 RDNA 2 中实现。AMD 于 2020 年开始推广该架构,并于同年 11 月推出了[敏感词]配备全新 RT-texture 处理器的产品。

图片不同制程及封装技术下的芯片良率、成本、面积的关系 注:D为缺陷密度,c为负二项分布中的集群参数或Seed’s model中临界值数量

摩尔定律没死,但确实是老了,在14nm之后成本曲线就变了。5nm工艺的成本相比7nm工艺增长了近1倍,3nm工艺相比5nm工艺预计将增长近1倍。在半导体工艺、规模限制越来越大的情况下,传统大芯片的策略确实是寸步难行。

图片

免责声明:本文采摘自“大印蓝海科技”公众号,本文仅代表作者个人观点,不代表澳门新葡萄新京威尼斯987及行业观点,只为转载与分享,支持保护知识产权,转载请注明原出处及作者,如有侵权请联系我们删除。

服务热线

0755-83044319

霍尔元件咨询

肖特基二极管咨询

TVS/ESD咨询

获取产品资料

客服微信

微信服务号