开云(中国大陆) Kaiyun·官方网站

体育游戏app平台550件收集正能量作品脱颖而出-开云(中国大陆) Kaiyun... 欧洲杯体育该基金的基金司理为欣然-开云(中国大陆) Kaiyun·官方网站... 开云体育(中国)官方网站于2019年起运转担任基金司理一职-开云(中国大陆) K... 欧洲杯体育累计净值为3.533元-开云(中国大陆) Kaiyun·官方网站... 体育游戏app平台最低报价3.60元/公斤-开云(中国大陆) Kaiyun·官方...
栏目分类

热点资讯
新闻资讯

你的位置:开云(中国大陆) Kaiyun·官方网站 > 新闻资讯 > 开云体育上图领路了台积电的 CoWoS-R 内插器技巧-开云(中国大陆) Kaiyun·官方网站

开云体育上图领路了台积电的 CoWoS-R 内插器技巧-开云(中国大陆) Kaiyun·官方网站

发布日期:2024-05-12 06:01    点击次数:67

本文由半导体产业纵横(ID:ICVIEWS)编译自nextplatform

商量很容易,而数据移动和存储却变得越来越贫窭。

诚然许多东谈主柔顺多样商量引擎的浮点和整数处理架构,但研究东谈主员却破耗越来越多的时期研究内归档次结构和互连档次结构。这是因为商量很容易,而数据移动和存储却变得越来越贫窭。

用一些粗豪的数字来露出这一丝:在畴前的二十年中,CPU 和 GPU 的商量智商加多了 90,000 倍,但 DRAM 内存带宽仅加多了 30 倍,互连带宽也仅加多了 30 倍。连年来,该行业在某些方面取得了朝上,但商量与内存的均衡仍然很远处,这意味着在用于多数 AI 和 HPC 责任负载的内存不及的商量引擎上破耗过多。

恰是计划到这一丝,研究东谈主员计划了 Eliyan 创建的网络会物理层 (PHY) 的架构翻新,这些翻新在本周的 MemCon 2024 会议上以不同且突出灵验的花式展现。汇聚首创东谈主兼首席推论官 Ramin Farjadrad 花了一些时期向天下展示 NuLink PHY 过火用例何如跟着时期的推移而发展,以及何如使用它们来构建比使用 PHY 更好、更低廉、更刚劲的商量引擎面前基于硅中介层的封装技巧。

PHY 是一种物理网络传输劝诱,它将交换芯片、网络接口或商量引擎上或里面的任何数目的其他类型的接口连气儿到物理介质(铜线、光纤、无线电信号),而物理介质又结合它们互相之间或网络上。

硅中介层是一种特殊的电路桥,用于将 HBM堆叠式 DRAM 内存结合到商量引擎,举例 GPU 和定制 ASIC,这些引擎经常用于 HPC 和 AI 范畴的带宽明锐应用。就怕 HBM 使用也需要高带宽内存的旧例 CPU。

Eliyan 于 2021 年在圣何塞建筑,面前领有 60 名职工。该公司刚刚得到了 6000 万好意思元的第二轮融资,由内存制造商三星和 Tiger Global Capital 领投 B 轮融资。Eliyan 于 2022 年 11 月在 A 轮融资中筹集了 4000 万好意思元,由 Tracker Capital Management 领投,Celesta Capital、英特尔、Marvell 和内存制造商好意思光科技 (Micron Technology) 出资。

Farjadrad 在互联网飞腾时代在 Sun Microsystems 和 LSI Logic 担任筹算工程师,曾担任 Velio Communications(现为 LSI Logic 的一部分)的交换机 ASIC 首席工程师和汇聚首创东谈主,况兼是汇聚首创东谈主和首席技巧Aquantia 的官员,该公司为汽车市集坐蓐以太网 PHY。2019 年 9 月,Marvell 收购了 Aquantia,并让 Farjadrad 安祥网络和汽车 PHY。Marvell 已成为最大的 PHY 制造商之一,在筹算这些系统要道组件方面与 Broadcom、Alphawave Semi、Nvidia、Intel、Synopsis、Cadence 以及当今的 Eliyan 等公司竞争。

Eliyan 的其他汇聚首创东谈主包括 Syrus Ziai,他是工程和运营诓骗,并曾担任高通公司 Ikanos 的工程副总裁。多年来,PsiQuantum 和 Nuvia 以及业务和企业发展诓骗 Patrick Soheili 曾安祥 eSilicon 的家具贬责和东谈主工智能计谋诓骗。该公司因在 Apple iPod 音乐播放器中创建 ASIC 以及开发 2.5D ASIC 封装和 HBM 内存贬抑器而闻明。天然,eSilicon 于 2019 年底被 Inphi 以 2.13 亿好意思元收购,扩大了其 PHY 智商,2021 年 4 月,Marvell 在 2020 年 10 月以 100 亿好意思元收购 Inphi,完成了这一轮回。

PHY 以及 I/O SerDes 和重定时器皆有资金。SerDes 与交换机 ASIC 中使用的那些用于将从劝诱发出的并行数据鼎新为通过电线、光纤或空中传输的串行数据相似,是一种特殊的 PHY,况兼从某种念念维花式来看,SerDes 亦然一种特殊的 PHY。跟着带宽的加多以及不错推送干净信号的铜线长度的减少,重定时器将越来越多地被使用。

接下来,一谈谈谈 2.5D 封装。

2.5D 封装

跟着摩尔定律在晶体管密度方面的增长速率放缓,况兼晶体管的资本跟着每一种后续工艺技巧的发展而不是着落,咱们皆照旧意志到当代芯片蚀刻工艺的掩模版限制。使用平素极紫外 (EUV) 水浸光刻技巧,不错在硅晶圆上蚀刻晶体管的最大尺寸为 26 毫米*33 毫米。

许多东谈主可能没挑升志到,这亦然硅中介层尺寸的限制,硅中介层允许小芯片在有机基板顶部互邻接气儿,有机基板就像每个商量引擎插槽过火附属 HBM 内存下方的主板。该硅中介层的尺寸取决于用于创建中间板的技巧。中介层接受与芯片疏导的光刻工艺制造,但如今使用一些技巧,中介层不错达到 2,500 mm 2,而不是像芯片那样具有858 mm 2的掩模版限制,并使用其他接近 1,900 mm 2 ;据 Farjadrad 称,权谋将其擢升到 3,300 mm 2 。有机基板插座莫得这么的面积限制。当您指摘小芯片的 2.5D 封装时,这一丝很首要。

Farjadrad 向天下先容了与 Eliyan 的 NuLink PHY 竞争的不同 2.5D 步调的赠送、速率和局限性。

以下是台积电何如通过硅片晶圆芯片 (CoWoS) 工艺杀青 2.5D,该工艺用于创建 Nvidia 和 AMD GPU 过火 HBM 堆栈等:

从技巧上讲,上图领路了台积电的 CoWoS-R 内插器技巧,该技巧经常用于将 GPU、CPU 和其他加快器连气儿到 HBM 内存。CoWoS 的硅中介层仅限于约莫两个标线单位,这恰是Nvidia 上周刚刚推出的“Blackwell”B100 和 B200 GPU的尺寸。这并非正好。这照旧是英伟达所能作念到的最大范畴了。

台积电领有一种不那么引东谈主注宗旨 CoWoS-L 技巧,该技巧制造起来愈加复杂,就像其他步调中使用的镶嵌式桥相似。

一种桥接技巧称为带有镶嵌式桥接的晶圆级扇出技巧,该技巧由芯片封装商 Amkor Technology 宗旨,并有来自 ASE Holdings 的一种名为 FOCoS-B 的变体。以下是这种封装步调的速率:

高迹线密度意味着您不错以低功耗得到高芯片间带宽,但范围有限,布线智商也有限。

英特尔将硅桥平直放入容纳小芯片的有机基板中(减去中介层)的步调与 Eliyan 对 NuLink 所作念的访佛:

但是,EMIB 受到坐蓐周期长、产量低、隐秘范围和可布线性有限等问题的困扰。

这么就剩下了 Eliyan 提议的修改后的 2D MCM 经过 NuLink:

Farjadrad说,NuLink是一种PHY,其数据速率约为传统MCM封装的10倍,NuLink PHY之间的走线长度不错达到2厘米至3厘米,这比CoWoS和其他2.5D封装选项相沿的0.1毫米走线长度加多了20倍至30倍。正如你所看到的,走线上的特殊距离,以及NuLink PHY在这些走线上具有双向信令的事实,使商量引擎筹算变得出类拔萃。

在面前的架构中,当你在内存和ASIC之间运行数据包时,数据包数据不是同期双向的,咱们需要本身的特殊契约来改造内存一致性,确保读取和写入之间莫得冲破。咱们知谈当咱们制作一个PHY时,咱们需要为特定的应用制作一个相关的契约。这是咱们最大的诀别之一。领有最佳的PHY是一趟事,但将其与AI应用的正确专科知知趣结合是另一个首要成分,咱们知谈何如作念到这一丝。

当 NuLink 于 2022 年 11 月初次推出时,它还莫得这个名字,Eliyan 还莫得提议使用 PHY 创建通用内存接口 (UMI) 的步调。NuLink仅仅一种杀青UCI-Express小芯片互连契约的步调,并相沿Farjadrad和他的团队在几年前创建的原始Bunch of Wires(BoW)小芯片互连所相沿的任何契约,并当作拟议尺度捐赠给开放商量款式。以下是 Eliyan 何如将 NuLink 与多样内存和小芯片互连契约进行堆叠:

Intel MDFIO 是 Multi-Die Fabric I/O 的缩写,用于将“Sapphire Rapids”至强 SP 处理器中的四个商量小芯片互相结合;EMIB 用于将这些小芯片连气儿到具有 HBM 的 Sapphire Rapids 的 Max 系列 CPU 变体的 HBM 内存堆栈。OpenHBI 基于 JEDEC HBM3 电气互连,亦然 OCP 尺度。咱们在这里写的 UCI-Express 是一种文雅的 PCI-Express,带有 CXL 相关性隐秘层,旨在成为小芯片的晶粒到晶粒互连。英伟达(Nvidia)的NVLink当今用于将Blackwell GPU复合体上的小芯片粘合在一谈,但该表中衰败英特尔的XeLink,用于“Ponte Vecchio”Max 系列GPU上的GPU小芯片。与UCI-Express不同,NuLink PHY是双向的,这意味着您不错领有与UCI-Express相似多或更多的电线,但走线的带宽加多了一倍或更多。

如您所见,有一种华贵的封装选项,它使用凸块间距为 40 微米到 50 微米的凸块,而裸片到芯片的距离仅为 2 毫米摆布。PHY 的带宽密度可能突出高(小芯片上每毫米海滩的带宽密度为 Tb/秒),况兼功率后果因步调而异。延伸也全面低于 4 纳秒。

在表格的右边是互连PHY,它们不错与尺度的有机基板封装一谈使用,并使用130微米的凸块,因此是更低廉的选用。其中包括 Cadence 的 Ultralink PHY、AMD 的 Infinity Fabric PHY、Alphawave Semi 的 OIF 超短距离 (XSR) PHY 以及 NuLink 版块。

更长的链路绽开了商量和内存复合体的几何景象,况兼还摈弃了ASIC和HBM之间的热串扰效应。堆叠内存对热量突出明锐,跟着 GPU 越来越热,需要冷却 HBM 能力正常责任。若是你能让HBM离ASIC更远,你就不错更快地运行ASIC(Farjadrad测度约莫20%),而且温度更高,因为内存不够近,无法平直受到ASIC热量加多的影响。

此外,通过移除 GPU 等劝诱中的硅中介层或等效物,并转向有机基板并使用更胖的凸块和闭幕组件,您不错将具有十几个 HBM 堆栈的双 ASIC 劝诱的制酿资本从约莫 12,000 好意思元(芯片加封装良率约为 50%)裁减到良率为 87% 的劝诱(资本约为 6,800 好意思元)。

再看两个对比 UCI-Express、BoW 和 UMI 的图表。

正如你所看到的,Eliyan 一直在股东其 PHY 的双向功能,当今有智商同期进行双向流量,它称之为 UMI-SMD。

因此,NuLink PHY(当今被定名为 UMI)比 UCI-Express 更小、更快,你能用它作念什么?

率先,您不错构建更大的商量引擎:

24 个或更多的 HBM 堆栈和 10 到 12 个重构的商量引擎包何如眩惑您?这种劝诱需要四分之一到五分之一的时期来制造,因为它是在尺度的有机基材上。在1990年代初,IBM从1989年摆布的巅峰初始下滑后,也曾有一句话与IBM挂钩:你不错找到更好的,但你不成支付更多。

以下是 Eliyan 觉得 HBM4 在畴昔可能会阐扬的作用:

使用 NuLink UMI PHY 险些不错再次将其切成两半,为您选用的 XPU 留出更多的逻辑空间。八成,若是你想淹没中介层,制造一个更大的劝诱,并哑忍一个13平方毫米UMI PHY,你也不错构建一个更低廉的劝诱,况兼仍然从每个HBM4堆栈中驱动2 TB/秒。

早在 2022 年 11 月,当 Eliyan 提议其想法时,它就将带有结合到其 HBM 内存的中介层的 GPU 与移除中介层并将 ASIC 加倍的机器进行了比拟(就像 Blackwell 所作念的那样),并将 24 个 HBM 排行与这些 ASIC 小芯片进行了对比。

左边是 Nvidia A100 和 H100 GPU 过火 HBM 内存的架构。中间是一张 Nvidia 图表,领路了跟着 AI 应用形状可用的更多 HBM 内存容量和更多 HBM 内存带宽,性能何如擢升。人所共知,H200 配备 141 GB HBM3E 内存和 4.8 TB/秒带宽,其责任量是 H100 的 1.6 到 1.9 倍,具有统统疏导的 GH100 GPU,但只消 80 GB 的 HBM3 内存,3.35 TB/秒带宽。

内存不是功耗的很大一部分,GPU 才是,咱们迄今为止看到的极少笔据标明,Nvidia、AMD 和 Intel 插足该范畴的 GPU 皆受到 HBM 内存容量和带宽的限制——况兼照旧存在了很万古期,因为制造这种堆叠内存的贫窭。这些公司坐蓐的是 GPU,而不是内存,他们通过提供尽可能少的 HBM 内存来顽抗刚劲的商量量,从而最大律例地擢升收入和利润。它们老是比上一代领路更多,但 GPU 商量老是比内存容量和带宽增长得更快。Eliyan 提议的筹算不错使商量和内存收复均衡,并使这些劝诱更低廉。

也许这对 GPU 制造商来说有点太刚劲了,是以跟着 UMI 的推出,该公司照旧退避了一丝,并展示了何如使用中介层和有机基板以及 NuLink PHY 的夹杂来制造更大、更均衡的 Blackwell GPU 复合体。

左下方是何如创建一个 Blackwell-Blackwell 超等芯片,该芯片具有一个以 1.8 TB/秒的速率运行的单个 NVLink 端口,将两个双小芯片 Blackwell GPU 结合在一谈:

使用NuLink UMI步调,如上图右侧所示,有两个端口在两个Blackwell GPU之间提供约莫12 TB /秒的带宽 - 略高于Nvidia提供的10 TB /秒NVLink端口,这些端口在B100和B200中将两个Blackwell芯片压缩在一谈。这是 Eliyan 超等芯片筹算的带宽的 6 倍,而不是 Nvidia B200 超等芯片筹算(若是有的话)。若是 Nvidia 想要坚握其 CoWoS 制造工艺,Eliyan 不错在中介层上搁置疏导的 8 组 HBM3E 内存,但它不错在每个 Blackwell 劝诱上再搁置 8 组 HBM3E,系数 32 组 HBM3E,这将产生 768 GB 的容量和 25 TB/秒的带宽。

这种UMI步调适用于任何XPU,也适用于任何类型的存储器,你不错作念这么猖獗的事情,整个这些皆在一个远大的有机基板上,不需要中介层:

任何存储器、任何共同封装的光学器件、任何PCI-Express或其他贬抑器皆不错使用NuLink连气儿到任何XPU。至此,插槽确凿变成了主板。

关于更大的笼统体,Eliyan 不错构建 NuLink Switch。

*声明:本文系原作家创作。著作本体系其个东谈主不雅点,本身转载仅为共享与盘问,不代表本身称许或招供,如有异议,请接洽后台。



Powered by 开云(中国大陆) Kaiyun·官方网站 @2013-2022 RSS地图 HTML地图