亚马逊云科技最强完美电竞AI硬件猛兽背面工程细节精确解读

 行业动态     |      2024-12-17 05:26:06    |      小编

  正在本年的云策动家产嘉会AWS re:Invent上,亚马逊云科技(AWS)少观点发布了大宗闭于硬件根源步骤及芯片的细节消息,征求

  这场开诚布公的分享,既让咱们窥得这家环球最大云策动巨头深挚的硬件基筑功底,也让咱们饱览了从CPU研发政策、先辈封装、后头供电、AI芯片脉动阵列到芯片互连、AI搜集的各类底层时间更始。更加是看待云策动根源步骤、数据核心芯片计划从业者而言,个中有许多值得细品的体会和思绪。

  大会光阴,亚马逊云科技策动与搜集副总裁Dave Brown还与智东西等少数媒体进一步就根源步骤与芯片研发的政策和细节举行相易。他告诉智东西,Trainium3根基上完全计划都市盘绕天生式AI,AWS已披露Trainium3是其首款采用3nm工艺的芯片,算力上一代的2倍、功耗低落40%,但目前呈现时间细节可认为时尚早。他还剧透说亚马逊云科技估计来岁会慢慢发表更多细节。

  亚马逊云科技的自研任职器CPU和AI芯片均已正在其数据核心落地,被很多著名IT企业采用。连苹果都是其座上宾,正在修建Apple Intelligence等AI任职的背后用到了Graviton3、Inferentia2、Trainium2等亚马逊云科技自研芯片。

  据Dave Brown分享,亚马逊云科技数据核心坎用到的任职器CPU中,过去两年有越过50%的新增CPU容量是其自研任职器CPU芯片Gravtion。环球最大购物节之一亚马逊Prime Day有越过25万个Graviton CPU接济操作。

  正在2018年,亚马逊云科技看到Arm重点进展变疾,萌生完纠合这种时间弧线与亚马逊云科技客户需求开采一个定造通用途理器的念头。Graviton由此成立,其推出和落地也带来了Arm芯片真正进入数据核心的时辰。

  Graviton4是如今最壮健的亚马逊云科技自研任职器CPU,每个重点供应30%更多的策动才具,vCPU数目和内存是上一代的3倍,更加合用于大型数据库、庞大判辨等恳求最高的企业使命负载。

  Dave Brown夸大说,正在计划芯片时,亚马逊云科技不是奔着博得基准测试,而是专一于实质使命负载职能。

  正在他看来,业界热衷于优化基准测试完美电竞,就像是“通过100米短跑来教练马拉松”。实质使命负载的举动与整洁的基准测试截然不符,它们是庞杂的、不行预测的,确实使命负载碰到的题目可以与微基准测试全部门别。

  譬喻,表面上,Graviton3的职能比Graviton2抬高了30%,但测试Nginx时职能擢升多达60%,由于亚马逊云科技极大裁汰了分支过失预测。Graviton4也相像,微基准测试分数比上一代抬高了25%,运转确实MySQL使命负载的呈现则足足抬高了40%。

  正在评估职能时,亚马逊云科技会查看分别使命负载对CPU微架构的压力,譬喻使命负载是否对前端停摆敏锐,前端停摆受分支数目、分支方向或指令等成分的影响,或者后端中断受L1、L2和L3缓存中的数据以及指令窗口巨细的影响。

  看待每一代的Graviton,客户都可能大略地切换到最新的实例类型,并马上看到更好的职能。

  正在安适性上,亚马逊云科技还加密了Graviton4与Nitro之间的PCIe链道,做到更极致的全流程安适防护。

  几年前,封装还很大略,根基上是一种封装单个芯片并将其连合到主板的步骤。但现正在这个计划变得先辈许多。你可能把先辈封装联思成用一种叫做中介层(interposer)的卓殊配置把几个芯片连合正在一个封装里。

  中介层自身实质上是一个Chiplet,它举动一个微型主板,供应了连合芯片的才具,其带宽是普遍PCB主板的10倍。

  Graviton3和Graviton4都采用了先辈封装时间。Graviton4有7个Chiplet,中央大芯片是策动重点,表围更幼的芯片做少许事件,譬喻批准芯片访谒内存和编造总线的其他个人。通过别离策动重点,亚马逊云科技有用地将Graviton4的重点数目推广50%。

  这种步骤对Graviton非凡有帮帮,但引入AI芯片计划中会碰到少许离间。

  2018年,看到加快器实例和深度研习趋向后,亚马逊云科技决心修建AI芯片。其首款自研AI芯片是2019年的Inferentia,不妨确切低落幼型推理使命负载的本钱,譬喻亚马逊Alexa通过转移到Inferentia俭朴了大宗资金。

  2022年,亚马逊云科技推出了其首款自研AI教练芯片Trainium1,并实行可将正在Trainium1上运转的使命负载俭朴约50%。

  亚马逊云科技高级副总裁Peter DeSantis正在re:Invent大会现场映现了Trainium2的封装,内部有两颗策动芯片并排放正在中央。其策动die的晶体管数目是Trainium1策动die的2.2倍。

  思正在一个编造上得回最多的策动和内存,要用先辈的封装或创设时间来创设大芯片。Trainium2上即是如此做的。但这碰到了第一个工程极限——芯片创设有尺寸节造,正在800平方毫米独揽。

  每个策动芯片旁边的两颗芯片是HBM内存客栈,每个策动芯片Chiplet通过CoWoS-S/R封装与两个HBM客栈通讯。通过堆叠芯片,可将更多内存装入相通区域,从而裁汰破费、开释的能量。

  即日的封装实质上被节造正在最大芯片尺寸的3倍独揽完美电竞。假若将策动芯片和HBM取出,可能看到中央层,下面有效来连合芯片和中介器的微凸点。

  这是亚马逊云科技旗下Annapurna芯片团队创造的一张图片。他们沿着紫色的线注意切出了芯片的横截面,然后用显微镜从侧面放大图像。左上角是策动芯片,旁边有HBM模块完美电竞,HBM模块层都位于一个薄的一口吻晶圆上。芯片和中央层顶部之间的电连合非凡幼,每个约莫是100μm,比细盐粒还幼。

  同时,Trainium2还引入了后头供电,把电源线挪到晶圆后头,以裁汰布线堵塞。

  半导体应用细幼电荷的存正在或不存正在来存储和处置消息,当芯片碰到电压消浸时,它们常常得守候到供电编造调剂。芯片正在达成策动使命必要供应大宗的能量,为了正在低电压下传输完全的能量,必要利用大电线,裁汰电道传输长度,从而来避免所谓的电压消浸。

  教练更大的模子,必要修建更好的AI根源步骤、更壮健的任职器集群。这恳求有更好的AI芯片和AI搜集。

  正在re:Invent大会上,亚马逊云科技着重发布了几个重磅AI硬件产物。

  一是亚马逊和Anthropic正正在互帮修建的Project Rainier,一个拥罕见十万颗Trainium2芯片的超等任职器集群。这个集群将具备Anthropic目前用于教练其当先的Claude模子的集群5倍的策动才具。

  二是能教练和安置寰宇上最大模子的Trainum2超等任职器。它连合了4个策动节点,集成了64个Trainium2芯片,将峰值算力扩展至83.2PFLOPS,寥落算力更是高至332.8PFLOPS,将单个实例的策动、内存和搜集职能抬高4倍。

  三是亚马逊云科技迄今做机械研习教练最高能效的任职器——Trainium2任职器。一个Trainium2任职器容纳有16个Trainium2芯片,可正在单个策动节点供应20.8PFLOPS的策动才具。由Trainium2芯片供应接济的Amazon EC2 Trn2实例也正式可用,可供应譬喻今GPU驱动的实例横跨30%~40%的性价比。

  正在芯片计划上,Dave Brown诠释了CPU、GPU、NPU三类芯片微架构的分别。

  GPU要紧用于数据并行,独揽单位较少,奉行单位多。其运算历程会涉及少许数据正在缓存和HBM内存之间的倒换。

  为了裁汰无效的内存占用,亚马逊云科技Trainium芯片采用的是脉动阵列(Systolic Arrays)架构,与谷歌TPU一模一样,直接通报策动结果,不妨低落内存带宽需求。

  正在生态摆设上,亚马逊云科技供应了一个其自研AI芯片的专用编译讲话新Neuron Kernel接口(NKI),用于轻易开采者直接对其AI芯片举行深度调试,从而更充实地发现芯片职能。

  单芯片的职能强硬件产品,正在实质落地中未必管用。要维持起业界最大的大模子教练和推理,必需不妨抬宏壮量芯片互连时的编造级算力应用率。

  亚马逊云科技自研的NeuronLink芯片到芯片互连时间可将多个Trainium2任职器组合成一个逻辑任职器,带宽为2TB/s,延迟为1μs。

  与古代高速搜集订定搜集分此表是硬件产品,NeuronLink任职器可能直接访谒互相的内存,从而创建出一台“超等任职器”。

  Peter DeSantis也花时候科普了一下为什么大模子推理越来越紧要,以及它对AI根源步骤提出了奈何的新恳求。

  大模子推理有两种使命负载——预填充(prefill)和token天生。预填充是输入编码,个中处置提示和其他模子输入,为token天生做打定。这个历程必要大宗的策动资源来将输入转换成通报给下一个历程的数据机闭。达成后,策动出的数据机闭将被通报给第二个推理使命负载,由它天生token。

  Token天生的风趣之处正在于,模子按纪律天生每个token,一次一个。这对AI根源步骤提出了非凡分此表恳求,每次天生token时,必需从内存中读取全体模子,所以会对内存总线形成大宗需求,但它只利用少量的策动,险些与预填充使命负载全部相反。

  这些使命量差别对AI根源步骤意味着什么呢?一朝token开头天生,只必要以越过人类阅读速率的速率天生它们。这不是很疾,但当模子越来越多地用于agentic使命流,正在进入使命流的下一步之前,必要天生全体反映。是以现正在客户属意的是迅速预填充和迅速token天生。

  对真正迅速推理的生机,意味着AI推理使命负载也寻求利用最壮健的AI任职器。这两种分别使命负荷是互补的。预填充必要更多的策动,token天生必要更多的内存带宽,是以正在统一个壮健的AI任职器上运转它们可能帮帮实行特出的职能和功用。

  四、怎样修建AI搜集?10p10u架构、定造光纤电缆及插头、同化式道由订定

  云搜集必要迅速扩展以适当增加,亚马逊云科技每天向环球数据核心增添数千台任职器。但AI的扩展速率更疾。

  据Peter DeSantis分享,亚马逊云科技的云搜集正在牢靠性方面曾经做到99.999%。AI使命负载对范畴、速率、牢靠性的恳求更甚。假使AI搜集履历了短暂的打击,全体集群的教练历程可以会延迟,导致资源闲置和教练时候延伸。

  怎样正在云搜集的更始根源上修建一个AI搜集呢?亚马逊云科技打造了10p10u搜集。

  10p10u的物理架构与古代CLOS搜集架构区别不大,亮点是实行了10Pbps传输带宽、10μs搜集延迟,连起来后构成可用于教练的超等集群。

  下图映现了亚马逊云科技正在分别搜集机闭中安置的链接数目,个中10p10u正在过去12个月已安置越过300万条。

  机闭如下图所示,采用简化的无电缆机箱计划,左侧是8张Nitro卡,右侧是两颗Trainium2加快器。

  大宗的光缆进入机架,要修建如此的稠密搜集机闭,必要非凡切确的互连互换机,并要应对庞大性大大推广的离间。

  针对布线庞大题目,亚马逊云科技研造了少许卓殊的光纤电缆、光纤插头,并针对超大范畴集群打造了一种全新搜集道由订定。

  个中一个更始是开采了一个定造的光纤电缆Fiber optical trunk cable。可能把它当成一根超等电缆,它将16根独立的光纤电缆组合成一个坚韧的连合器,不妨大大简化拼装历程,歼灭连合过失的危急。

  利用主连累合器将正在AI机架上的安置时候缩短了54%,况且做到看起来更整洁了。

  这个奇异的低本钱配置就像一个微型信号反射器,接济正在机架来到数据核心之进步行一共测试和验证搜集连合。这意味着任职器来到时,不会滥用任何时候调试、布线。

  其它,尽管是细幼的尘土颗粒,也会明显低落完全性并变成搜集职能题目完美电竞。而Firefly Optic Plug拥有双重偏护密封效用,可防御尘土颗粒进入光纤连合。

  亚马逊云科技对光链道的牢靠性做了许多优化,将败北率低落到0.002以下。

  AI搜聚合最大的打击出处是光链道。光链道是微型激光模块,正在电缆上发送和罗致光信号。这些败北不行以被全部歼灭,所以必要研究怎样裁汰败北的影响。

  每个搜集互换机都必要数据来告诉它们怎样道由数据包。正在AI搜聚合,这个舆图可以必要研究数十万条旅途。每次光链道展现打击,照射就必要更新。

  优化搜集听起来很吸引人,但当搜集范畴伟大时,重心独揽就会成为瓶颈。检测打击会很贫穷,互换机更新可以非凡迂缓,况且重心独揽器是单点打击。这即是为什么大型搜集常常利用BGP和OSPF等订定去核心化的来因。

  然而去核心化的计划也不圆满。正在大型搜聚合,当链道展现打击时,搜集互换机必要花费大宗时候举行合营,并为搜集找到新的最优照射。

  也即是说,正在面临超大范畴集群组网时,聚合式和漫衍式的古代道由订建都面对离间。

  面对次优抉择时,则必要开发一条新的道道。对此,亚马逊云科技研发了一种全新的同化式搜集道由订定SIDR(Scalable Intent Driven Routing),通过将聚合式和漫衍式独揽的上风相纠合,能正在很短时候内从头计议搜集旅途,为超大范畴集群供应更好的迅速打击检测、反映和复兴才具。

  SIDR可能大略会意成让重心术划者将搜集分析成一个机闭,这个机闭可能下推到搜聚合的完全互换机。如此它们看到打击时,就能做出迅速、自帮的决心。 结果,SIDR能正在1秒内反映打击,况且正在亚马逊云科技搜集上做到比其他取代步骤疾10倍。其他搜集可以还正在从头策动途径u搜集曾经复兴使命了。

  举动正在自研芯片落地上最获胜的云策动大厂之一,亚马逊云科技的芯片计划体会、自研芯片对云生意的实质影响、迭代与更始目标从来备受闭心。正在领受智东西等媒体采访光阴,Dave Brown也总结了亚马逊云科技自研芯片的少许环节上风,征求本钱低、范畴大、落地疾、安靖牢靠等硬件产品。

  本钱上,假使选用Trainium2可将本钱较H100低落50%,那么这对客户恐怕是很有吸引力的点。

  范畴上,亚马逊云科技的范畴确保其芯片不妨平常运转,会正在推出Trainium前做大宗测试,确保芯片一朝推出就必定会获胜,不会展现硬件必要撤回的状况。

  范畴大还意味着更容易得回所需的产能。Dave Brown提到亚马逊云科技与英特尔完美电竞、台积电等企业的互帮胜利,以为台积电到美国凤凰城投资筑厂是明智之选。亚马逊云科技戮力于实行供应链多元化,是台积电的最大客户之一,也从来与英特尔合作无懈,彼此帮帮举行计划更始,估计不会受元首层改换的影响。

  落地上,亚马逊云科技有特意团队,负担马上能将芯片放到任职器中,中央不存正在一两个月的徘徊逗留,所以能缩短落地时候,有足够好的芯片来接济客户举行大讲话模子的教练。

  再有完全的产物组合和牢靠任职。亚马逊云科技供应不单仅是芯片,还征求存储、Kubernetes任职器、API、安适、搜集等,如此丰盛的组合拳是其他供应商难以供应的。正在安靖性上,亚马逊云科技同样具备上风,正在实时诊断和修补碰到的题目、确保任职不受影响方面曾经深得云任职客户的相信硬件产品。

  天生式AI海潮激动下游市集对更高职能、高性价比、精巧可定造的AI根源步骤提出了强需求。而亚马逊云科技正在AI根源步骤底层时间与工程上的查究与更始,正为业界供应一个既能适当客户生意需求、低落编造庞大性又能抬高供应链话语权的特出参考范本。亚马逊云科技最强完美电竞AI硬件猛兽背面工程细节精确解读