C114讯 10月11日音信(岳明)大模子需求大算力,大算力需求大集群,大集群需求大汇集!
怎么去修建这张大汇集,正在本周实行的“Advancing AI 2024”上,AMD给出明确了的谜底:周到拥抱以太网,周到拥抱DPU。
与古代数据中央存正在很大差异,重要由GPU任事器联网组成的智算中央需求十足差异的汇集架构。
当大模子锻练时,并行打算节点越多,通讯结果越主要,智算汇集功能成为集群算力擢升的合节。但古代汇集身手难以适宜大领域AI集群的生长需求,正在现实组网历程中面对着四大困难:大领域汇集堵塞限度难、突发大象流负载平衡难、巨量链途持久平静运转难硬件产品、敏锐隐私数据安详保护难。
对此,业界有几种差异的治理计划。好比英伟达主导的InfiniBand,固然现正在市占率很高,但InfiniBand正在家产怒放性、安顿本钱方面尽头不友爱。其余便是从底层变革古代以太网机造,正在最大节造的诈骗以太网家产怒放性和成熟性的同时,重构高扩展、高平静、高牢靠的以太网旅馆,知足大领域AI和HPC继续伸长的汇集需求。UEC便是该身手途途的模范代表,通过修建援手RoCE(RDMA over Converged Ethernet)的无损汇集,做到不丢包,援手以太网RDMA,知足高带宽和高诈骗率需求。
正在“Advancing AI 2024”上,AMD推广副总裁,数据中央治理计划行状部总司理Forrest Norrod就指出,汇集成为限造AI体系功能的合节硬件产品,均匀30%的锻练时光被用来守候联网;而正在锻练和散布式推理中,通讯更是占40%-75%的时光硬件产品。这关于动辄安顿万卡集群的用户而言是难以担当的。
正在他看来,UEC是AI汇集改变的首选:从总体具有本钱(TCO)角度来看,比拟较于InfiniBand,以太网降落了50%;可扩展性角度来看,以太网可能援手高达100万+GPU的超大领域集群安顿,远远进步InfiniBand;从生态体系的角度来看,UEC定约一经有进步97名成员,此中网罗微软、Meta、AMD、博通等稠密大厂,UEC1.0楷模也将正在来岁一季度颁发。蓄志思的是,英伟达正在前段时光也插足了UEC完美电竞。
正在“Advancing AI 2024”的现场,不光是AMD完美电竞,思科、微软等多位身手承担人均实行了分享。他们以为正在此刻的RDMA 境遇下,超以太网和讲希望援手百万节点互联,同时以太网的怒放性子,或许让诸如LPO等新身手加快分泌,带来高性价比、高容量、高怒放水准的AI汇集完美电竞。
正在AMD的AI汇集政策拼图中,既相合心底层芯片级互联的Infinity Fabric,极具功能上风的正在AMD的AI汇集政策拼图中,既相合心底层芯片级互联的Infinity Fabric,但DPU占领了更为主要的国畿。
关于云任事供给商而言,要告竣益处最大化,就必必要富裕裂释CPU/GPU等算力资源。云任事前驱亚马逊率先引入了DPU观念和产物,告竣将汇集、存储、收拾、安详和监控等职责负载一并卸载,而这也为亚马逊博得了墟市先机。
DPU的好处取得用户的广大认同硬件产品。2022年4月,AMD斥资19亿美元进货DPU厂商Pensando,并凯旋告竣了第一代Capri和第二代Elba两大DPU的量产。正在“Advancing AI 2024”的现场,AMD正式颁发了采用P4引擎的第三代DPU产物—Salina,以AI速率交付汇集改进。
从AMD供给的产物身手规格上来看,Salina采用5nm造程工艺打造,告竣两倍于上一代的功能。况且,AMD Pensando DPU援手软件前向兼容,俭约了使用步调斥地所需的时光。正在功能方面,Salina最高援手800G(400G*2)汇集,这与AI数据中央汇集演进是十足立室的,同时Salina援手十足可编程,具备相当的矫捷性。
正在聚会现场,网罗IBM云、微软Azure、甲骨文云、思科等用户的身手高管也都讲到了AMD Pensando DPU正在差异使用场景中的价钱。微软Azure重若是用基于DPU的智能互换机来达成SDN解耦,而甲骨文云和IBM云则是硬件上用到DPU卡,软件上除了操纵Pensando供给的SDK和库,再有定造的逻辑使用,容易客户增添软件界说的任事。周详拥抱完美电竞UECAMD揭橥第三代 DPU Salina :以AI速率交付汇集立异