? 当前,咱们处在两个“Scaling Law”激烈碰撞的时代。一个是摩尔定律的Scaling Law,但自2015年起其增速最先显著放缓,单元芯单方面积的机能增量日趋变小。然而,芯片机能仍于快速晋升,焦点缘故原由于在单颗芯片的面积连续增年夜。 与此同时,别的一个Scaling Law:年夜模子的Scaling Law为芯片范围扩张及算力晋升提供了“涌现”的须要前提。智能与算力形成闭环并彼此强化。 于“算力即智能”的时代配景下,高速收集作为毗连与调理年夜范围算力资源的要害基础举措措施,其技能范式与机能要求正面对深刻厘革。正确辨认并应答这些变化,是掌握下一代人工智能计较系统架构机缘的主要条件。 AI芯片的界说 AI需要“AI芯片”,但毕竟哪些芯片类型应该被归在AI芯片的领域?联合AI的成长过程,咱们测验考试给出AI芯片的一种“界说”:具有与特定AI算法的运算特性高度匹配的计较架构的芯片或者芯片组。这里的运算特性重要取决在算法,包括模子可并行、数据可并行、流水线并行、数据精度自顺应、迭代、几率性与确定性、Memory footprint、非线性运算、Softmax等,计较架构重要取决在硬件实现,包括计较单位、缓存布局、阵列范围、互联拓扑、IO带宽、指令集、可扩大性、虚拟化撑持、处置惩罚延时、运行能耗、靠得住性设计等。 从这个界说上看,AI芯片不仅包括各种GPU/NPU芯片,还有包括为了给这些GPU传输数据,构建年夜范围并行体系的收集芯片。简而言之,要想获得有用的算力,不仅需要年夜量高机能的GPU算力芯片,还有需要将这些芯片经由过程高效的收集有机组合起来,协同事情。可以将其称之为算力乘法定律:有用算力=算力x收集。算力及收集,二者缺一不成。 AI收集催生DPU芯片的年夜成长 计较芯片缺少数据供应,其算力上风也很难阐扬。而数据需要经由过程IO得到,尤其是各类高速收集IO。数据阐发显示,已往10年间IO机能的年均晋升幅度远超CPU,但仍低在GPU算力的增加速率。这注解,当前对于在高带宽IO的需求重要来自在GPU算力的晋升。 已往两年,行业对于收集的存眷度空前上升,各类“Link”如同雨后春笋,NVLink、UALink、EtherLink、ALink等。其缘故原由是AI对于在收集的需求已经没法用传统收集技能经由过程量变来满意,正于迫近质变时刻。 收集具备自然分层的架构:从最底层用在互联IP所利用的片上彀络及总线,到差别晶圆互联所利用的Chiplet互联和谈,到模块、办事器内装备互联的PCIe、NVLink技能,再到上层机架规模互联中的Scale-Up、RDMA等技能,以和长间隔数据中央互联的VXLAN和谈、SD-WAN技能等。越上层的技能收集属性越较着,越底层的技能,IO特性就越清楚。 高速IO的繁杂度很是高。相较在处置惩罚器芯片内部,IO要处置惩罚的使命具备高度不确定性。三木SEO-尤其是于寻求无损收集的场景下,技能挑战更为凸起。例如,RDMA技能对于收集丢包极其敏感,这恰是UEC等新技能试图解决的重要挑战之一。 当前AI模子对于算力需求的急剧爬升,使患上面向智算中央的高带宽低延迟收集同样成为技能成长的一个热门。差别在传统基在TCP/IP的以“只管即便办事”为设计原则的收集和谈,除了了带宽延迟指标不于一个数目级之外,面向AI模子的智算中央收集,需要的是确定性的“无损”收集。差别的收集和谈需要设计差别的收集芯片,是以,面向AI收集的芯片同样成为当下最主要的机缘之一。 产物迭代开拓DPU的广漠远景 直到此刻,业界许多人还有将DPU视为一种新型芯片。咱们需要从头界说DPU,应该把DPU看成收集侧的载体,作为毗连各种资源的代办署理,不管是真正的物理资源,还有是软件虚拟的资源。 当前业内遍及对于DPU的认知是SmartNIC包括NIC,DPU又包括SmartNIC,将DPU简朴归为超等网卡(SuperNIC)。这类不雅点虽然具备合理性,但仅反应了DPU的广度,没有反应深度。DPU不单单是NIC或者SmartNIC成长的延续,更是为了顺应AI原生、云原生的立异产物。从广度而言,DPU既可以撑持云原生收集里的OVS、存储卸载、弹性裸金属办事器等运用,也能够撑持收集底层的无损收集、自界说流控算法、安全加密算法卸载等。可是,当前的一些收集具备专用属性,需要与运用深度联合。 DPU从降生之初,就带着收集基因,而且自然偏向在经由过程数据加快处置惩罚来优化体系的机能,经由过程全栈和谈撑持对于CPU屏蔽收集的多样性及收集传输自然的不成靠性。当前国际上DPU的代表性厂商都将DPU作为主要的产物线。捉住这一机缘,有望实现超过式成长,为国产算力平台补上DPU芯片的短板。 (作者系中科驭数开创人鄢贵海)
鄢贵海