,人工默认曾经成为推进企业业务翻新和可继续开展的**引擎。咱们知道,算力、算法和数据是人工默认的三大**要素,缺一无法。当天,笔者就从通用计算芯片这个维度登程,跟大家详细聊聊关于算力的关系技术与市场竞争态势。
所谓AI计算芯片(也称逻辑芯片),就是指蕴含了各种逻辑门电路,即能够启动运算,又能够启动逻辑判别的数字芯片,包括CPU、GPU、FPGA、ASIC等。这里,咱们将经过一些比喻重点跟大家引见一下CPU与GPU这两种通用计算芯片,宿愿大家看完本篇文章,能够真正了解CPU与GPU的关键差异,以及相互之间的优劣势。
计算机基本架构及原理
要了解CPU与GPU的实质区别,首先要便捷地意识一下计算机的基本架构。
从数据输入到结果输入,如今的计算机大都是基于 1940年代降生的冯·诺依曼架构 关键有输入设备、存储器、
将外部数据输入到数据处置引擎中;
担任计算环节中暂时数据的存储与读取,关键用来提高数据的读写效率;
担任接纳数据处置的控制命令,并且口头对整个处置引擎的控制和形态启动实时反应;
演进而来,但由于驳回了不同的架构,因此双方在计算性能上存在着较大的差异。接上去,咱们就经过以英特尔为代表的x86架构和以英伟达为代表的CUDA(NV-RSIC)架构,来引见一下两者的不同之处。
架构设计不同带来的差异
作为计算机中的**部件, 就像咱们人类的大脑一样,它不只仅要口头各种复杂的计算义务,还要担任控制其它部件之间的单干。因此,除了计算单元外,控制单元也在CPU中表演着关键的角色。(CPU架构表示如下图)
上图可以看到,在整个CPU架构中,担任计算的绿色区域占的面积相对并不算大,反而黄色区域 因此,除了计算之外,CPU也比拟长于逻辑控制。
,是以串行形式启动计算的。指令在 就像一个工厂消费车间中的一条流水线,即先 经过指令总线送到控制器中启动译码,并收回相应的操作控制信号;而后运算器依照操作指令对数据启动计算,并经过数据总线将获取的数据存入数据缓存器 ,成功一条指令的计算环节。(如下图)
取指令 ->指令译码 ->指令口头 只要在指令口头的时刻计算单元才施展作用,这样取指令和指令译码的两段期间,计算单元 ,这就会形成计算效率不高。
为了提高指令口头的效率,在不同的指令之间,经过预先读取前面的几条指令,使得指令流水处置,这样就缩小了指令期待的环节,提高了指令口头效率。(如下图)
当然,提高时钟频率、参与更多的**数量,也能够有效地提高CPU的计算效率,但随着技术瓶颈的发生,提高**数量和提高时钟频率的难度越来越大,且带来的性能优化比例越来越小。
不难发现,受架构影响,CPU有着很强的逻辑运算才干,但并不 1+1=2的少量数据的并行计算。因此,在AI训练环节中,须要大规模并行计算时,CPU的长处就十分不显著了。
在计算机中,GPU最后设计的初衷是减速图形图像处置,即公用减速器。因此,GPU外部驳回了并行计算的设计,控制单元仅占很小的一局部。(见下图)
上图可以看到,GPU外部领有少量的计算单元。由于驳回了并行架构设计,每一组计算单元都有独自的缓存和控制器。
由于具有少量的计算单元,仅用来启动图形图像处置,运行范畴过于狭窄,也无法真正施展GPU的价值。于是,NVIDIA提早感知到AI将成为未来的关键技术趋向,并将GPU外部的计算单元启动了通用化的从新设计,GPU变成了GPGPU,即通用并行计算平台,也就是当天咱们所指的GPU。
GPU不只能够处置图形数据,还可以处置非图形化数据,特意是在运算量远大于数据调度和传输的计算时,GPU的性能远远大于CPU,因此在启动少量数据的训练时,GPU有着更强的长处。
当然,由于控制单元并不占长处,因此在启动逻辑运算时,GPU并不占长处。也就是说,让GPU启动少量数据的便捷运算,速度更快,就像把少量的土豆所有切成片,GPU会更快。然而,假设让它执行将一小局部土豆切成丝,一大局部切成片这样的义务时,GPU就不占长处了。
CPU vs GPU:正当搭配降落AI总体老本
经过以上引见不难发现,由于底层架构存在着较大的差异,因此双方在AI运算中也表演着不同的角色。
举个例子,CPU具有更强的逻辑运算才干,就如同一位资深的老传授;GPU并行计算才干更优,就如同很多小在校生同时启动1+1的便捷计算。在同时启动少量便捷的计算义务时,人数越多越占长处,成功的期间就越短;然而,假设在启动微积分等愈加复杂的计算义务时,CPU就愈加占有长处。
详细到AI计算方面,由于CPU有着更强的逻辑运算才干,就愈加适宜推理;而GPU领有少量的计算单元,就更适宜训练。
当然,无论是英特尔还是英伟达,都在经过始终启动架构优化,来提高AI的计算才干。例如英特尔,在最新推出的第五代至强可裁减处置器中,经过在每个内核中都内置英特尔 AVX-512和AMX都可以在CPU上经常使用,以提高AI推理的性能。 依据官网给出的数据,基础平均性能较上一代优化 21%,而AI推理性能的优化则高达42% 得益于内置的英特尔初级矩阵裁减配置,第五代至强处置器无需搭配独立的AI减速器,就可以间接接待严苛的AI上班负载。
GTC2024上颁布的全新B200 GPU,驳回了两个GPU die集成在同一芯片上的设计,并装备了192GB的HBM3e超大内存。基于GB200 NVL72打造的MGX系统,能够成功30TB的一致内存,130TB/s的总带宽,甚至是单机柜exaFLOP级(FP4精度)的AI算力。英伟达表示,即使面对1.8万亿参数的GPT-MoE-1.8T超大模型,也可以成功比同数量H100 GPU高出4倍的训练性能。
只管目前GPU的热度远高于CPU,但在笔者看来CPU依然无法代替。要素在于,CPU岂但具有更强的推理才干,并且领有更高的性价比。这是由于,目前大局部数据中心中并不缺少CPU计算资源,且相对部署曾经愈加完善和成熟。因此,思考到老本要素,包括洽购老本、部署老本、经常使用老本(功耗)等,也成为泛滥厂商选用CPU启动推理的关键要素。