“错过了GPU这班车”……这回轮到CPU?英伟达成了新宠[科技谈]
GTC上备受关注的英伟达Vera CPU
AI任务日益复杂,CPU瓶颈问题凸显
英特尔、AMD、ARM等竞争日趋激烈
当地时间本月16日,在美国圣何塞举行的英伟达GPU技术大会(Nvidia GTC,GPU Technology Conference)上,备受瞩目的主角竟然是中央处理器(CPU)。英伟达的下一代CPU“Vera”并非只是人工智能计算机的一个配件,而是将作为独立的单一产品对外销售。作为图形处理器(GPU)设计公司,英伟达缘何进军CPU业务?
英伟达首款独立CPU,Vera
此次发布的Vera CPU,是一款搭载由英伟达自主设计的88个Olympus核心的处理器。这些核心以与英伟达保持深度合作关系的ARM控股公司所推出的ARM v9.2架构设计为基础。
英伟达过去也曾设计过基于ARM架构的CPU,但从Vera开始,将把CPU作为单一产品提供。首席执行官(CEO)Jensen Huang表示:“市场对Vera的关注度非常高,因此我们决定单独销售这款产品”,“原本没想到我们会单独出售CPU,但预期不久后将在CPU市场实现数十亿美元规模的营收”。
一直以来,在人工智能数据中心中,CPU更接近于“配角”。在图形处理器(GPU)和内存在执行人工智能训练任务时,CPU主要负责各种“杂务”。这也是在GPU和内存价格暴涨的同时,CPU相对被冷落的原因之一。
不过,局面正在逐步发生变化。早在去年起,各大人工智能巨头就已将CPU点名为下一阶段的人工智能瓶颈。OpenAI首席执行官Sam Altman去年年中出席AMD活动时就曾强调,“需要极其强大的CPU”。
“阿姆达尔定律”:再怎么提升GPU,整机性能仍取决于CPU
目前,超大规模人工智能数据中心一次要调度的GPU数量就超过数万块。每块GPU内部又排列着数万颗核心,相当于有着天文数量级的运算单元在同时运行。在此过程中,新的瓶颈随之出现:部分GPU核心在完成一轮人工智能运算后,到开始下一轮任务之前,会出现“闲置”的情况。无论并行处理效率提高到何种程度,整个计算机系统内部始终存在必须顺序执行的任务,因此不可避免地产生瓶颈,这在计算机科学中被称为“阿姆达尔定律”。
也就是说,要让GPU不浪费宝贵的运算能力、持续满负荷运转,就必须有一个能够向数百万个以上核心按顺序下达指令的“中央指挥官”。这一角色只有CPU能够胜任。向GPU提供存储在内存中的数据,并精细地协调时间表,避免GPU长时间处于输入等待状态,这一系列工作被称为“调度(scheduling)”。今后,人工智能数据中心的整体性能将在很大程度上取决于CPU的调度与指挥能力。
英特尔、AMD、ARM等准备在CPU领域展开激烈角逐
CPU的另一大优势在于“通用性”。GPU是专门负责人工智能训练和推理任务的加速器,而CPU则在原则上能够在一定程度上处理所有类型的工作。换言之,CPU同样可以作为大规模部署已完成训练的人工智能模型时的推理引擎来使用。
正因如此,英伟达计划将Vera CPU作为独立产品销售。新产品被称为“Vera CPU机架(Vera CPU Rack)”,以一套集成256颗Vera CPU的大型硬件形态提供。Vera CPU机架将作为能够同时运行大量人工智能智能体的“人工智能工厂”发挥作用。
投身解决CPU瓶颈问题的并非只有英伟达。传统CPU巨头英特尔今年首次参加GTC大会,并将自家服务器CPU“至强6(Xeon 6)”作为Rubin人工智能服务器的主机CPU采用。另一方面,AMD则通过公司博客发布消息,宣布正在开发下一代EPYC CPU,以此正面应对。向英伟达提供CPU核心关键设计技术的ARM控股公司,则通过与谷歌、微软、亚马逊等大型科技企业合作,持续扩展ARM CPU生态系统。
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。