信息来源自anandtech,略有修改,作者Dr. Ian Cutress
我们的生活充满了流行语,无论是在浏览新闻动态时吸引眼球的东西,还是一家公司想要把他们的产品与日常词汇联系起来,这些典型的流行词汇会深深印在你的脑海里,难以摆脱。最近在科技界打破壁垒的两个词是“Zettascale”和“Metaverse”。今天我们采访了英特尔高级副总裁兼加速计算总经理Raja Koduri。
像Zettascale和Metaverse这样的流行词之所以如此令人震惊,是因为它们指的是我们潜在的未来之一。具体来说,Zettascale说的是在十年前后创造出目前1000倍的计算水平,以充分利用消费者和企业对计算资源的旺盛需求,尤其是机器学习需求;Metaverse是关于更多的沉浸式体验,以及未来互动的“升级”,但它的定义与PHP变量差不多。
将两者结合起来的主要元素是计算机硬件还有计算机软件。这就是为什么我联系了英特尔,要求采访公司高级副总裁兼总经理Raja Koduri,他的职责是从两个角度为公司管理Zettascale的未来和Metaverse体验。这次采访的目的之一是要穿透营销活动的迷雾,了解英特尔对这两个短语的确切含义,以及它们是否与公司有足够的相关性,从而被纳入未来的路线图中。
这次采访发生在英特尔投资者会议之前
IC:你从2021年年中开始担任AXG的负责人。以前是架构、图形和软件部门的总经理。那么,这些日子你的工作范围是什么?我知道桌面和企业图形,也知道OneAPI,但还有哪些加速器?
RK:好问题。我们所有的内部Xeon和HPC产品线都在加速计算图形部门。我们分而治之——我们看到加速计算的概念,即CPU平台、GPU平台和其他加速器,这是非常重要的。就像最近你听到了一些关于英特尔投资区块链的消息,我们也在做其他一些有趣的事情。所有这些都是加速计算。
IC:通常当我听到加速器时,我会想到FPGA,但它属于英特尔的可编程解决方案组,然后是网络晶片,它属于自己的网络小组。你和他们之间有多少协同作用?
RK:你知道的很多,特别是软件、互连和结构等。顺便说一下,这是个好问题。我定义加速计算的简单方法是,如果你说的是100 TOPs或以上,那就是高性能加速计算。实际上,所有高性能的东西都在AXG中。
IC:之所以主动提出采访,是因为英特尔在去年11月的超级计算机大会上开始谈论Zettascale。然后在12月开始谈论元宇宙。我想深入讨论这些话题,但我一定要问你一个关于GPU的问题。你更喜欢你的哪个孩子呢?Alchemist还是Ponte Vecchio?
RK:两者都喜欢!你不能让我选择,至少在采访中不能,会有麻烦的!
IC:实际上,在内部你们正在开发下一代的图形,再下一代,可能还有再之后的图形。作为总经理,我可以想象在任何一天你都在开会讨论第一代第二代,然后又开会讨论第四代第三代。你有没有回过头来说‘这周,我只关注第三代’或者类似的话?与未来的产品相比,即将问世的产品需要占据多大的空间?我这样问是考虑到今天你在和我这个媒体谈话,而我要问的是第一代。
RK:有几周的时间,特别是当我将其称为“创造模式”时,我们真正敲定了架构和我们将在哪些技术上进行的核心投注。(在这种情况下)这是我整个星期或一整天唯一做的事情。就我个人而言,我不太擅长转换思维,也不太擅长高效工作。所以在接下来的几个月里,举个例子,我们将非常努力地把第一代产品推向市场。这就是摆在我们眼前的事情,要把所有这些事情做好。
IC:那么转到zettascale。英特尔在10月宣布了一项“Zettascale计划”,在行业突破Exascale壁垒的前夕掀起了轩然大波。Zettascale的性能提高了1000倍,英特尔称其将在2027年前后实现。在这种情况下,当我说Exascale时,我指的是一台超级计算机,实现一个ExaFLOP的双精度计算,所有的64位数学运算。英特尔已经公开表示,即将在Argonne推出的超级计算机Aurora,将超过两个ExaFLOPs的64位双精度计算。我想问你一个非常具体的问题,关于英特尔在这种情况下所说的zetascale是什么意思。
当我们说Exascale时,我们指的是一台机器,一个ExaFLOP,双精度。
那么你说的Zettascale是指一台机器,一个ZettaFLOP,双精度,64位计算吗?
RK:简而言之,是的。
RK:如果你还记得,我一直在谈论需要增加1000倍的的计算能力,或者每瓦特性能提高1000倍。事实上,我想我在我的Hot Chips 2021主题演讲和其他一些活动中也谈到了它。原因是今天对这种计算机的需求已经存在。
举个具体的例子,如果我想实时训练一个有趣的神经网络。不是在几分钟、几小时或几天内训练,而是实时训练。这方面的需求今天已经存在。所以在很多方面,我们需要把它作为一个技术产业来考虑。
这就是弄清楚我们如何到达那里的乐趣。所以我们说zettacale是一种很好的数字表达方式,因为我们已经讨论了10^18的Exascale,现在是10^21的zettascale。但对我来说,Zettascale计划1000x的本质是从当前每瓦特性能基线开始的。我们将及时披露更多信息。
但是目前的基准,如果你仔细想想,我们用来构建Exascale和其他人用来构建Exascale的东西,这些的技术基础在十多年前就已经确定了。什么工艺技术,或者什么封装技术的问题,这些都是在过去的十年中以各种形式创造的。所以exascale是在产品中投入十多年的努力的结晶。
IC:那么同样地,这是否意味着当你今天说zettascale时,基本上所有的工作都已经在进行了?
RK:这已经发生了。事实上我认为Pat (Pat Gelsinger,英特尔首席执行官)说得很好——从Tera到Peta,从Peta到Exa,每一代所花的时间,以及我们设定的从Exa到Zetta的时间,实际上比以前的过渡要短。这是大胆的,雄心勃勃的,但我们需要释放技术管道。
在基础物理学方面,我们确实需要不同的物理学或更多的物理学来解决这个问题。所以当有那些登月式的计划时,无论是技术行业还是我们内部的制造工艺技术团队,所有从事这方面工作的科学家,以及我们在设备行业或知识产权行业的一些合作伙伴等——由于今天存在的需求,呼吁所有人都采取行动。
这些都是人工智能的工作负载和我们对模拟事物的渴望。你们知道,我们的朋友在Fugaku超级计算机最近完成了出色的工作,使用该设施来模拟新冠病毒传播的能力。这很有影响。现在我希望我们能在2020年初完成这些模拟,并希望我们能更早地有更好的理解。我们没有理由等待下一个大事件,无论它是自然事件还是我们面前的灾难。我们开始在地球尺度,行星尺度上模拟它们,这就是计算的意义。
事实上,在很多方面,它都是宇宙中最廉价的资源之一。与许多发明或我们用电的许多其他方式相比,计算每瓦特所交付的工作是超级节能的。
IC:但这还不够。
RK:这还不够。是的。别担心,1000x不过是三个零!
IC:你提到Fugaku很有趣,因为他们使用的芯片主要是为64位双精度计算而设计的。但你也提到了人工智能,它是量化和降低精度计算的混合体。很抱歉再次问这个问题,但当我们说到设置Zettascale时,我们谈论的是一台机器上有双精度计算,即使涉及到其他所有方面,我们还是在说双精度吗?
RK:是的,当然。在迈向Zettascale的过程中,我们希望我们能够利用基于工作负载的架构创新——无论是低精度的位格式,还是其他一些有趣的压缩形式。他们都将是这个旅程的一部分。为了推动一系列数学计划,或基于数学的架构、内存、互连和生产工艺计划,我们将其变得非常简单。它是Zettascale,采用64位浮点。
IC:你之前提到,从Tera到Peta,再到Exa,再到Zetta,这是行业发展的加速。如果我打开每六个月的超级计算机500强排行榜,我们今天就将实现ExaFLOP了。在英特尔预测的 Zettascale2027年的时间框架上,他们的图表仅推断出 10 ExaFLOP,而不是1000 ExaFLOP系统。这是一个飞跃,自然像这样的顶级超级计算机需要大量的投资——它需要一个特定的实体来建造它,并签订合同。Aurora的第一份合同是在2018年之前签订的,所以需要多少资金才能很快达到1000倍?
RK:能够实现这种跳跃的一个关键是系统架构也需要改变。所以如果你用当前的系统架构来研究超级计算机是如何建造的,在一个节点中有什么,然后问我能得到多少效率,我能抛出的最有野心的数字意味着你可以在10倍的范围内,也许如果你结合所有的技术能到20倍到30倍。但如果你考虑整个系统,问整个ExaFLOP系统级别的能量在哪里,你会发现除了当前的CPU和单个节点内的GPU之外,还有很多机会。这是系统级的思考,是我们zettascale计划的重要组成部分。我们正在关注系统级架构的变化,我们需要做些什么才能达到有趣的计算密度,每瓦特性能的提高。在适当的时候,我们将列出所有这些细节——我今天不会详细讨论所有这些细节,但我只想说有足够的机会。
IC:这将是英特尔驱动的,还是英特尔及其合作伙伴设计的新潜力?还是将由客户驱动?有句名言说,如果你问客户,他们想要的只是更快的机器,而不是什么新东西。
所以,如果创新必须在多个层面上发生,你将如何提供你的客户想要,但同时也是一种范式转变的东西。如果你做得太过火了,他们可能不会接受,因为这也是这些事情的障碍。
RK:在超级计算社区和HPC社区的美好中,有这样的阶段。他们是许多事物的第一批尝试者——他们进行试验倾身投入,有时只是为了获得吹嘘的权利,建立那些 "星际迷航 "的机器,所以他们很可能成为新技术的第一批试验品。有这样社区是一件好事,我们对此充满热情。这是我的焦点。现在我们的目标是不仅仅是建立一个值得炫耀的Zettascale计算机或其他东西,我们想让每个人都能使用这种水平的计算。这就是英特尔的DNA,这就是它的民主化。在我们看来,我们打包到Zettascale的每一项技术实际上都在我们的常规路线图中。这是某种形式的主流路线图,这也是我们思考的方式。
IC:我想了解一下Zettaverse的时间表。你已经和ServeTheHome的Patrick Kennedy谈过了。在那篇采访中,你说Zettascale有三个阶段。首先是在2022/2023年用下一代Xeon和下一代GPU优化Exascale;第二阶段是在2024/2025年,届时将整合Xeon和称为猎鹰的Xe,以及Silicon Photonics或“LightBringer”;然后第三阶段被简单地命名为Zettascale,因为这是4到5年后的事情,而英特尔不会谈论这么远的事情。在我看来,你是在把这些阶段与特定的产品和市场介绍联系起来?
RK:当然。在第一阶段和第二阶段,我们对产品有更明确的认识。但第三阶段是关于我们的技术路线图。当我使用技术这个词时,顺便说一下,只是为了你的观众和读者,它是需要很长一段时间的东西。它意味着工艺技术,或新的封装技术,或下一代硅光子学——这些都需要很长时间。我们的产品与Sapphire Rapids、Alchemist或BattleMage之类的东西相匹配,我们将这些技术打包到一个特定的架构系统架构中。
IC:你提到了性能上1000倍的飞跃,对Patrick你将其定义为16倍的架构飞跃、2倍的功率和热量、3倍的数据移动和5倍的工艺。这大约是500倍,超越了两个ExaFLOP Aurora系统,达到ZettaFLOP。
看一些具体的数字——对于架构来说,16x是最大的贡献。我们应该把它看作是纯粹的IPC改进,还是我们讨论的是与范式转变相结合的全面改进,比如处理和内存之类的东西?
RK:我认为是两者的结合。基本要素是每瓦特的IPC改进。我们知道如何很容易或相对地实现16倍的性能改进。但是,在不消耗功率的情况下做到这一点,对于我们面前的架构和微架构的机会来说,是一个挑战。
IC:在功耗和散热方面,你提到了2x,这是最低的乘数。你指的是使用低电压和更好的冷却能力,虽然我一听就认为我们将开始获得800到1000瓦的 GPU!但这听起来更多的是关于更好的电源管理,如何构建电源,以及热封装和电压的能力。这也涉及到如何进行架构,以及这个列表上的一些其他问题,如打包和集成。其中一些乘数有明显的重叠,那么以这种方式区分它们不是很困难吗?
RK:其中一些有超过这些数字的机会。例如,当我们说“功率和热能”的时候,它也是能量的传递——如果你看看我们今天制造计算机的方式,你就会发现我们在向芯片传递电流时所受到的调节损耗。有了系统规模的集成,就有了机会——不仅仅是英特尔发现的机会,很多英特尔以外的人也提出了一些想法,比如在背板上驱动更高的电压以驱动更低的电流。所以这里存在着机会。数据中心的工作人员已经利用了其中的一些东西,但随着整合,还有更多可用的东西。
但是你说了一些非常有趣的事情。如果我们把Zettascale看作是一个组件的集合,比如GPU、CPU和存储器等等——它们中的每一个都是单独供电的。你可以有一个300瓦的GPU和一个250瓦的CPU。这是一种计算方法。但是,如果我有X个计算量,需要多少电流来传输到那个计算中——现在有很大的功率损耗,因为每个组件都有自己独立的功率传输机制,所以我们浪费了很多能量。
所有这些东西背后的关键思想是“计算单元”。今天当我说“计算单位”时,我们是指CPU是计算单位,或者单个GPU是计算单位。没有理由它们必须是这样的。这是我们今天出于市场原因、产品原因和所有这些东西的定义,但如果你的新“计算单位”是不同的东西呢?每个计算单元都有一个特定的开销——除了核心计算之外,它还涉及到向热力解决方案提供电力。也有成本,对吧?电路板上有一堆材料,所有重复的组件都可能被组合在一起,以降低整体损耗。
从历史上看,这就是摩尔定律的基础之一。集成与集成。我们推动了这个非凡的基础,现在我们在你的口袋里的手机里有一台超级计算机。摩尔定律的这方面没有理由停止,因为在晶体管之外还有机会。只是整合就可以推动一些数量级的效率。
IC:这次采访的一个目的是讨论“metaverse ”和“zettascale”这两个流行词,其中一个横跨两者的话题是One API。我们刚刚发布了OneAPI 1.0 Gold,而Zettascale计划的一部分意味着我们将在未来几年着眼于2.0和3.0。到目前为止,OneAPI的收获如何?有什么反应和反馈?除此之外,对于未来几代产品,这一切都将只是关于特定的硬件优化,智能编译器,客户库-你能稍微详细一点吗?
RK:到目前为止的收获是非常好的。我想很快我们就会分享一些安装用户的数据。但我期待的关键是,我想我们都在期待我们的GPU硬件在今年开始上市。我们预计OneAPI的应用会出现转机。开发人员一直在使用OneAPI,但他们想在我们的新硬件上测试它。我认为这将带来令人激动的事,我们将在今年晚些时候看到这种势头的到来。
因此,在OneAPI第一阶段的现有功能之外,还有两个方面。首先是将x86库用于我们即将推出的GPU和其他硬件。第二个是数据并行特性,由CUDA、OpenCL等推广的SIMT抽象。一个干净的接口,一个干净的编程模型,可供所有人使用,支持所有人的硬件。将其与英特尔的所有工具结合起来是一笔巨大的投资。这是第一阶段。
第二阶段,特别是在我已经暗示即将到来的体系结构中,将开启新的并行形式,使计算和内存管理更加容易。例如,它将使人们更容易编写处理PB级数据的工作负载。随着硬件的发展,所有这些特性都将在OneAPI 2.0和3.0的下一个版本中出现,使其变得更加简单。
IC:所以我们要全面展开Metaverse。在我看来,Metaverse和Zettascale占据了一个非常相似的空间,都是关于计算的。除了英特尔的几次提及,特别是你在12月的RealTime大会上的演讲,英特尔对此没有说太多。因为它仍然是搜索引擎的热门词汇,没有太多实质内容。但从高层来看,作为一家硬件供应商,英特尔什么时候会从旁观者变成开始涉足?
RK:我在使用Metaverse这个词和其他流行词时有些犹豫。早在2018年,当我来到英特尔的时候,我就说过我最感兴趣的(也是让我进入英特尔的原因)就是实现让所有人都能接触到完全沉浸式的虚拟世界。这所需要的计算量正如我说的,实际上是PetaFLOPs的计算量,Petabytes的存储,距离地球上每一个人不到10毫秒的距离。这就是我们的愿景使命,英特尔仍在继续。
如果你仔细想想,什么是Zettascale计算机?或者什么是Exascale计算机?它是一个机器集群,你可以在上面安排一项工作。如果我有一些工作要做,而我可以使用X量的机器,但如果我可以提交一个工作,并把它分散到所有这些机器上,它可以快速完成。随着网络延迟的改善,每10英里半径内就会有一台PB级的机器包围着你。10英里半径受限于光速的延迟,但这正是计算结构所需要的。
但我对Metaverse的看法是什么?Metaverse有不同的形式,从玩具卡通之类的东西开始,会有很多有趣的版本。我很期待那种我能让自己置身其中的真实的、身临其境的东西。例如,你和我在互联网上进行的对话,我们感觉不到我们在同一个房间里——想象一下在这里进行适当的三维交互。这就是我所期待的Metaverse,它消除了距离,消除了地理界限,并真正地把我们俩放在同一个房间里。这意味着我在与最好的你互动,而你在与最好的我互动。这就是我所期待的Metaverse。
因此,对于英特尔来说,我们将逐步地谈论更多关于我们对它的看法。就像我在RealTime会议上说的,我们看待它的方式有三个层次。
首先是计算基础设施层,这是我们的硬件路线图硅路线图所要改进的。第二个是基础设施层,我们一直在努力创造有趣的硬件和软件。我将在几周内对此进行更多的讨论。我们在会议上展示了我们正在做的一些演示。最后一层是我所说的智能层,它利用了所有新的人工智能技术。我们希望将它们全部打包,以便你能够有效地将更多的计算(或更好的视觉体验)更有效地提供给低功耗设备。
这就是我们思考Metaverse的方式。无论我们是倾向于Metaverse这个术语,还是Web3,或者其他一些流行语,你会看到我们更多地谈论它。
IC:“Metaverse ”感觉像是虚拟现实的延续,只是增加了层次和复杂性。虚拟现实的应用还没有普及, Metaverse让人感觉它可能会成为虚拟现实的一个子集。那些类似VR的结果真的有价值吗?
RK:在过去的两年里,我们都被困在某些显示器或多个显示器前,对吧?即使不戴头盔,我认为一个更沉浸式的协作环境也是有益的。在我们开始录制之前,你一直在抱怨你想要的一些缩放功能——在我看来,我指的是1000倍的缩放功能。我认为我们将被数十亿像素包围,以一种形状或形式。我记得十年前,我们在苹果公司就是否继续生产27英寸面板进行了辩论,因为每个人都在使用智能手机。但我们可以利用这些像素来提供比今天更高效的体验。这是我对Metaverse的基本看法——我认为它将是我们拥有的工具之一。