巨乳 探花 这个餐盘一样大的芯片,超过GPU
发布日期:2024-10-27 17:56 点击次数:96
(原标题:这个餐盘一样大的芯片巨乳 探花,超过GPU)
若是您但愿不错时常碰面,宽贷标星储藏哦~
开端:内容编译自nextplatform,谢谢。
就在几个月前,晶圆级蓄意前驱 Cerebras Systems 还自大说,在运行由 Meta Platforms 创建的开源 Llama 3.1 基础模子时,将其少数几个 WSE-3 引擎和解在沿路,不错超过基于 Nvidia“Hopper”H100 GPU 的 Nvidia GPU 实例。
目下,正如软件工程师终于赶上硬件功能时鄙俚发生的那样,Cerebras 再次吹嘘说,在运行最新的 Llama 3.2 模子时,其推感性能上风更大。8 月至 10 月时代,AI 推感性能的飞跃是弘大的,提高了 3.5 倍,它拉开了 Cerebras CS-3 系统在土产货或由 Cerebras 或其金主合营伙伴 Group 42运营的云中运行的差距。
与 AI 窥探比较,AI 推理阛阓规模更大,而且在许多方面王人更容易攻克,而 Nvidia 基本上仍是锁定了 AI 窥探阛阓。若是你想知谈为什么 Cerebras 等了这样久才插足推理阛阓,谜底很简便:该公司偏执援救者但愿在向华尔街倾销该公司的初度公开募股时讲一个大故事。AI 窥探是一个不菲的大问题,但寰宇上大大王人组织王人莫得资源来窥探我方的模子,他们将寻找性能最高、老本最低的推理来部署他们的 AI 诓骗时刻。
目下,基于 Artificial Analysis 完成的 Llama 3.2 70B 基准测试以及公有云上 GPU 实例、鄙俚会提高性能的专用 GPU 云以及竞争敌手 Groq 和 SambaNova Systems 的非 GPU 系统的订价公开数据,Cerebras 似乎如实在 AI 推理竞赛中奏效。
在这一轮推理基准比较中,Cerebras 专注于对仅在 Llama 3.2 70B 模子上运行的推理进行更新,顾名念念义,该模子有 700 亿个参数。在 16 位数据分裂率下有 700 亿个参数,仅加载这些参数就需要 140 GB 内存,而每个 WSE-3 引擎只好 44 GB 的片上 SRAM 内存,因此仅加载 Llama 70B 模子的参数并留出一些内存来运行它们就需要三个多极少的 WSE-3 引擎和四个 CS-3 系统节点。(咱们在 3 月份对 WSE-3 引擎和 CS-3 系统进行了深切磋磨。)
CS-3 节点与晶圆上的结构互连,晶圆上的结构是 CS-3 架构的一部分,由其 SwarmX 集聚堆栈惩办。每个 WSE-3 晶圆的额定速率为 125 千万亿次浮点运算(由晶圆上的 900,000 个张量中枢驱动),在其 44 GB 的 SRAM 块上具有 21 PB/秒的总带宽,并为 SwarmX 集聚提供 214 PB/秒的总带宽。
Cerebras 在 AI 推理方面所展现出的性能飞跃鄙俚需要一两年的时刻,但这并不隐衷。Nvidia 的 GPU 硬件和软件很好地阐发了这一旨趣。一般来说,自 Pascal 以来的每一代新 GPU 王人仅基于硬件就为 AI 责任负载提供了大致 2 倍的性能。而到下一代硬件问世时,软件堆栈的性能仍是提高了 4 到 5 倍,使旧硬件的性能提高了 8 到 10 倍。然后,软件调治和调优经过在新硬件上再次运行。
然则,把柄 Cerebras 炫耀的数字,Nvidia 偏执 GPU 合营伙伴最佳运行进行调治。因为他们在性能和价钱方面王人受到了打击。让咱们来望望这些数字。
把柄东谈主工智能分析,Llama 3.2 70B 推理的性能如下:
早在 8 月份巨乳 探花,Cerebras 运行 Llama 3.1 70B 时每秒可推送 450 个token,而 9 月份,聚色庄园使用早期版块的 Llama 3.2 70B 时,每秒可推送 589 个token。通过这些调治和优化,Cerebras 的软件工程师约略在 8 月份使用的 CS-3 互连的换取四个节点上将其推送到惊东谈主的每秒 2,100 个token。这是软件纠正的 4.7 倍——这是 Nvidia 在两年内结束的。
目下,要么是 Cerebras 软件工程师莫得作念出甘心,因此他们约略在要津时刻逾额完成任务——斯科特先生会感到无比自重——要么他们取得了弘大而出人意象的冲突。Cerebras 并莫得泄露。但 Cerebras 居品营销总监、前 Nvidia GeForce 居品司理 James Wang 告诉The Next Platform,这可能是咱们在 CS-3 处理器上不错期待的大部分性能提高。
趁机说一句,早在 8 月份,Cerebras 在运行 Llama 3.1 8B 模子时每秒就能产生 1,800 个令牌,因此岂论该公司对其推理堆栈作念出何种蜕变,它王人能以高于过去 8B 的速率提供 70B 的推理,这意味着推理速率不错提高 17% 足下,从而愈加准确。
关于 Cerebras 来说,进攻的是,把柄 Artificial Analysis 收罗的数据,其 Llama 3.2 70B 性能比在多样云上使用“Hopper” H100 GPU 的八路 HGX 节点进步 8 倍到 22 倍,这些节点仅运行 3B 参数数目。请看一看:
望望这些基准测试的准确度各异会很酷爱。但 Cerebras 不错运行密度高 23.3 倍的模子,速率可提高 8 倍到 22 倍——上图炫耀的数据中,平均速率快 13.2 倍——把柄咱们的蓄意,这是 308 倍的乘法推感性能上风。
若是将 Cerebras 云霄每个token的订价与 Nvidia Hopper 云霄 GPU 节点进行比较,Cerebras 在这里仍然具有上风:
咱们不知谈购买 Nvidia Hopper 系统和 Cerebras CS-3 系统的东谈主是否反应了这种价钱各异。是以要戒备。但咱们不错作念一些蓄意来检讨。
美少妇据咱们了解,从 G42 上装配的 Condor Galaxy 超等蓄意机的贪图来看,576 个 CS-3 节点的老本约为 9 亿好意思元,即每个节点 156 万好意思元。带有 CPU 主机、主内存、闪存和集聚适配器的 H100 HGX 节点的老本可能约为 37.5 万好意思元。关于四台 CS-3 机器,每令牌每秒的老本为 2,976 好意思元。
在公有云上,Llama 3.1 或 3.2 型号的性能并不高,性价比死别不大。若是您将上述性能图表中的云实例性能平均化,并将其四肢 Llama 3.2 70B 推感性能的估计标准,您将得到每秒 45.9 个令牌,即每秒每个令牌 8,170 好意思元。
因此,在购买铁矿石时,Cerebras 和云霄 Hoppers 之间的性价比各异为 2.75 倍,但租用铁矿石时,性价比各异为 5.2 倍,这似乎意味着 Cerebras 在出租容量时亏空惨重。出租容量和出售容量之间的这种各异不是一种营业形状,而是一家初创公司试图诠释我方不雅点的亏本销售。但这是否可捏续还有待不雅察。要找到谜底,Cerebras 将不得不提高其销售和坐褥以裁汰硬件采购老本,而作念到这极少的独一标准是让许多东谈主感酷爱,并在短期内因云而蒙受亏空。
除了 Nvidia 和 AMD 以外,扫数加快器供应商王人在作念相同的事情,因为他们在云霄销售容量。
押注数据中心推理来股东 Cerebras 的收入流(本色上亦然扫数 AI 初创公司的收入流)很容易。推理运行越来越像窥探,需要更多时刻进行蓄意,需要更多蓄意才调更好地进行推理。此图表阐发了念念路链推理和代理 AI 将怎样股东更密集的推理:
通过加多 10 倍到 100 倍的蓄意量来进行推理,Cerebras 不错运行得到有余的数目来裁汰其 WSE-3 引擎和 CS-3 系统的价钱。
咱们想知谈,亦然许多潜在的 Cerebras 客户想知谈的是,CS-3 系统怎样运行 Llama 3.2 405B 模子,顾名念念义,该模子有 4050 亿个参数,何况在推理测试中的准确性比 70B、8B 和 3B 模子高得多。
“咱们实足不局促 405B,”王说。“事实上,咱们目下正在提倡 405B,我刚刚参加的会议等于贪图何时提倡这个问题、以何种样子提倡。是以你不错详情地说,咱们行将在 405B 规模发布一些内容。”
把柄咱们的蓄意,加载这个大型 Llama 3.2 模子中的 4050 亿个参数需要 810 GB 的内存,这意味着加载这些参数至少需要 18.4 个 WSE-3 引擎。为了便于贪图,咱们将其称为 20 个引擎。这是一个价值 3125 万好意思元的集群,但至少您无谓使用实在用于 AI 窥探而不是推理的 MemoryX 内存集群。咱们想知谈将 20 个 CS-3 节点互连以运行如斯大型的推理引擎对性能的影响。
“咱们频繁被问到这个问题:若是你在多个晶圆上运行,你的带宽不是受限的吗?”王承认。“咱们将模子拆分红多个层,以稳当这些不同的晶圆,节点间带宽条目十分低——大致是咱们本色可用硬件带宽的 5%。实在需要带宽的是张量并行。这等于 Nvidia 必须作念 NVLink 和 NVSwitch 的原因,对咱们来说,这部分在咱们的晶圆结构上责任。是以咱们不局促更大的模子。事实上,咱们很期待它们。咱们如实必须对内存进行一些优化,这样咱们就无谓使用太多的系统。”
按照咱们的倡导,Cerebras 需要 3D 垂直缓存来彭胀其蓄意晶圆的内存,就像昨天一样。咱们实足敬佩 WSE-3 蓄意引擎不是蓄意受限,而是 SRAM 容量受限。与其松开晶圆晶体管来制造 WSE-4,不如但愿它不错重新加工晶圆上的芯片,在芯片下方或上方领有多个 SRAM 堆栈,就像 AMD 在其 Epyc CPU 的 X 版块上使用 3D V-Cache(上图)以及在 Instinct MI300X 和 MI300A GPU 上使用 Infinity Cache(下图)一样。遐想情况下,每个 SRAM 堆栈可能会提供额外的 60 GB SRAM,固然咱们在这里作念梦,但为什么不有三四个 SRAM 堆栈呢?假定模子将需要更多的内存容量和带宽。
Cerebras 架构中仍是有有余的彭胀空间用于 AI 窥探,但更多的 SRAM 可能有助于窥探和推理。
关于 CS-3 机器,企业客户不错聘用 24 TB 和 36 TB 的 MemoryX 内存(一种用于晶圆上 SRAM 的缓存),而超大规模和云构建者不错聘用 120 TB 和 1,200 TB,这为企业规模的高端提供了 4800 亿和 7200 亿个参数的存储,为超大规模和云构建者提供了 2.4 万亿或 24 万亿个参数。进攻的是,扫数这些 MemoryX 内存王人不错独处于蓄意进行彭胀——这是任何 GPU 以致 Nvidia 的 Grace-Hopper 超等芯片搀和芯片王人无法作念到的,后者也具有静态内存树立。
https://www.nextplatform.com/2024/10/25/cerebras-trains-llama-models-to-leap-over-gpus/
半导体佳构公众号推选
专注半导体规模更多原创内容
温雅各人半导体产业动向与趋势
*免责声明:本文由作家原创。著述内容系作家个东谈主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或援救,若是有任何异议,宽贷相干半导体行业不雅察。
今天是《半导体行业不雅察》为您共享的第3927内容,宽贷温雅。
『半导体第一垂直媒体』
及时 专科 原创 深度
公众号ID:icbank
可爱咱们的内容就点“在看”共享给小伙伴哦巨乳 探花