
行家AI竞赛的早已从“谁能抢到更多GPU”悄然转向“谁能把GPU果然用起来”。然则,坐拥约55万块英伟达GPU,本体把握率仅有11%,这一“打脸”般的数字,正将埃隆·马斯克(Elon Musk)旗下的东说念主工智能公司xAI推优势口浪尖。
据外媒《The Information》赢得的xAI里面备忘录领悟,xAI公司总裁迈克尔·尼科尔斯(Michael Nicolls)向团队坦承,公司当今的模子浮点运算把握率(MFU)约为11%。这个数字意味着,表面上能输出100份考试算力的硬件,本体仅产出了11份。
xAI当今领有约55万颗NVIDIA GPU,其中包括H100和H200系列。尽管这些GPU比最新的Blackwell家具过期了一个世代,但xAI部署的GPU畛域之大令市集印象深远。
关于这一近况,Michael Nicolls在里面备忘录中给出了直白的评价:“低得烦躁”。他已为团队设定了在改日几个月内将把握率拉升至50% 的地方。
“11%”这个数字,并非指89%的GPU在十足闲置,而是揣摸灵验考试隐约占硬件表面峰值算力比例的严苛目标。
从行业基准来看,坐蓐级大模子考试的MFU相同落在35%至45%之间。Meta和谷歌凭借深厚的软件堆栈积存,其GPU把握率离别可达约43%和46%。即便以“低效”著称的GPT-3考试期间,MFU也在21%-26%之间。比拟之下,xAI的11%不仅远低于面前主活水平,致使低于AI算力发展史上的“古早”烦躁期间。
坐拥算力“金山”却难有用武之地,关节出在那里?谜底指向软件堆栈与并行战略的滞后。
xAI在业内以“十足按照英伟达保举花样部署GPU”的范例生作念法著称。范例生却跑出低分,评释问题不在圭臬的硬件或收罗拓扑层面。根源在于,考试栈、并行战略和模子工程等软件优化速率,远跟不上其激进的硬件扩展方法。
业界世俗参议的“存储墙”步地成为主要瓶颈——HBM显存读取速率远慢于策划芯片,AG真人中国官方网站导致芯片无数时刻空转恭候数据;收罗拓扑中的任何一处瓶颈,在数万张卡的同步条目下,齐会被急剧放大。此外,Lambda等机构的分析指出,显存压力、过度的激活重策划和张量并行带来的跨GPU通讯支出等,齐是遭殃MFU的系统性身分。
xAI的算力基础容貌缔造速率自己等于一个“听说”:其孟菲斯Colossus超算集群从动工到进入运营仅用了122天,从10万张GPU扩展到20万张仅用了92天。黄仁勋曾评价此类工程“相同需要四年”。

△xAI孟菲斯Colossus超算集群
然则,惊东说念主的速率似乎也让xAI“欠下”了本事债。扩展越快,维持大畛域并行考试的软件系统复杂度就越大。当企业试图将GPU畛域从数千张推向数十万张时,通讯、退换、容错和并行战略的挑战会呈指数级增长。xAI的11%的算力把握率,恰是这一矛盾的聚首体现。
把问题十足归罪于xAI一家也并造反正。《The Information》的报说念征引一位匿名推敲员的话称:“跑过40%对xAI的大多数竞争敌手来说也很难”。这标明,超大畛域集群下的低效问题,是粉饰系数AI行业的暗影。
报说念还揭示了一个行业里面的歪曲步地:由于记挂GPU被调走或承受压力,一些推敲员致使通过反复重跑考试来东说念主为“好意思化”自家MFU数据。囤而无谓的算力花消,成为行业心照不宣的玄妙。
濒临效果困局,xAI正多措并举。一方面,公司策划通过基础容貌和软件栈优化来处理把握率问题。另一方面,据媒体报说念,xAI已启动将部分闲置算力对出门租,AI编程创业公司Cursor已策划使用其“数万张GPU”来考试新模子。
AI算力之争已过“装备竞赛”阶段,精良进入“效果竞赛”的深水区。11%的低把握率如消除面镜子,照出AI行业下半场的中枢命题:奈何将“买得到”的硬件AG真人 - AG真人(中国)官方网站,转移为果然“用得好”的竞争壁垒。
金佰利app官网下载入口