机器之心报说念
剪辑:佳琪
发言东说念主将「工程迭代」称为「雄伟且在预感之中」。
本年的的 GTC 大会,将 AI 芯片的标杆推向了难以思象的高度。
为了匡助寰宇构建更大、更智能的 AI,英伟达滥觞拿出了寰宇上起初进的 GPU—— Blackwell 系列。

Blackwell 领有 2080 亿个晶体管,在袪除颗芯片上集成了两个 GPU。其两块小芯片之间的互联速率高达 10TBps,透顶处分了内存瓶颈温和存问题。
与前代产物 H100 比较,Blackwell 的性能进步一样令东说念主属目,达到了 Hopper 的 30 倍。

以磨练一个 1.8 万亿参数的 GPT 模子为例,如若使用 Hopper,需要 8000 个 GPU,蹧跶 15 兆瓦电力,磨练 3 个月;而换成 Blackwell,仅需 2000 个 GPU,就能在一样的时代内完成,能耗只需 4 兆瓦,杀青了性能和效果的双重打破。
Blackwell 的量产问世,无疑将为 AI 模子磨练和东说念主形机器东说念主的发展注入强盛能源,对通盘这个词 AI 哄骗生态也将产生潜入影响。

自 3 月份发布,6 月份文书投产以来,Blackwell 率先定于 2024 年第二季度发货,各人科技公司齐在猖獗求购。
但在原定的发货时代,传出了 Blackwell 因为良品率低,将推迟发货的音讯。
其时,在 2025 财年第二季度财报电话会议上默示,诡计上的问题齐已种植,有望在第四季度杀青量产。
咫尺,英伟达的客户又在追忆一个新问题,当芯片畅达到 Nvidia 我方的处事器机架时,会过热。

据 The Information 报说念,英伟达 Blackwell GPU 在 72 核的处事器上表示了过热隐患。这些处事器每个机架的功耗瞻望高达 120 千瓦,过热问题不仅截止了 GPU 的性能,还可能损坏组件。为此,英伟达不得未几次重新评估处事器机架的诡计决策。

这激勉了谷歌、Meta 和微软等大客户对能否如期在其数据中心部署 Blackwell 的担忧。
为此,英伟达已条目供应商对机架进行多项诡计变更,进一步推迟了预期发货日历。该公司发言东说念主将「工程迭代」描述为「雄伟且在预感之中」。

此前,由于 GPU 良率不高的问题,Blackwell 的量产筹商就推迟了一次。
本年 8 月,有媒体称 Blackwell 存在诡计残障。由于 Blackwell 是英伟达首个采选 MCM(多芯片封装)诡计的 GPU,在袪除个芯片上集成了两个 GPU。
这种「二合一」的改进,明显不成再通过传统时势来打造。Blackwell 的 B100 和 B200 GPU 两个型号使用台积电的 CoWoS-L 封装工夫畅达两个芯片,该工夫依赖于配备局部硅互连(LSI)桥接器的 RDL 中介层,以杀青约 10 TB/s 的数据传输速。
然则,由于 GPU 芯片、LSI 桥、RDL 中介层和主板基板之间的热扩展特点不匹配,导致封装结构出现迂曲,从而激勉系统故障。

对此,黄仁勋默示:「咱们的 Blackwell 芯片存在诡计残障,天然不错雄伟使用,但该诡计残障导致良率低下」。
更多确定可参见:《100% 英伟达的错:黄仁勋阐发 Blackwell 残障种植,来岁头出货》
最终改良版的 Blackwell GPU 直至 10 月底才启动量产,这意味着英伟达最快也要比及来岁 1 月底才调向客户拜托这些处理器。
而 Blackwell 正在面对前所未有的需求。近期,黄仁勋在摩根士丹利举办的投资者会议上表示,Blackwell 依然一起售罄。摩根士丹利分析师 Joe Moore 指出,英伟达高管称,Blackwell GPU 产物的订单积压已达 12 个月。
AWS、CoreWeave、谷歌、Meta、微软和甲骨文等科技巨头,依然采购了英伟达过火制造配合资伴台积电在改日四个季度内能分娩的通盘 Blackwell GPU。
这种繁荣的需求标明,尽管 AMD、英特尔以及各大云处事商正奋力分得一杯羹,英伟达在 AI GPU 的指点地位还将进一步沉静并扩大。
看成东说念主类历史上估值最高的股票,英伟达将于本周三公布收益。与 8 月份的情况相似,在肖似的时代节点,又传出了关联下一代 Blackwell 芯片出问题的音讯。

在英伟达承认 Blackwell 存在诡计残障导致良品率低后,其时刚创下历史新高的英伟达股票收跌 2.81 %,又回落到了 140 好意思元以下。

这一次,英伟达的股价又会发生如何的变化呢?
https://www.theinformation.com/articles/nvidia-customers-worry-about-snag-with-new-ai-chip-servers
https://www.tomshardware.com/pc-components/gpus/nvidias-data-center-blackwell-gpus-reportedly-overheat-require-rack-redesigns-and-cause-delays-for-customers