趨勢排行
掌握趨勢,領先排序。

CUDA首遭挑戰!谷歌TPUv7對抗輝達王座

灰色記憶體2025-11-30 08:49
11/30 (日)AI
AI 摘要
  • 剛剛,他們最新的文章給出一個明確的結論:TPUv7 首次向輝達發起了衝鋒。
  • 目前,世界上最頂尖的兩個模型——Anthropic 的 Claude 4.
  • 5 Opus 以及 Google 的 Gemini 3——絕大部分訓練和推理基礎設施都運行在 Google 的 TPU 和亞馬遜的 Trainium 上。
  • Google TPUv7 對抗輝達王座眾所周知,SemiAnalysis 是一家在科技界,尤其是半導體和人工智慧領域極具影響力的精品研究與諮詢公司。

CUDA 首遭挑戰!Google TPUv7 對抗輝達王座

【新智元導讀】當 Google 不再只滿足於「TPU 自己用」,TPU 搖身一變成了輝達王座下最鋒利的一把刀!CUDA 護城河還能守住嗎?讀完這篇 SemiAnalysis 的分析,你或許會第一次從「算力帳本」的視角,看懂 Google 暗藏的殺招。Google Gemini 3 的成功,讓其背後的 TPU 再次成為全世界關注的焦點。資本市場給出了明確的反應,Google 股價的上漲,也讓一個話題再次被拿到牌桌上討論:Google TPU 是不是真的能和輝達 GPU 掰一掰手腕?

尤其是在 TPUv7 的挑戰下,人們更加關注這款專門為 AI 設計的晶片是否能夠打破輝達多年來在 GPU 市場形成的壟斷地位。

眾所周知,SemiAnalysis 是一家在科技界,尤其是半導體和人工智慧領域極具影響力的精品研究與諮詢公司。它以硬核、深度的資料分析著稱,不同於泛泛而談的科技媒體,它更像是一個服務於華爾街投資者、晶片巨頭和 AI 從業者的「行業智庫」。剛剛,他們最新的文章給出一個明確的結論:TPUv7 首次向輝達發起了衝鋒。這篇文章由 12 位作者共同撰寫,可見其份量之重。

根據 SemiAnalysis 的分析,Google 打破了長期以來內部自用的慣例,開始向 Anthropic 等外部客戶大規模出售 TPU 硬體及算力。截至 2023 年, Anthropic 已經部署超過 1GW 的 TPU 叢集。儘管在單晶片理論參數上 TPU 未必碾壓輝達,但 Google 憑藉卓越的系統級工程(如 ICI 互聯和光路交換)實現了極高的實際模型算力利用率(MFU),且總體擁有成本(TCO)比輝達 GB200 系統低約 30%-40%。

同時,Google 通過支援 PyTorch 原生環境和 vLLM 等開源生態,積極修補軟體短板。這也意味著 CUDA 護城河是否能被終結,未來將是一個重要課題。

此外,TPUv8 和輝達下一代 AI 新品 Vera Rubin 誰更強大?這個問題的解答就在後續內容中。輝達堅不可摧的堡壘,正出現了一絲裂痕。目前,世界上最頂尖的兩個模型——Anthropic 的 Claude 4.5 Opus 以及 Google 的 Gemini 3——絕大部分訓練和推理基礎設施都運行在 Google 的 TPU 和亞馬遜的 Trainium 上。

除了面對 TPU 的壓力,輝達還面臨著通過「循環經濟」造成 AI 泡沫的質疑。許多質疑者認為,輝達通過資助燒錢的 AI 初創公司,本質上是將錢從一個口袋轉移到另一個口袋。然而,SemiAnalysis 認為更合理的解釋是:輝達旨在通過股權投資而非降價來保護其在基礎實驗室的主導地位——降價將拉低毛利率並引發投資者普遍恐慌。

Google TPU 的大規模外部化

TPU 堆疊長期以來一直與輝達 AI 硬體相抗衡,但它主要是為了支援 Google 的內部工作負載。即使在 2018 年向 Google 雲平台客戶提供 TPU 之後,Google 仍未將其完全商業化。如今,這種情況正在開始改變。

在過去幾個月裡,Google 已經動員了整個堆疊的努力,通過 Google 雲平台或作為商用供應商銷售完整的 TPU 系統,開啓了 TPU 大規模商用的步伐。這一舉措也使這家搜尋巨頭成為一個真正差異化的雲提供商。與此同時,Google 的頂級客戶 Anthropic 也在繼續推動擺脫對輝達單一依賴。

與 Anthropic 的交易,標誌著 TPU 規模化商用的一個重要里程碑。那麼,Anthropic 和其他客戶為什麼想要 Google 的 TPU?

答案很簡單。TPUv7 Ironwood 是一個優秀系統內的強大晶片,即使晶片在參數上落後於輝達,Google 的系統級工程也使得 TPU 堆疊在性能和成本效率方面都能與輝達相匹配。這種組合為 Anthropic 提供了引人注目的性能和 TCO。

進入大模型時代之後,Google TPU 的設計理念發生了明顯轉變。從最近兩代為大模型設計的 TPU:TPUv6 Trillium(Ghostlite)和 TPUv7 Ironwood(Ghostfish)就可以看出這種變化。TPUv6 在 FLOPs 上已經非常接近 H100/H200,但它比 H100 晚了 2 年。TPUv7 Ironwood 是下一次迭代,Google 在 FLOPs、記憶體和頻寬方面幾乎完全縮小了與相應輝達旗艦 GPU 的差距,儘管全面上市比 Blackwell 晚了 1 年。

為什麼 Anthropic 下注 TPU?

比較理論 FLOPs 只能說明部分問題。更重要的是有效 FLOPs,因為峰值數字在實際工作負載中幾乎從未達到。輝達的優勢源於 CUDA 護城河和開箱即用的廣泛開源庫,幫助工作負載高效運行,實現高 FLOPs 和記憶體頻寬。相比較之下,TPU 軟體堆疊開箱即用的性能較弱,然而 Anthropic 擁有強大的工程資源和前 Google 編譯器專家,他們既瞭解 TPU 堆疊,也很好地理解自己的模型架構。因此,彌補了這方面的不足。他們可以投資自訂核心以驅動高 TPU 效率,這使得他們可以達到比採用其他商用 GPU 更高的 MFU(模型 FLOPs 利用率)和更好的每 PFLOP 成本性能($/PFLOP)。