英偉達巨額收購推理芯片獨角獸 Groq

熱設計網 2026-01-13

“黃仁勛這200億美元，買的其實就是Jonathan Ross這個人，押注在此英偉達未來可能會賺回三倍的錢，所以200 億美元實在不算貴。”某投資人近日向雷峰網透露。

2025年12月24日，英偉達以其史上最大規模交易額200億美金，將推理芯片獨角獸Groq的核心技術與團隊收入麾下。Groq創始人、谷歌TPU初代核心開發者Jonathan Ross帶隊加盟英偉達，其獨創的LPU芯片技術將融入英偉達AI Factory架構。當下AI行業正從“規模競賽期”轉向“效率價值兌換期”，推理側需求大于訓練側需求已成為普遍共識。面對推理市場的爆發式增長，Groq的專屬LPU芯片以5-10倍于GPU 的速度優勢，以及1/10的成本優勢，成為異軍突起的核心玩家，而黃仁勛最終還是選擇了將這條攪動市場的鯰魚收入囊中。這究竟是招安潛在對手的緩兵之計，還是壟斷推理市場的霸權布局？

01重金收編的核心是什么？

2026年CES大會期間，英偉達管理層在面向投資者的會議上強調，此次收購Groq不會對核心業務產生沖擊，反而將為公司開辟全新的增長空間。而這樁被包裝成“非獨家技術授權”的交易，本質是硅谷近年流行的“收購式招聘”的升級版：用授權的名義實現“人才+技術”的雙收。瑞銀分析師團隊在研報中直言：“這是一場沒有收購之名的完全收購，英偉達用最小的監管風險，獲得了最核心的戰略資產。”根據披露信息，英偉達所支付的200億美元中，130億已即時到賬，剩余款項中包含核心員工的股權激勵，其中Groq CEO Jonathan Ross個人獲得數億美元英偉達股權。團隊核心成員則幾乎全員轉入英偉達，芯片設計、編譯器開發等核心資產也盡數歸入英偉達體系。“黃仁勛這200億美元買的其實就是Jonathan Ross這個人，因為Jonathan Ross是個非一般意義的天才。如果拿黃仁勛類比杰夫里辛頓（深度學習教父）的話，那Jonathan Ross就要類比伊利亞（OpenAI聯合創始人兼首席科學家）。”苔蘚花園播客主理人、資深私募投資人王韋華告訴雷峰網。

作為谷歌初代TPU的核心設計者，Jonathan Ross早在2016年Groq成立時就已預判推理將成為規模化難題，并率先提出“推理市場規模終將遠超訓練”。他提前洞悉到推理的核心需求是“低延遲、高能效、低成本”，而非計算密度。因此他摒棄了GPU架構改良思路，從零打造專為推理設計的LPU架構。LPU架構完全圍繞“消除數據搬運延遲”展開，采用無外置內存、全片上SRAM作為主存的設計，片上帶寬達80TB/s，是Blackwell B300 的HBM帶寬8TB/s的10倍。成本方面，Jonathan Ross曾在福布斯獨家專訪中公開聲明，“Groq LPU在LLM推理速度快10倍同時，成本是Nvidia GPU的1/10，功耗是Nvidia GPU的1/10。”這種集性能與成本優勢于一身的提升，精準擊中了英偉達在推理賽道的核心短板，也成為黃仁勛不惜斥資 200億果斷出手的關鍵所在。另一方面，回溯英偉達過往的并購布局便不難發現，這場交易也并非偶然。

2000年，英偉達以7000萬美元+100萬股普通股收購了3dfx核心圖形資產，奠定GPU領域統治基礎；2013年，收購了HPC編譯器龍頭PGI，強化了CUDA生態在高性能計算領域的核心支撐；2019年，以約69億美元收購了Mellanox，補全數據中心網絡短板。王韋華認為，“LPU現在已經不是0億美金市場了，但黃仁勛再次早于別人發現了LPU的重要性。英偉達現在收購Groq，甚至比2019年收購Mellanox的重要性要更大，這一步直接讓英偉達在推理端領先兩三年。雖然在英偉達整個數據中心的建設里推理占比不大，但只要它在技術上保持領先就會產生巨大的杠桿效應。”盡管Groq當前的市占率遠未對英偉達構成直接威脅，但它掌握的可重構數據流架構，代表了AI推理的未來方向。英偉達此次用200億美元“買斷”這條技術路線，正是“技術補位+生態壟斷”并購戰略的延續。而這種不計短期成本、鎖定長期技術優勢的大手筆操作，底氣完全來自其充沛到近乎 “過剩” 的現金流。據英偉達最新財報，僅2026財年Q3，英偉達的自由現金流便達到了220.89億美元。

02為什么是Groq？

當下，全球僅有兩個團隊掌握TPU架構技術：谷歌與Groq。

在此之前，谷歌憑借TPU訓練出優質模型引發市場關注，導致英偉達股價受挫，此次收編補齊了其在TPU架構路線上的短板，在鞏固行業地位的同時為其估值提供了重要支撐。

王韋華表示，“英偉達這次押注LPU不單是為了對抗谷歌的TPU，TPU專注于矩陣運算，更多還是強調在訓練方面的優勢。LPU 其實跟 TPU 相比的話，更專注于推理這一塊。以后在推理這塊誰能省最多的電？誰能在速度上面最有優勢？目前看最有可能的方向就是LPU了。”作為谷歌TPU的核心締造者，Jonathan Ross深知GPU處理線性代數運算時的架構冗余，離開谷歌后他以第一性原理為核心，選擇SRAM作為核心存儲、通過編譯器規劃數據路徑，打造低延遲LPU產品，其TPU開發經驗直接決定了Groq“順序延遲優先”的技術路線。從谷歌TPU的靈魂人物，到出走自立門戶成立Groq，過程中的勢力角逐，歡迎添加作者微信IHAVEAPLANB-交流。

業內人士告訴雷峰網，TPU架構的計算效率遠超GPU的原因在于，GPU需經歷“計算-傳數據至存儲-讀寫-再計算”的循環，而TPU采用片上存儲直接計算，省去了數據往返存儲的環節，效率極高。

當token的吞吐量效率落地到用戶體驗層面，Jonathan Ross表示，響應時間每縮短 100 毫秒，桌面端用戶參與度就能提升8%，移動端更是高達34%。業界早已形成共識：當用戶體驗的響應時間控制在250到300毫秒以內時，商業收益才能最大化。根據Groq 官方信息，實測數據顯示Groq LPU在運行Llama 3.3 70B模型時，token生成速度達284tokens/s，首token響應時間僅為0.22s，運行混合專家（MoE）模型時更是突破460 tokens/s。

這種極致性能讓Groq斬獲沙特王國15億美元業務承諾資金，也讓英偉達意識到，要統治推理市場需補齊這一短板。英偉達此前推出的H200、B300等推理優化芯片，本質仍是基于GPU架構的改良，未能突破馮·諾依曼架構的先天局限，而谷歌TPU、AMD MI300等競爭對手，均在專用推理架構上持續發力。

更嚴峻的是，Meta、谷歌等大客戶開始尋求算力供應多元化，Anthropic甚至宣布接入100萬個谷歌TPU構建計算集群。在此背景下，收購Groq成為英偉達快速搶占推理高地、留住核心客戶的最優解。

“英偉達真正擅長的是訓練，在這一領域它是最出色的。英偉達既不提供高速的token處理服務，也沒有低成本的token解決方案，這便是Groq要解決的問題。”

在被英偉達納入麾下之前，Jonathan Ross曾在播客中公開聲明，英偉達與Groq并非競爭對手，二者的產品完全是不同維度的存在。然而事實果真如此嗎？某機構分析師說：“英偉達要忌憚的，是Groq代表的“去GPU化”技術路線可能引發的產業變革。英偉達的霸權建立在“GPU+CUDA生態+HBM/CoWoS稀缺產能”的三重護城河上，而Groq的技術路線恰恰繞開了這三大壁壘：可重構架構無需依賴CUDA生態，采用GlobalFoundries和三星代工，不占用臺積電稀缺的CoWoS產能。”“一旦這條路線跑通，意味著AI芯片的生產門檻將大幅降低，其他設計公司無需依賴稀缺供應鏈就能大規模生產推理芯片。英偉達以200億美元收編Groq，意味著將這條潛在的顛覆路線握在自己手中，確保算力革命的主導權不旁落。”

03推理市場變天？

“為了成為一名心血管外科醫生，你不可能花費一生95%的時間接受培訓，真正手術的時間只占5%。實際情況恰恰相反：你經過短暫培訓，隨后便會用余生持續實踐這項技能。”對于推理市場未來的演進趨勢，Jonathan Ross曾打過這么一個比方。2025年初Deepseek橫空出世時，Jonathan Ross將其稱為AI行業的“斯普特尼克時刻”；當下，推理市場也許將再次進入“斯普特尼克時刻”。

據悉，在收購Groq后英偉達會將LPU作為專用的DAC硬件單元嵌入到CUDA生態系統中，以此保持CUDA編程的通用性。短期內，英偉達會通過NVFusion快速集成LPU；長期來看，則會在底層架構和編譯器層面實現協同設計，從而滿足性能場景下的高性能需求。由于推理場景和訓練場景存在顯著差異，無法通過單一架構解決所有問題，不同推理場景對大模型的工作負載要求各異，所以推理芯片架構將呈現多樣化，需要針對細分場景進行優化。

業內人士爆料，英偉達下一代Feynman GPU或將于2028年集成Groq的LPU單元，采用類似AMD X3D方案的獨立芯片堆疊設計，即利用臺積電的SoIC混合鍵技術將3D V-Cache芯片集成到主計算芯片上。

考慮到SRAM的擴展性有限，將其作為單元芯片集成到Feynman GPU中可能并非明智之舉，因為在先進制程上構建SRAM將導致高端硅片的浪費，并大幅增加每片晶圓面積的使用成本，因此英偉達很可能會將LPU單元堆疊到Feynman芯片上。“這樣一來，像A16（1.6納米）這樣的芯片將用于主Feynman芯片，而獨立的LPU芯片將包含大型SRAM存儲體。此外，為了將這些芯片連在一起，臺積電的混合鍵合技術至關重要，因為它能提供更寬的接口，并且與封裝外存儲器相比，每比特能耗更低。最重要的是，由于A16具有背面供電功能，正面將可用于垂直SRAM連接，從而確保低延遲的解碼響應。”

可要做到上述也絕非易事，目前的主要問題仍在于CUDA在LPU風格執行中的行為方式，因為它需要顯式的內存布局，而CUDA內核設計初衷是為了實現硬件抽象。對于英偉達團隊而言，在AI架構中集成SRAM難度極高，這需要“工程奇跡”來確保LPU-GPU環境得到充分優化。

來源：雷峰網

標簽：點擊：評論:

本文地址： http://m.16909.cc/xingyezixun/News/3297.html

英偉達巨額收購 推理芯片獨角獸 Groq

英偉達巨額收購推理芯片獨角獸 Groq