Redefine Innovation
19/04/2026
這兩天很多人出來發文嘲諷Jensen,發迷因把Jensen的頭放在一台汽車上,只因為他在過去那麼多正確的決策下有幾個不完美的決策。
如果你去看過去十年每一年的GTC大會,你就會知道很多事情Jensen的佈局和思考是看得很遠的。
但是,覺得很遺憾在NVIDIA已經在佈局下一個五到十年,針對下一個重要市場結構變化打造策略時,很多人還在用現在、甚至有點過時的市場資訊來評斷Jensen和NVIDIA的策略。
當很多人還覺得Inference Tokens只有成本一個指標時,市場已經開始演化出高階&中低階兩個不同的市場,也有不同的指標和適合的競爭策略。
市場正在演化到下一個新的結構,如果我們還在用舊的結構來去判斷NVIDIA的策略,自然沒辦法理解Jensen想要表達什麼。我想,任何一個能把公司能做到年成長超過70%的CEO,即便在所有CEO裡,都不能算是普通人、普通表現了吧?
24/01/2026
「NVIDIA的AI運算系統演進 - 從晶片到系統層面競爭」
在2026的CES中,NVIDIA CEO Jensen Huang特別強調了”Extreme Co-Design”的概念,一次列出6大晶片,象徵著整體系統的疊代。事實上,這樣的系統不是一夕之間成形,而是經過NVIDIA多年的併購、開發新晶片而達成。因此,”Extreme Co-Design”不是一個新的概念,更像是NVIDIA這10年來發展的一個重大Milestone。
本篇文章,本來是想要簡介這樣從晶片到系統層級發展的一個典範轉移,沒想到,把需要的脈絡交代完以後就變成了一篇長文。因此,這會是一篇不短的文章,有興趣往下看的人請注意接下來會有不短的篇幅還有技術趨勢討論,請慎入。
本文開始。
如果你有持續觀察GPU晶片的整體發展的話,你可能會觀察到,整體GPU系統架構的演化,已經從單純串接更多顆GPU,到多種晶片特化。這讓我們發現到一件重要的事情:這些AI晶片在被設計時,關注的不只是單一晶片效能,而是如何達到「全域優化」,以整體系統的角度來設計所有的晶片。
因此,我們會注意到,系統算力提昇的重點,已經從之前電晶體密度的增加,到GPU/ASIC單一晶片的加速。而正在發生的,會是多晶片的特化+整體系統的Extreme Co-Design,而不再只是單一晶片的發展。
從這邊,我們可以看到,NVIDIA的策略和ASIC策略的不同,不是NVIDIA因為覺得客製化晶片不重要,而是NVIDIA直接在系統層面上做特化。而且,我們也可以觀察到,Google、Amazon…..等公司也開始在往同樣的方向發展,比如他們都有在開發屬於自己的CPU和其他晶片。
目前的AI系統發展,正在進展到一個新的階段,也就是AI系統的整體重構。你會看到AI系統的四大面向:運算、記憶體、晶片互連、供電,都在重新被設計和建構。接下來的發展就會是以這幾個面向的整體重構作為主軸。
而這篇文章,我們會聚焦在運算部分的系統架構演進來描述近期的重要發展。運算系統的架構演進,主要可以分成四個重點來討論:Extreme Co-Design (6種以上特化晶片)、運算設計從GPU集中到「GPU集中運算+局域分散運算」、Logic晶片和HBM的整合 (Custom HBM)、軟體層的發展。
就讓我們就這四個主要面向來討論。
▌1. Extreme Co-Design: 6種以上特化晶片
首先,我們需要理解一下,為什麼會需要這麼多種特化晶片來取代早期的CPU來做運算,而不單純只是用GPU?
因為,在所有的運算中,只有一部分是適合被平行運算替代的工作,而不是所有運算都能被平行化放入GPU的運算工作,而其他傳輸相關和系統相關的運算,也正在被放進獨立的特化晶片中。
所以我們會看到,CPU和GPU之外,還發展出另外好幾顆特化的晶片,來offload CPU或GPU的傳輸或運算,增加整體系統效率。因為CPU和GPU比較常見,所以我們就不多加介紹,以下就以系統的角度分介紹其他幾顆晶片,並讓大家更了解整體系統的運作與設計:
➤ NVSwitch - 保證GPU Server Rack內GPU高速互連
首先,是晶片和晶片互連的工作使用NVSwitch來執行,NVSwitch有兩個功用,主要的功用是傳輸,確保資料在大量GPU之間能以最高速度和最低延遲來傳輸。而第二個功用是整合了部分的運算工作,讓某些All Reduce和需要整合多個GPU資料的資料運算可以在NVSwitch整合後再分發到各個GPU,節省大量頻寬和部分在GPU內部的運算。
➤ BlueField - 卸載CPU的基礎設施管理
再來是BlueField晶片,BlueField 的核心目標是將原本由 CPU 負擔的「基礎設施任務」(如網路通訊、存儲管理、安全加密)卸載到專門的晶片上,讓 CPU 能專注於執行應用程式,GPU 專注於 AI 計算。
有很多重要的工作會在BlueField晶片裡完成,比如說:遠端記憶體存取 (RDMA / RoCE 支援)、處理乙太網路(Ethernet)或 InfiniBand 的資料包轉發、安全加密運算 (Security/Encryption)、存儲邏輯處理 (Storage Offload)、虛擬交換器管理 (vSwitch/vRouter)......等,包含了支援傳輸、儲存管理、加密運算......等功能。
而最新的功能則是NVIDIA所推出最新的KV Cache記憶體管理,由BlueField來主導,主要是讓BlueField晶片可以做超大規模 KV 快取共享 (Pod-scale Sharing)、SSD記憶體中的上下文預讀、硬體加速 KV 快取放置 (Accelerated KV Placement)、海量情境資料的索引與標籤......等原本可能會耗用大量CPU資源的工作,來讓整體系統的運作更有效率。
➤ ConnectX - 確保高效GPU Rack互連
ConnectX晶片負責處理Scale-Out領域的資料傳輸和運算,它主要是GPU Rack和其他Rack的高速、低延遲通道,可以讓數萬顆或以上的GPU同時順暢運作。
它和NVSwitch有類似的功能,不過在工作範圍上區分得很明確。NVSwitch主要是處理Server Rack內部的晶片互連,如NVL72內部的GPU和GPU互連,而ConnectX主要是處理Rack以外GPU和GPU Rack間的互連,還有和SSD Storage的串連。
ConnectX和BlueField之間的分工就是,BlueField負責分派要如何傳輸,ConnectX負責達成高速、低延遲傳輸。
從前面的討論我們可以發現,NVIDIA把各種不同類型的傳輸和運算獨立出來,分別特化成不同的晶片。相對於一顆晶片來處理各種不同的運算來說,獨立特化成不同的晶片,一來可以比較有效率,二來也可以根據所需的晶片數量去做不同的數量分配,達成更好的資源優化。
所以你覺得NVIDIA比較偏一般平行運算,沒有做特化的晶片?實際情況可能跟你想得不一樣。
▌2. 運算設計從GPU集中運算到「GPU集中運算+局域分散運算」
從前面的解說我們可以發現,其實整個加速運算的工作,從原本的單顆GPU負責所有的平行運算,到後面延伸出NVSwitch、BlueField、ConnectX、Spectrum等晶片,除了負責晶片之間的資料傳述、卸載CPU的部份工作外,還開始將一部分較簡單或是可以在局部先執行的運算,下放到這些原本主要是處理資料傳輸的晶片上。
這個跟整個系統的發展有關。早期GPU都是以單顆運算為主,到了2016年時,NVIDIA推出配置8顆GPU的DGX-1,搭配NVLink,解決GPU之間互連速度的問題。到了2018年的DGX-2,GPU的數量增加到16個,因此發展出了NVSwitch,讓GPU可以達成任意對接 (Any-to-Any) 的目的。
而到了NVSwitch 3,正式的加入SHARP In-Network Computing Controller,SHARP含運算單元,可以直接在NVSwitch裡面處理一些簡單的運算和資料整合,這樣可以將一些簡單的運算在NVSwitch內直接完成,不需要什麼都要傳到GPU運算再傳回來,大幅降低GPU的loading和資料的來回傳輸。
而ConnectX也可以作類似的In-Network Computing,因此,我們會發現,NVIDIA開始將運算作全域的優化,也就是將運算分散在CPU、GPU、BlueField、NVSwitch、ConnectX…..等晶片,最優化系統的效能,不見得要全部都放到GPU上面作運算。
我們可以看做是從GPU延伸到整個系統運算的演進。
▌3. Custom HBM: Near Memory Computing正在發生
而如果對AI模型有研究的人,可能會知道,HBM除了容量以外,頻寬在AI模型運算中佔了很重要的地位,模型吐出Token的速度,和HBM的頻寬有著很大的關係,模型越大,就越吃HBM頻寬。因此,我們會看到HBM的頻寬和容量在每一代都快速增加中。
而HBM和GPU之間的資料傳輸,一直都是整個系統資料傳輸和能耗的大宗,因此,大家都在想辦法盡量增加頻寬,且縮小運算晶片和記憶體之間的距離。
Custom HBM是接下來HBM發展的一個重要方向,而且象徵著運算晶片和記憶體有更深度的整合。
因為Custom HBM將原本HBM最底下的Base Die從記憶體廠自己製造的晶片,換成邏輯晶片廠提供的Logic Base Die。而且,對於Function的配置,也有調整。將原本放在GPU或AI晶片中的HBM Controller,移到HBM的Base Die中。
這表示Custom HBM有一個整體性的改變,除了將原本放在GPU/ASIC裡面的HBM Controller移到HBM Base Die裡面可以清出更多空間放GPU/ASIC運算單元外,也會將邏輯晶片和HBM的距離拉近。因為,有一些較簡單的計算,可以在HBM Base Die處理完以後再傳回GPU/ASIC,不需要傳回GPU/ASIC後再處理。
所以,Custom HBM的演進,也代表了Logic和Memory整合性的提高,也會發現,Base Die的演變也代表Near Memory Computing的概念正在發生。
▌4. 軟體層的發展: 運算資源最佳優化
最後,硬體層優化之後,軟體層能精準的調動分配資源,就變得非常重要了。
因此,我們看到NVIDIA發展出系統層級的資源調度軟體。由於這部份有很多面向,但比較具有代表性的就是NVIDIA在AI Inference使用上所開發出的Dynamo軟體。
首先,Dynamo根據大語言模型的不同階段 (Prefill - 預填充和Decode - 解碼) 做不同的資源配置,因為Prefill是屬於運算密集型(Compute-bound),Decode是屬於記憶體頻寬密集型(Memory-bound)。
單用一顆GPU時沒有辦法動態分配GPU運算和記憶體使用的比例,但是用多顆GPU時,就可以搭配不同的Task的不同階段,去動態分配適合的資源到不同的Task,可以大幅優化資源使用效率。因此,多顆GPU搭配Dynamo,可以比單顆GPU的運算效率高好幾倍。
當然,這只是一個例子,Dynamo還有動態資源調度 (GPU Planner)、高效 KV Cache 管理、智慧路由 (Smart Routing)......等功能,在各個不同的面向都能最大化資源調度效率。因此,軟體層變成NVIDIA GPU在發展到更大系統層級後,提昇效率的重要部分。
▌Conclusion - 從單晶片到系統層級競爭
整體來說,我們會發現,AI晶片的發展,已經從單純的GPU vs. ASIC的這種晶片層級的比較競爭,提升到系統層面的架構發展和競爭。
因此,關於未來晶片的發展,我們需要從系統層級來看這件事情。而這不再只是單一晶片的事,而是多顆特化晶片,互相配合,再加上軟體層優化資源調動。
如果仔細觀察,我們會注意到NVIDIA非常早就從系統的層次布局整個架構,這個也是NVIDIA非常擅長的方式。當AMD專注從先進封裝技術發展堆疊算力時,NVIDIA已經從更高層次的架構創新出發。
快速拉開差距後,我們會發現,半導體晶片的算力發展,從來都不只有電晶體和封裝層面的技術發展,架構的創新和運算資源配置的優化會是未來的重大趨勢 (也就是系統特化的趨勢)。
現在的半導體晶片發展,不只是單純增加電晶體的數量,而是電晶體數量和高效運算資源調配架構並重,並極度的根據AI演算法優化。
因此,我們可以預期,未來的AI晶片大戰,將會從單純的GPU vs. ASIC晶片層級競爭,變成多晶片的AI客製化晶片艦隊大戰,我們從Google、Amazon甚至AMD目前的晶片開發產品部屬,就可以嗅到這樣的趨勢了。
08/01/2026
「NVIDIA如何壓制其他競爭者:NVIDIA的多晶片策略」
如果你有關注NVIDIA發展路徑的話,你可能會發現,早期當大部分的IC設計公司都還在關注單一晶片技術,從先進製程慢慢延伸到先進封裝時,NVIDIA已經開始從更高維度的系統去佈局他們的策略了。
這幾年半導體產業有一個很大的典範轉移,電晶體密度已經不再是唯一驅動算力成長的重點,「垂直整合」和「系統瓶頸」才是算力成長的關鍵。
而NVIDIA觀察到了這點,2020年前後,當大家才剛開始討論先進封裝時,NVIDIA已經併購了Mellanox,開啟了他們的多晶片策略。
從那時候開始,他們的佈局聚焦在解決系統的瓶頸,比如說引入Grace CPU和大力發展NVLink,而不是只解決單一晶片的性能問題。在此同時 (2020年),AMD還在跟Intel奮戰CPU市場,而Intel正在解決被超越的先進製程問題。
如果我們觀察NVIDIA這幾年的發展,我們不得佩服NVIDIA的先見之明。
因此,這一篇我們想要延續NVIDIA CES 2026的討論,來看一下半導體產業的典範轉移以及NVIDIA的多晶片佈局。
▌I. 大家忽略了什麼?- 專注比較晶片,忽略了系統典範轉移 (半導體產業從晶片到系統的極致轉型)
首先,我們從半導體產業的典範轉移開始看起,這幾年半導體產業經歷了從聚焦單一晶片算力到整體系統算力的極致轉型。
當大家還在比較誰的先進封裝技術比較好,ASIC和GPU誰性價比比較高時,Jensen Huang早就已經在佈局一個更高的維度,也就是整個系統的算力。
5年前,大家還在以摩爾定律為中心來看半導體產業,聚焦在電晶體密度提昇所帶來的算力提昇時,NVIDIA正在
- 併購Mellanox,用其BlueField DPU來offload CPU的運算負載
- 打造NVLink,消除晶片和晶片之間傳輸的瓶頸
- 打造Grace CPU,加速整體系統的Workload
這些都不是以單晶片的觀點來看半導體的發展,而是以系統的角度來最大化系統效能。從那時候開始,其實AI的運算、半導體產業已經開始從單一晶片到整個系統的極致轉型了。
而這樣轉型的核心,正是從NVIDIA的多晶片策略開始發起。
▌II. NVIDIA多晶片策略拆解
從這邊我們可以看得出來,NVIDIA的觀點其實跟傳統半導體發展的觀點有很大的不同。
傳統半導體的觀點,是整體系統的算力增長,來自電晶體密度的提升。因此,傳統的觀點是,算力的提升來自於每一代先進製程的發展。
但是,NVIDIA的觀點和Approach是,雖然先進製程還是很重要,但是更多算力的提升其實是來自於解決各種系統上的瓶頸。因為,雖然電晶體密度每一代可以有50%-70%的提升,但是要達到10倍的系統性能提昇,還是有很大一段差距。
剩下的9倍以上的算力提昇,其實是來自於解決掉許多系統性能的瓶頸,或是整體性的Extreme Co-Design來提升。
所以,NVIDIA在系統層級上的技術,做了很多的努力,而這就造就了多晶片策略的誕生。
前面我們已經提過了Grace CPU、BlueField DPU和NVLink的發展,而近期我們又可以頻頻看到NVIDIA大動作推出新的晶片產品,如Rubin CPX、CPO版本的Spectrum-X,每一顆晶片都有其特化的功能以及解決的系統瓶頸,再加上Rubin GPU,就組成了NVIDIA獨特的多晶片策略,市面上沒有任何競爭對手在系統上有這樣的成熟度。
下面就拆解一下NVIDIA每顆晶片的用途,還有其對系統層面的影響。
▌III. NVIDIA路徑選擇:晶片保持彈性,從系統架構層面創新
這邊最關鍵的,其實是NVIDIA在技術路徑上的選擇。NVIDIA選擇了在GPU設計上面保持彈性,但是在系統層級上,增加了很多特化的晶片來讓整個系統兼顧彈性與效率。
相比於其他ASIC晶片系統選擇了在晶片層級上去做特化,NVIDIA選擇了直接把需要特化的部份,拉出來變成幾顆特化的晶片來處理,是一個更高維度的競爭策略。
下面就重點解釋幾個重要晶片的特性,讓我們可以更了解NVIDIA的系統性創新。(NVIDIA在CES 2026提出6大晶片,我們拉出幾個重要的晶片出來討論)
1. Rubin GPU + HBM 4:
Rubin GPU是下一代系統最重要的核心,其中包含了新一代的Transformer Engine和NVFP4的數據格式,可以在大幅增加效率的同時降低記憶體的使用。
不過,GPU的另一個重點其實是HBM,在運算大模型上,Transformer非常吃記憶體的容量和頻寬,尤其是頻寬會大幅影響GPU產出Token的速度。因此,HBM的性能極為重要。而NVIDIA為全球第一個使用HBM 4的公司,且有全世界最大的HBM供貨戰略儲備,為NVIDIA的市場地位取得許多優勢。
2. NVLink 6 Switch:
NVLink的最主要重點,就是解決晶片和晶片間傳輸的問題。NVLink Switch讓整個GPU Rack (如NVL72 or NVL144) 內所有的GPU都可以被視為一顆超大的GPU,共用運算資源,系統性能不會卡在晶片交換資料上,這是使用PCIe互連系統的一大痛點。
3. Disaggregate Serving - Rubin CPX
再來,系統性特化的另一大重點,是2026年底會上市的Rubin CPX晶片,這象徵了AI的應用朝更長文輸出或輸入 (Long Context Window,如更大的軟體撰寫) 後,原本的GPU Rack會分化出另一個提供更大量記憶體的晶片Rubin CPX。
Rubin CPX額外搭載GDDR 7,象徵著整個AI系統對記憶體超強的需求,以致於延伸出更多的記憶體種類搭配。另一個觀察的重點是,Rubin CPX可以以一個額外的機櫃存在,象徵現在GPU的系統已經不再只是單純的一種GPU機櫃,而是開始延伸出特化的機櫃種類。
4. BlueField Inference Context Memory Platform
最後,在2026年的CES上,NVIDIA宣布了一個新的BlueField Context Memory Platform,用BlueField 4晶片搭配Spectrum-X Ethernet還有大量的SSD Storage,讓AI在回答問題時,可以不僅從HBM調用KV Cache,也可以從local SSD調用所謂的「溫資料」(Warm KV Cache) 和從Network SSD上調取「冷資料」(Cold KV Cache) ,大幅的增加Context Memory (KV Cache) 可以存取的量。
詳細的Memory Hierarchy可以參考我們附圖的”KV Cache Memory Hierarchy”。
▌Conclusion: 未來的AI晶片戰
觀察了NVIDIA的Roadmap發展後,我們會發現,現在的晶片競爭已經不再是單一顆GPU或ASIC的競爭,如果我們比較NVIDIA、AMD、Google……等公司的Roadmap,會發現,未來的晶片戰會轉往多晶片的系統性競爭。
而這象徵的是整個半導體產業這幾年產生了很大的轉變,已經從摩爾定律為主的單顆晶片發展,極致轉型成多晶片系統發展。因此,Jensen Huang近期一直提到的半導體系統多晶片的”Extreme Co-Design”,會是半導體產業發展的主要重點。
而這不得不佩服NVIDIA Jensen Huang的提前戰略佈局,幾乎所有的策略,都是以十年為單位的策略佈局。
下一輪的AI晶片競賽已經開始,而這不再只是晶片層級的競爭,而是包含AI模型、多晶片AI系統競爭,以及晶片硬體技術發展的競爭。你可以發現,不僅是NVIDIA,Google、AMD、Amazon…..等巨頭也都在朝這這個方向佈局。
如果你想要看懂多晶片AI系統的發展、AI模型的發展是怎麼驅動下一代晶片系統的設計,還有未來可能的方向的話,我們最近整理了一個滿完整包含趨勢和AI晶片底層技術的發展的分析。
主要會講解以下內容:
1. AI大模型的基本原理介紹
2. AI模型如何驅動下一代AI晶片設計的底層邏輯
3. AI晶片系統發展的硬體瓶頸和技術趨勢
4. TPU vs. GPU的技術比較
5. Extreme Co-Design / STCO (System Technology Co-Optimization)
6. 未來的新AI應用 (下一代模型、機器人......) 和其對下一代AI晶片設計的需求分析
如果你想要更深入的了解下一代AI晶片系統發展趨勢的話,歡迎參加!
報名資訊如下:
▌Workshop S1:「2026 - AI晶片系統的最新發展」報名資訊:
- 講者:Redefine Innovation 顧問服務負責人 Vince Liu(前ASML荷蘭總部產品經理)
- 形式:線上課程(報名後一週內會收到課程,包含講義和兩週回放複習影片,講義可永久保留)
- 最後報名時間:2026/1/11 17:00
- 價格:NT$3500 / 人
- 報名連結:
請見底下留言處
25/12/2025
搞不懂的事情第二彈 - 為什麼曝光機領域神級人物的林本堅院士,演講EUV / DUV影片的流量 (看的人) 竟然會遠少於講中國EUV的網紅?
要知道這領域的關鍵重點的話,看林院士的演講絕對是遠遠大於宣傳影片講彎道超車 or 彎道翻車吧?!
投資ASML的人寧願看一堆亂猜的內容,也不願意靜下心來看含金量超高的影片?
然後臉書又會說,放連結觸擊率會下降。就偏要放,給金子還看不出來的人也太傻了吧?難道不看這個要被新創Lithography新創 "Substrate" 什麼都講不清楚的宣傳故事騙?這世界上怎麼可能天天有改變世界的突破,神祕的事情99.9%以上是詐騙......
林本堅院士演講影片:
https://www.youtube.com/watch?v=kfzOoQRG3XY
23/12/2025
「TPU Sparse Core - 觀察Google的晶片設計哲學」
在Google TPU v4以後,我們會發現,裡面出現了一個新的設計:Sparse Core。
Sparse Core加快了整體系統的效率,也彌補了以矩陣運算為主的TPU不足的地方。
其實從TPU整體的設計,我們就可以看出其相對於GPU來說特別的方向。
從Sparse Core的設計,我們可以看出Google著重的面向和其策略方向。
拿來和GPU比較,就可以更清楚的理解TPU和GPU在策略上的差異。
所以這一篇,就讓我們從Sparse Core出發,來聊一下我們觀察到的一些新趨勢,最後再比較TPU和GPU的策略差異。
▌1. TPU的演進
其實從TPU的發展,我們就可以看得出來Google的哲學就是想要專門為他們的需求打造晶片,而拿掉所有不相關的功能。
因此,第一代的TPU就是非常純粹的從矩陣運算出發,而少了非常多在一般晶片裡會有的東西。
但是,後來可以觀察到,這些專門的運算其實還是需要有一些彈性或是非矩陣的運算,因此,又會看到TPU將一些比較一般運算會用到的數字和向量運算加回去。
而Google搜尋引擎中最重要的推薦系統,其實不只需要大量的矩陣運算,也會需要大量的資料查找的功能。
這些資料查找的功能原本都是用TPU內較非特化的向量運算和CPU共同合作來完成,但這對Google來說效率太低了,他們需要更有效率的方式來專門處理這樣的運算。
▌2. Google Recommendation System (推薦系統)
所以在這邊,我們需要先簡單介紹一下Google推薦系統的運算,才能討論需要設計怎麼樣的晶片來處理這樣的運算。
一般來說,Google的推薦系統會有三個步驟:
i. Retrieval
ii. Ranking
Iii Re-ranking
Re-ranking需要的算力和記憶體都相對少,因為是最後秀給使用者看之前的重排過程,不會耗用掉大量資源。
但是Retrieval和Ranking都會用到Embedding的查找運算,而Embedding的運算屬於查表運算,非常不適合使用TPU的Tensor Core進行密集矩陣運算。
而雖然在前幾代的TPU,並沒有設計特別的硬體去加速這部份的運算,但是Google知道需要一種特殊的硬體來做這種全球等級Search Engine的加速運算。
▌3. Sparse Core的誕生
因此,Google在TPU v4中推出了特別設計的Sparse Core,為了解決Embedding運算的痛點。
因為過去的Tensor Core主要的功能,是做密集矩陣運算。矩陣運算是大型語言模型 (LLM) 和 卷積神經網路 (CNN) 中的核心運算,但是推薦系統中的Embedding運算是屬於稀疏運算。
推薦系統的模型通常包含巨大的嵌入表 (Embedding Tables)。例如,要把幾十億個用戶 ID 對應到幾十億個影片 ID。這些表格大到無法放入晶片內的快取 (SRAM),必須放在外部記憶體 (HBM) 中。
這種「隨機記憶體存取」(Random Memory Access) 對傳統的GPU或TPU的MXU來說非常低效,因為它們喜歡連續、整齊的數據。以前這些工作通常由CPU負責,但CPU頻寬太低,跟不上TPU的運算速度。
所以,Sparse Core被設計成位於HBM (高頻寬記憶體) 和主要運算單元 (TensorCore/MXU) 之間的中介橋樑。
它的核心任務包括:
A. Scatter / Gather 操作:
- Gather (收集): 根據索引 (Index),從 HBM 中分散的記憶體位置抓取數據 (Embedding Vectors)。
- Scatter (分散): 訓練過程中,將更新後的梯度 (Gradients) 寫回 HBM 中分散的位置。
B. 近記憶體運算 (Near-Memory Compute): Sparse Core 內部擁有簡單的運算單元 (ALU)。當它從 HBM 抓取多個向量後,可以在本地直接進行加總 (Reduction) 或簡單處理,然後只把最終結果傳給 TensorCore。這大幅減少了晶片內部的資料傳輸量。
C. 直接記憶體存取 (DMA):它可以獨立於主運算核心之外,自主管理記憶體存取,讓 TensorCore 可以專心做矩陣運算,不必等待數據讀取。
這樣的好處就是,Sparse Core可以釋放CPU負載、幫助訓練超大 (Trillion參數) 的推薦模型,而且比前幾代的TPU高出了好幾倍性能與能耗效率。
▌4. Google’s Dual Core Strategy: Tensor Core & Sparse Core
因此,我們會發現,TPU的特化晶片設計哲學,一開始雖然是以密集矩陣運算為主,但是這不代表TPU只能在密集矩陣運算上高效,在其他需要高速運算效率的非矩陣運算上,如果具有特殊形式且使用量非常大,Google可以把這類型的運算沈澱到硬體上。
我們從TPU上兩大主要核心Tensor Core和Sparse Core的發展上,就可以看出這樣的趨勢。
▌Conclusion - TPU vs. GPU:戰場選擇與策略上的差異
因此,雖然TPU相對於GPU來說在某些情境下缺乏彈性,但是,從Sparse Core的例子上來看,他可以將原本需要使用較為彈性的運算單元如CPU上面的運算,加速幾十倍 (TPU v4 Sparse Core vs. CPU),因此,在推薦系統上的效率和能耗上會比GPU來得還要更好。
對比GPU的策略,GPU則是用更好的硬體規格和軟體來彌補這樣的效能差異,所以,雖然性能上GPU在跑這些運算的時候可能不會輸TPU,但是在能耗效能上,TPU就明顯的佔有優勢。
所以,從GPU和TPU的發展路徑上,我們可以看出兩種不同的哲學和發展路徑,雖然目的都是為了能夠做大型的AI模型運算,GPU更偏向幫自家較有彈性的硬體找到更多的使用場景,並用軟體層 (CUDA) 加速。而TPU更偏向從Google自家已經服務全球的應用出發,沈澱出這些大型應用中最重要的一些運算,變成高效的硬體放進TPU中。
Click here to claim your Sponsored Listing.
Category
Contact the business
Website
Address
復興北路367號8樓
Taipei
105
Opening Hours
| Monday | 09:00 - 18:00 |
| Tuesday | 09:00 - 18:00 |
| Wednesday | 09:00 - 18:00 |
| Thursday | 09:00 - 18:00 |
| Friday | 09:00 - 18:00 |