Token價格跌了99%,這件事過去兩年已成為AI產業大趨勢。但有一個數字卻大幅上升:「推論(inference)」算力需求。
所謂推論,是模型訓練完成後每次被呼叫服務客戶產出回應的運算。超大規模雲端業者與科技公司AI基礎建設資本支出已達數千億美元等級,其中推論佔企業AI預算的比重已達85%,仍在攀升。
Stanford AI Index 2025記錄,達到GPT-3.5等級效能的成本2年內下降280倍(透過各種TCO系統優化策略),但全球GPU出貨量與資料中心功率密度要求卻同步上升。
2022~2023年,AI基礎建設的資本配置幾乎全集中在訓練,整個產業的討論聚焦於訓練算力的持續擴張。但2025年之後,這個比例已大幅翻轉—在許多雲端平台的實際負載中,推論已超過訓練;推論晶片市場的年銷售額,預計未來5至8年成長4至6倍。
推論算力的成長需求,由3個力量相乘決定,不是累加:(1)token能力持續提升、價格快速下降,興起大量、多樣的知識領域新穎應用情境;(2)推理(Reasoning)模型讓每次查詢的算力消耗乘以10至50倍;以及(3)第三個力量,也是最常被忽略的一個。
第三個力量是agent的呼叫結構。
關鍵不在agent能做什麼,而在怎麼做。單一agent完成一項任務(例如AI coding),背後並非一次LLM呼叫,而是一整個循環:規劃、工具呼叫、觀察結果、反思、修正,再執行,通常產生10至20次LLM呼叫;多agent系統並行運作,呼叫量再乘一個數量級。除了前文提過的AI coding,Salesforce Agentforce在2025年第4季的年度經常性營收已達8億美元、年增169%;企業端agent部署不是未來式,是現在式,而且每個部署都在以乘數方式放大推論需求。
3個力量合在一起,構成一個對市場規模的估算架構:情境數量×每個情境的推理深度×每個agent任務的呼叫次數。三者相乘,不是相加。
需求乘數的另一面,是推論硬體本身的結構性改變。Google DeepMind研究人員Xiaoyu Ma與Turing Award得主David Patterson於2026年1月在IEEE發表論文"Challenges and Research Directions for Large Language Model Inference Hardware"指出,目前沒有一款現有主流GPU架構主要為訓練最佳化,業界仍在用訓練架構執行推論工作。推論的Decode階段(逐一吐出輸出token的過程)是memory-bound,不是compute-bound。然而過去十年,硬體發展的重心一直放在運算,而非記憶體:GPU的FLOPS成長80倍,記憶體頻寬只成長17倍,這個落差還在擴大;HBM系統成本持續上升。
論文因此提出4個研究方向——高頻寬Flash記憶體、近記憶體運算、3D記憶體邏輯堆疊、低延遲互連——尚未有廠商完整實現。
推論需求的放大,加上硬體規格尚未收斂,正在重塑晶片採購的邏輯。OpenAI 2024年在37億美元營收下虧損近50億美元,推論成本正是這個結構性落差的主要因素之一;大型CSP業者們的實際回應不是等GPU廠商更新架構,而是自行設計推論專用ASIC(TPU或NPU);推論負載佔比愈高,自建ASIC的TCO優勢就愈明顯。訓練叢集的採購邏輯是「跟上GPU最新世代」;推論叢集的採購邏輯正在轉變為「針對自己的模型特性與流量結構客製化」。這是兩套不同的供應鏈需求,會在不同位置開啟不同的機會。
Patterson論文勾勒的研究方向,直接對應到推論叢集TCO優化的4個維度:運算端以推論專用ASIC取代GPU;通訊端以低延遲互連取代訓練導向的高頻寬拓樸;儲存端從HBM走向高頻寬Flash與DRAM的混合記憶體階層;能源端把每個token的功耗列為系統設計的第一優先。4個維度都還在定義,意味著供應鏈格局尚未固化。
「推論經濟」的崛起,為GPU伺服器供應鏈日益固化、毛利空間收窄的台灣業者,開啟新的機會。推論ASIC的設計與製造、先進封裝、記憶體異質整合,恰好落在台灣IC設計生態系與晶圓代工、先進封裝能力的交叉點上。這四個維度的硬體規格,目前仍在被定義當中,也是探尋新機會的好時機。