推論經濟（Inference Economics）

徐宏民

2026-03-18

AI語音摘要

00:55

Token價格跌了99%，這件事過去兩年已成為AI產業大趨勢。但有一個數字卻大幅上升：「推論（inference）」算力需求。

所謂推論，是模型訓練完成後每次被呼叫服務客戶產出回應的運算。超大規模雲端業者與科技公司AI基礎建設資本支出已達數千億美元等級，其中推論佔企業AI預算的比重已達85%，仍在攀升。

Stanford AI Index 2025記錄，達到GPT-3.5等級效能的成本2年內下降280倍（透過各種TCO系統優化策略），但全球GPU出貨量與資料中心功率密度要求卻同步上升。

2022~2023年，AI基礎建設的資本配置幾乎全集中在訓練，整個產業的討論聚焦於訓練算力的持續擴張。但2025年之後，這個比例已大幅翻轉—在許多雲端平台的實際負載中，推論已超過訓練；推論晶片市場的年銷售額，預計未來5至8年成長4至6倍。

推論算力的成長需求，由3個力量相乘決定，不是累加：（1）token能力持續提升、價格快速下降，興起大量、多樣的知識領域新穎應用情境；（2）推理（Reasoning）模型讓每次查詢的算力消耗乘以10至50倍；以及（3）第三個力量，也是最常被忽略的一個。

第三個力量是agent的呼叫結構。

關鍵不在agent能做什麼，而在怎麼做。單一agent完成一項任務（例如AI coding），背後並非一次LLM呼叫，而是一整個循環：規劃、工具呼叫、觀察結果、反思、修正，再執行，通常產生10至20次LLM呼叫；多agent系統並行運作，呼叫量再乘一個數量級。除了前文提過的AI coding，Salesforce Agentforce在2025年第４季的年度經常性營收已達8億美元、年增169%；企業端agent部署不是未來式，是現在式，而且每個部署都在以乘數方式放大推論需求。

3個力量合在一起，構成一個對市場規模的估算架構：情境數量×每個情境的推理深度×每個agent任務的呼叫次數。三者相乘，不是相加。

需求乘數的另一面，是推論硬體本身的結構性改變。Google DeepMind研究人員Xiaoyu Ma與Turing Award得主David Patterson於2026年1月在IEEE發表論文"Challenges and Research Directions for Large Language Model Inference Hardware"指出，目前沒有一款現有主流GPU架構主要為推論最佳化，業界仍在用訓練架構執行推論工作。推論的Decode階段（逐一吐出輸出token的過程）是memory-bound，不是compute-bound。然而過去十年，硬體發展的重心一直放在運算，而非記憶體：GPU的FLOPS成長80倍，記憶體頻寬只成長17倍，這個落差還在擴大；HBM系統成本持續上升。

論文因此提出4個研究方向——高頻寬Flash記憶體、近記憶體運算、3D記憶體邏輯堆疊、低延遲互連——尚未有廠商完整實現。

推論需求的放大，加上硬體規格尚未收斂，正在重塑晶片採購的邏輯。OpenAI 2024年在37億美元營收下虧損近50億美元，推論成本正是這個結構性落差的主要因素之一；大型CSP業者們的實際回應不是等GPU廠商更新架構，而是自行設計推論專用ASIC（TPU或NPU）；推論負載佔比愈高，自建ASIC的TCO優勢就愈明顯。訓練叢集的採購邏輯是「跟上GPU最新世代」；推論叢集的採購邏輯正在轉變為「針對自己的模型特性與流量結構客製化」。這是兩套不同的供應鏈需求，會在不同位置開啟不同的機會。

Patterson論文勾勒的研究方向，直接對應到推論叢集TCO優化的4個維度：運算端以推論專用ASIC取代GPU；通訊端以低延遲互連取代訓練導向的高頻寬拓樸；儲存端從HBM走向高頻寬Flash與DRAM的混合記憶體階層；能源端把每個token的功耗列為系統設計的第一優先。4個維度都還在定義，意味著供應鏈格局尚未固化。

「推論經濟」的崛起，為GPU伺服器供應鏈日益固化、毛利空間收窄的台灣業者，開啟新的機會。推論ASIC的設計與製造、先進封裝、記憶體異質整合，恰好落在台灣IC設計生態系與晶圓代工、先進封裝能力的交叉點上。這四個維度的硬體規格，目前仍在被定義當中，也是探尋新機會的好時機。

推論經濟（Inference Economics）

徐宏民國立台灣大學資訊工程學系教授

作者其他文章

推薦活動

邦博士快訊

Auden TechDay 2026 「星地融合 ‧ 智聯萬物 ‧ 共創無限未來」

推論經濟（Inference Economics）

徐宏民 國立台灣大學資訊工程學系教授

作者其他文章

推薦活動

邦博士快訊

Auden TechDay 2026 「星地融合 ‧ 智聯萬物 ‧ 共創無限未來」

徐宏民國立台灣大學資訊工程學系教授