徐宏民
國立台灣大學資訊工程學系教授
現任國立台灣大學資訊工程學系教授,曾任富智捷(MobileDrive)技術長暨副總經理,推動ADAS及智慧座艙系統產品進入全球車用市場。紐約哥倫比亞大學電機博士,專精於機器學習、電腦視覺、自駕車、機器人等領域。為訊連科技研發團隊創始成員,慧景科技(thingnario)共同創辦人,NVIDIA AI Lab計畫主持人;曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會,擔任多家科技公司AI策略顧問。
智慧機器人如何學動作技能?
煎蛋翻面不到2秒,但每一步都是連續的感測判斷與力道決策;塗果醬、擺餐盤同樣如此。這類「低階技能」(atomic skill)的難點不在於執行固定軌跡,而在於複雜環境正確執行。前一篇討論的VLA架構解決的是(高階)任務規劃,本文要回答的是更深入的問題:機器人怎麼把每一個(低階)基本動作做好?傳統工廠機器人的動作,是不同性質的事。抓取、插件、焊接、鎖螺絲,關鍵字是「重複性」與「受控條件」:同一款零件在同一個位置,同樣的夾爪、同樣的軌跡、同樣的速度,不需要處理複雜變動環境。這類動作可以用固定程式精確執行,但容錯空間極低,環境稍有偏差就失效。過去教導機器手臂的主流方式,叫「示教法」(teach-and-playback):操作員透過示教器(teach pendant)將手臂逐點移至目標位置、記錄各路徑點的關節角度,再讓機器人依序重放。環境固定的場景至今仍適用,但示教法本身沒有感測(甚至推理)能力——它只知道「下一個路徑點在哪裡」,換了零件或場景就要重新示教,遇到變動情境也無從判斷。從「執行固定軌跡」到「應對多變場景」,需要從根本上換一種動作學習邏輯。目前學界與業界收斂出2條主軸:強化學習(Reinforcement Learning;RL)與模仿學習(Imitation Learning;IL)。強化學習(RL)的基本邏輯是「從嘗試中學習」。機器人不看示範,自行在環境中試探;每次行動之後,根據結果的好壞(「獎勵信號」)調整策略,慢慢摸索出完成任務的方法。理論上,只要定義好成功標準(比如「蛋翻面後完整不破」),機器人甚至可能摸索出人類沒想到的解法。但是,RL在實體機器人上有一個根本缺陷:它需要大量的試誤次數才能收斂,而每一次試誤在真實機器人上都消耗時間,且有損壞設備的風險。在模擬器裡可以讓機器人不眠不休地失敗幾百萬次;搬到真實機器人上,同樣的學習量可能需要幾年。這就是為什麼 RL 在機器人領域目前主要的定位,是在模擬環境中預訓練,而非從頭在實體上學習。模仿學習(IL)走的是另一條路:讓機器人觀察人類示範,從中學習,而非從零試誤。在理解模仿學習之前,有一個基礎概念值得先釐清:「策略」(policy)。策略是機器人的決策核心:給定當下的感測狀態(攝影機畫面、關節角度、觸覺數值),輸出下一步應該執行的動作。訓練機器人動作的本質,就是在訓練一個好的策略。最直覺的模仿學習方式叫行為複製(behavioral cloning):把人類示範的「狀態與對應動作」當作訓練資料,用監督式學習訓練策略。簡單,但有一個根本弱點:示範都是「做對了」的過程,機器人從未學過「偏掉了該怎麼辦」。執行時只要出現細微偏差,後續每一步的判斷都可能進一步出錯,誤差層層累積。任務愈長、步驟越多,這個問題愈致命。目前解決這個問題最具代表性的方向是「擴散策略」(Diffusion Policy)。它的技術來自於這幾年大家熟悉的(影像)生成式 AI,背後用的就是擴散模型:從隨機雜訊出發,經過多輪降噪處理,逐漸收斂出高品質影像。研究人員把同樣的架構搬進機器人控制,把輸出從畫素值換成連續的動作序列。傳統行為複製傾向輸出「平均解」,遇到同一任務有多種合理做法時往往哪邊都不對。擴散策略換了角度:不輸出單一動作,而是學習「給定當下狀態,合理動作的機率分布」,再從這個分布中採樣。降噪過程同時生成接下來若干步的完整動作序列,讓機器人不必每一步重新決策,動作因此更穩定、流暢。在相對少量的示範資料條件下,Diffusion Policy就能讓機器手臂完成需要精細力道控制的操作任務,是目前資料效率與效果兼顧最好的方法之一。更新的策略學習方向是「流匹配」(Flow Matching)。概念更直觀:與其從雜訊出發反覆降噪,不如直接學習從雜訊到目標動作的最短路徑,推論步驟因此大幅減少,速度更快、訓練也更穩定。目前已有機器人基礎模型採用此架構,在學界與業界逐漸受到重視。2條路線各有天花板。RL的試誤成本在實體機器人上難以接受,目前主要在模擬環境中預訓練,而非直接在實體上學習。IL的效果上限受制於示範資料的品質,示範者沒做過的,機器人就不會。實務上兩者通常搭配使用:模仿學習建立初始策略,強化學習在模擬環境中補足長尾情境。但不論哪條路,核心限制都指向同一件事:訓練資料。這也是太平洋兩岸的領先機器人研究團隊們已有的共識。示範資料從哪來、如何在可接受的成本下大規模取得,已經成為這場競賽真正的核心問題——這也是下一篇要探討的主題。
2026-04-15
VLA(Vision-Language-Action)機器人的新智慧引擎
大型語言模型(LLM)問答能力超強,讓人自然產生一個直覺:把LLM接上機器人,使用語言下指令,機器人是不是就有智慧行動力?直覺沒錯,但中間有幾個結構性的缺口,填補這些缺口的解法,就是目前崛起的機器人AI新引擎:VLA(Vision-Language-Action)模型。LLM面對機器人控制有2道缺口。第一,輸出格式不對:語言模型產生的是文字,不是機器手臂可以執行的動作指令。Google 2022年的SayCan研究把這個問題稱為grounding gap:一個模型可以生成「拿起桌上的水瓶,放到椅子旁邊」這樣的規劃,但這串文字如何轉換成3D空間的關節運動向量?語言敘事與實際執行之間,需要一個明確的橋接機制。第二,LLM的動作理解能力本身有結構性的弱點。史丹佛大學(Stanford)團隊在NeurIPS 2024的研究中把機器人決策能力拆成4個分項分別評測,發現LLM在「連續動作規劃」這項表現最弱——而這正好是機器人控制最不能缺少的能力。這不是prompt寫得不好的問題,而是語言模型在訓練目標上本來就不是為了預測實體世界的狀態變化而設計的。VLA的架構設計,就是為了跨越這兩道缺口。Google DeepMind 2023年發表的RT-2,是目前被引用最多的VLA系統之一。它的思路是:把視覺語言大模型(VLM)作為感知與理解的主幹,再接上一個action head:專門負責把模型的決策輸出轉換成連續的動作向量。這個架構讓系統能夠同時處理視覺畫面與語言指令,輸出的不是文字,而是實際的關節角度與末端執行器的移動指令。更重要的是,VLM在網路規模的視覺與語言資料上預訓練所獲得的泛化能力(常識),在一定程度上能遷移到機器人操作的新場景上,這是過去單一任務單一模型的架構做不到的(多工能力)。開源生態也已跟上。openVLA展示同一個模型框架可以控制多種不同機械手臂;Physical Intelligence的π₀則用超過1萬小時的跨平台遙控示範資料預訓練,可以讓新任務的微調降到1至20小時。大語言模型「泛化」的概念開始有了工程上的實證。然而,把一個大型VLM直接接上action head、整合成單一模型的做法,有一個結構性的矛盾:VLM跑得慢(加上推理工作速度會更慢),精細控制需要跑得快。兩者要處理的問題性質根本不同、運作速度也不在同一個層次。知道怎麼做,和有能力把它做好,是兩件性質不同的事。大腦可以清楚規劃「拿起零件、對準位置、輕放入槽」,但每個步驟的實際執行,依靠的是另一套機制——精準的肌肉控制與即時的力道感知。機器人系統面對同樣的分工問題,這推動學界與業界共同往分層架構的方向走:把「知道怎麼做」與「有技能去完成」拆成兩個系統。System 2(高階)是VLM,負責語意層次的理解與任務規劃;System 1(低階)是輕量化的動作生成模型,負責把規劃轉換成連續、精確的關節動作,兩者運作頻率完全不同。NVIDIA於2024年發布的GR00T N1是目前最具代表性的公開實作——2個模組在模擬平台上聯合訓練,讓System 1能以120Hz的頻率控制機器人,也就是每秒更新120次動作,這是確保精細操作穩定的基本要求。但即便架構方向漸清,3個瓶頸依然尚待突破。資料是最根本的限制。語言模型的訓練資料來自網路,規模以兆計;機器人的示範資料需要人工遙控示範逐筆收集,目前最大規模的資料集也只有幾萬小時等級,差距懸殊。模擬器能協助,但sim-to-real gap持續存在——模擬器在接觸力、材質摩擦上的真實度仍有落差,在模擬環境訓練出的策略,移到真實場景常出現非預期失誤。此外,真實場域中各種難以預料的邊緣情境也是挑戰之一。靈巧操作(dexterous manipulation)不只是模型問題。毫米級精度的組裝、軟性材料的抓取,需要即時觸覺回饋,而觸覺感測器的成本與可靠度仍是工程上未解的題目。這個缺口靠擴大資料規模無法完全解決,感測器與機械結構的進化同樣必要。長時序任務(long-horizon planning)則是VLA目前最難迴避的限制。各樣任務往往需要多個步驟依序完成,每個步驟的執行結果都影響下一步判斷,誤差一旦累積,之後很難修正。我們近期的研究也發現,現有模型在規劃時往往專注在指令執行,卻未評估目標物件在當下是否可被操作(比如微波爐髒了)——環境一旦出現未預期的狀態變化,整個任務就在執行中途失效。分層架構讓System 2承擔規劃責任,方向正確;但VLM的長時序規劃能力能否支撐真實情境任務,目前還沒找到系統性的方案。VLA確立語言、視覺、動作整合的架構方向,分層設計進一步回答「如何同時跑得快又想得深」這個問題。靈巧操作、長時序規劃、訓練資料這三道缺口尚待突破,但過去2年的技術演進速度已經說明,這些問題被解決只是時間問題。真正值得追問的下一個問題是:VLA讓機器人有高階思考能力之後,機器人怎麼把每一個基本動作學好?這才是整個系統能否真正部署的關鍵基礎。
2026-04-14
機器人的ChatGPT時刻?
大型語言模型在近年展現出3個令人驚訝的能力:泛化(generalization),在從未見過的問題上給出合理答案;多任務(multitasking),同一個模型寫程式、翻譯、分析財報、判讀法律文件;推理(reasoning),把複雜問題拆解成步驟,逐一推導出解答。正是這三個能力,讓大型語言模型在數位世界掀起典範轉移。下一個問題,是這些能力能否走進實體世界—不只在螢幕上思考,而是在真實空間中感知、判斷、行動。這正是「具身智能」(EmbodiedAI)試圖回答的問題:讓模型不只是推理引擎,而是成為真實環境中的行動者。需求比想像中更迫切。談機器人,往往讓人聯想到科幻場景或工廠自動化。但推動這一波發展的力量,其實更接近人口結構的現實。台灣65歲以上人口佔比已超過17%,日本早已超過29%,德國超過22%;製造業、物流業、長照產業的缺工問題,在多數已開發國家不是短期現象,而是長達數十年的結構性挑戰。另一個驅動力是安全:高溫、高壓、有毒化學品、重複性導致的職業傷害—把人從這些場景中移出,本身就有足夠的商業理由,不需要等到機器人的成本降到與人力相當。這一波機器人討論之所以與過去不同,有一個常被忽略的前提:硬體已經準備好了。感測器(攝影機、LiDAR、觸覺感測器)的成本在過去十年大幅下降,馬達與減速機的精度持續提升,機械結構的製造良率也趨於成熟。部分得益於電動車產業的規模效應—馬達、減速機、感測器的供應鏈隨EV量產大幅成熟,機器人硬體直接受惠。機器人整體硬體成本在2023至2024年間年降幅約達4成,下降曲線清晰可見,這與早期工業電腦、早期智慧型手機的軌跡高度相似。硬體不再是關鍵瓶頸;問題移到了「大腦」、「眼睛」與「四肢」—機器人要如何真正看懂環境、做出判斷、精準完成任務?最直覺的答案是把雲端LLM接進機器人。但物理世界的時間尺度與數位世界截然不同:人類在鍵盤上等待一秒的回應是可接受的,機器人在伸手抓取物件時若延遲半秒,輕則任務失敗,重則碰撞損毀。雲端推論的網路延遲,在這個場景中是結構性的障礙,不是優化問題。自駕車產業已解決這個問題:感知與即時控制在車載邊緣運算上執行,高階路徑規劃與地圖更新則視需要呼叫雲端。今天的車載SoC已有足夠的算力支撐即時的視覺辨識與控制決策;機器人的邊緣硬體正在走同一條路。實體算力的門檻在過去幾年已大幅降低,讓「大腦在本地執行」從成本考量來看也愈來愈可行。技術上,這一波機器人能力的突破,核心在於VLA(Vision-Language-Action)模型架構的確立。VLA把三條原本獨立的訊號—視覺感知、語言指令理解、動作輸出—整合進同一個神經網路,讓大語言模型的推理能力得以遷移到機器人的動作決策上。過去的機器人控制是一任務一模型,抓取、搬運、組裝各有專屬系統,換了場景或換了物件就得重新訓練,缺乏彈性且成本高昂。VLA打破此一架構:操作者可以用自然語言描述任務,模型自主分解成動作序列並執行,即便是訓練時未見過的物件或場景,也有一定的應對能力。開源模型中,openVLA在同一個模型架構下跨平台操控多種機械手臂,展示通用操作策略的可行性;Physical Intelligence的π₀以超過1萬小時的跨平台遙控操作資料預訓練,針對新任務微調只需1至20小時。「一個模型跨場景泛化」這個問題,在過去一年內開始有了系統性的肯定答案。討論機器人時,往往侷限在機械手臂的操作能力上。但在真實工作場景中,「走到目標地點」與「對它做什麼」是同等重要、缺一不可的能力。這個組合在學術界稱為mobile manipulation——同時具備移動底盤與操作手臂的機器人平台,才能提供更多彈性與能力。想像一個倉儲場景:機器人能自主移動到正確的貨架,辨識目標物件的位置,伸手抓取,再移動到指定放置點。每一個步驟都需要精確的空間理解與動作協調。固定式機械手臂只能解決「操作」這半題;移動平台加上操作手臂,才是開啟更多可能性。要讓機器人在非受控環境中自主移動,導航(navigation)是必須解決的基礎能力,而導航的前提是建圖(mapping)—機器人必須先建立對所在空間的三維理解,才能規劃路徑、避開障礙。早期的機器人導航依賴預先設定的固定路線或QRcode地標,彈性極低。SLAM(Simultaneous Localization and Mapping,即時定位與地圖建構)技術讓機器人能在移動中同步建立環境地圖並定位自身,是目前主流的導航基礎。更近期的發展方向是語義地圖:不只知道「那裡有一個障礙物」,而是理解「那是一張椅子、那是工人、那是臨時堆放的棧板」,進而做出更合理的路徑判斷。這個方向與VLA的語言理解能力高度相輔:機器人不只在幾何空間中移動,而是在語義空間中理解環境。商業部署的訊號已出現。電動車廠的整車組裝線與零組件倉儲,是目前規模最大的機器人商業場域;歐美汽車廠與第三方物流業者也已在工廠與配送中心導入機器人,更有彈性、擬人化的執行零件搬運,商業場域的試驗已陸續展開。多家國際投資銀行的分析指向同一個方向:實體(Physical AI)所面對的,是整個製造業、物流業、服務業工作流程的重新配置,而非單一產品市場的擴張。誠實評估目前的限制,是避免高估或低估這波趨勢的必要功課。第一個問題是電池:目前機器人的續航約2至4小時,工廠班次通常8至12小時,補充電力需要停機,這在連續生產場景中是結構性缺口。電池能量密度的提升是化學問題,不是軟體問題,很難靠演算法突破。第二個問題是長尾場景的泛化:在受控環境下,機器人已能可靠完成標準任務,但工廠地板的一攤水、歪掉的零件箱、訓練集未見過的新產品,仍常造成失誤。工業場景的容錯空間遠低於實驗室,這個缺口目前尚未被系統性地填補。第三個問題是靈巧操作(dexterous manipulation):人類手部的精度與柔順性,在精密組裝、電子製程等場景中,仍遠超現有機械手的能力。從GPT-1到ChatGPT(2022年底,版本為GPT-3.5),語言模型花了四年半。機器人領域的「GPT-1時刻」大約發生在2022至2023年前後,VLA概念開始被系統性驗證;我們現在大約處於GPT-2.x時刻。這裡比的是能力發展的軌跡,而非模型規模。機器人還多了一道語言模型不需要面對的約束:再強的模型,最終仍須壓縮到本地端執行,受算力、功耗、延遲的硬性限制,這是VLA需要額外跨越的障礙,語言模型當年並不需要面對。不過,GPT-2.x並不意味著要等。從結構固定的重複性作業,到桌面操作的彈性取放,到自主移動與場域導航,再到多工協作、人機共同執行任務,乃至需要一定推理能力的複雜流程輔助;不同成熟度的技術,對應不同層次的導入機會,不必等到全面成熟才能創造價值。這個階段,對觀望者而言似乎還早,但對決定在哪個節點進場的人而言,這可能是領先班車的最後一個上車點了!
2026-04-09
推論經濟(Inference Economics)
Token價格跌了99%,這件事過去兩年已成為AI產業大趨勢。但有一個數字卻大幅上升:「推論(inference)」算力需求。所謂推論,是模型訓練完成後每次被呼叫服務客戶產出回應的運算。超大規模雲端業者與科技公司AI基礎建設資本支出已達數千億美元等級,其中推論佔企業AI預算的比重已達85%,仍在攀升。Stanford AI Index 2025記錄,達到GPT-3.5等級效能的成本2年內下降280倍(透過各種TCO系統優化策略),但全球GPU出貨量與資料中心功率密度要求卻同步上升。2022~2023年,AI基礎建設的資本配置幾乎全集中在訓練,整個產業的討論聚焦於訓練算力的持續擴張。但2025年之後,這個比例已大幅翻轉—在許多雲端平台的實際負載中,推論已超過訓練;推論晶片市場的年銷售額,預計未來5至8年成長4至6倍。推論算力的成長需求,由3個力量相乘決定,不是累加:(1)token能力持續提升、價格快速下降,興起大量、多樣的知識領域新穎應用情境;(2)推理(Reasoning)模型讓每次查詢的算力消耗乘以10至50倍;以及(3)第三個力量,也是最常被忽略的一個。第三個力量是agent的呼叫結構。關鍵不在agent能做什麼,而在怎麼做。單一agent完成一項任務(例如AI coding),背後並非一次LLM呼叫,而是一整個循環:規劃、工具呼叫、觀察結果、反思、修正,再執行,通常產生10至20次LLM呼叫;多agent系統並行運作,呼叫量再乘一個數量級。除了前文提過的AI coding,Salesforce Agentforce在2025年第4季的年度經常性營收已達8億美元、年增169%;企業端agent部署不是未來式,是現在式,而且每個部署都在以乘數方式放大推論需求。3個力量合在一起,構成一個對市場規模的估算架構:情境數量×每個情境的推理深度×每個agent任務的呼叫次數。三者相乘,不是相加。需求乘數的另一面,是推論硬體本身的結構性改變。Google DeepMind研究人員Xiaoyu Ma與Turing Award得主David Patterson於2026年1月在IEEE發表論文"Challenges and Research Directions for Large Language Model Inference Hardware"指出,目前沒有一款現有主流GPU架構主要為推論最佳化,業界仍在用訓練架構執行推論工作。推論的Decode階段(逐一吐出輸出token的過程)是memory-bound,不是compute-bound。然而過去十年,硬體發展的重心一直放在運算,而非記憶體:GPU的FLOPS成長80倍,記憶體頻寬只成長17倍,這個落差還在擴大;HBM系統成本持續上升。論文因此提出4個研究方向——高頻寬Flash記憶體、近記憶體運算、3D記憶體邏輯堆疊、低延遲互連——尚未有廠商完整實現。推論需求的放大,加上硬體規格尚未收斂,正在重塑晶片採購的邏輯。OpenAI 2024年在37億美元營收下虧損近50億美元,推論成本正是這個結構性落差的主要因素之一;大型CSP業者們的實際回應不是等GPU廠商更新架構,而是自行設計推論專用ASIC(TPU或NPU);推論負載佔比愈高,自建ASIC的TCO優勢就愈明顯。訓練叢集的採購邏輯是「跟上GPU最新世代」;推論叢集的採購邏輯正在轉變為「針對自己的模型特性與流量結構客製化」。這是兩套不同的供應鏈需求,會在不同位置開啟不同的機會。Patterson論文勾勒的研究方向,直接對應到推論叢集TCO優化的4個維度:運算端以推論專用ASIC取代GPU;通訊端以低延遲互連取代訓練導向的高頻寬拓樸;儲存端從HBM走向高頻寬Flash與DRAM的混合記憶體階層;能源端把每個token的功耗列為系統設計的第一優先。4個維度都還在定義,意味著供應鏈格局尚未固化。「推論經濟」的崛起,為GPU伺服器供應鏈日益固化、毛利空間收窄的台灣業者,開啟新的機會。推論ASIC的設計與製造、先進封裝、記憶體異質整合,恰好落在台灣IC設計生態系與晶圓代工、先進封裝能力的交叉點上。這四個維度的硬體規格,目前仍在被定義當中,也是探尋新機會的好時機。
2026-03-18
AI改寫的不只是效率,也是毛利結構
台灣資訊電子業對毛利壓力並不陌生。品牌客戶每年的成本下壓、產品週期縮短、規格要求提升,是這個產業幾十年來的基本節奏。過去應對的方式是製程優化、規模經濟、供應鏈整合。AI的出現不是這條路的延伸,而是改變競爭的計算方式。哈佛商學院教授Oberholzer-Gee的Value Stick框架把競爭優勢拆成一個簡單的公式:Value=WTP–Cost。WTP是顧客願付的價格上限,Cost是企業的成本下限。這個差值愈大,企業可以創造與捕獲的價值愈多。競爭力的本質,是持續拉大這個區間。台灣電子業其實對這個邏輯並不陌生,只是過去很少使用這個框架思考。PC ODM時代,台灣主要ODM業者用規模與供應鏈整合建立成本曲線(隨產量提升而持續下降的單位成本)優勢,後進者很難複製。晶圓代工龍頭的邏輯更直接:良率每提升一個百分點,每顆晶片的成本就跟著下來,客戶願意支付的溢價也跟著上去,Value Stick從兩端同時擴大。延伸報導專家講堂:企業AI導入的7個層次面板業則是反面案例:規模競爭把整個產業的成本壓到極限,但WTP沒有跟上(市場競爭使售價持續下壓,與成本同步探底),多數業者的毛利結構至今仍未完全恢復。這三個案例說明的是同一件事:成本曲線的優勢一旦建立,追趕的代價是非線性的。AI帶來的結構性影響,從成本與WTP兩端同時展開——而成本這端,是最先被感受到的。成本這端是最直接的。IC設計業已經感受到AI工具帶來的結構性變化。晶片驗證是開發流程中最耗時、最昂貴的環節,過去資深工程師需要花費大量時間撰寫測試程式、調整UVM test bench、反覆確認覆蓋率。EDA領先供應商推出的AI輔助設計優化工具,讓布局最佳化與測試程式生成的部分工作可以由AI完成。根據個別設計專案的回報,PPA(功耗、效能、面積)提升達雙位數百分比,設計與驗證的反覆修改時間顯著縮短。值得注意的是,部分台灣主要IC設計業者已不只是採用外部EDA工具,而是走向自行開發AI模型。出發點之一是設計資料的安全敏感性:核心IP不易外傳至雲端服務;另一方面也是對特定設計流程有更精準的優化需求。以晶片布局為例,已有業者透過強化學習(reinforcement earning)訓練自有模型,在SoC布局預測上實現從數週壓縮至數小時的設計週期,並公開發表於國際設計自動化頂尖會議。這個方向代表的是:AI能力的建立,開始從「購買工具」進化為「訓練自有模型與內化能力」,兩者的差距,未來將直接反映在研發效率與成本曲線上。EMS端同樣在移動。台灣主要EMS廠與全球GPU運算資源供應商合作建置AI工廠,已是目前最具體的公開方向:AI視覺檢測取代人工目視、生產排程AI優化壓縮換線時間、設備預測性維護降低非預期停機。邏輯一致:把過去依賴人力判斷的環節,逐步轉為AI輔助決策,讓單位產出成本隨規模擴張持續下降。國際管理顧問機構與商學院的研究顯示,系統性導入AI工具的企業,知識工作的完成速度提升約25%、品質提升約40%,對應到製造端是良率改善、重工減少、客訴降低。WTP這端的移動比較不明顯,但同樣在發生。當IC設計公司能夠更快完成驗證、更快回應客戶規格變更,品牌客戶在選擇設計夥伴時的考量開始改變:交期可靠性與應變速度,正在成為與價格同等重要的評估維度。對EMS廠而言,能夠提供AI輔助的生產可視性與品質預測,已是部分品牌客戶評估長期合作夥伴時的加分項。這不直接等於更高的售價,但等於更穩固的訂單與更長的合作週期,這本身就是Value Stick上端的移動。根據國際顧問機構2024年全球調查,AI導入程度最高的4分之1企業,創造的價值是最低4分之的3至4倍。這個差距在資訊電子業的具體呈現是:能夠用AI壓縮設計週期、提升良率、降低庫存的公司,Value=WTP–Cost的數值在擴大;沒有跟上的公司,面對同樣的品牌客戶成本下壓,空間只會愈來愈窄。PC ODM時代的成本曲線建立花了10年,晶圓代工的良率優勢積累更長時間。AI這條曲線的建立速度可能更快,因為工具的取得門檻低,擴散速度也快。但這反過來意味著,領先者的優勢也可能更快被追上;除非持續深化、把AI能力嵌進組織的核心流程,而不只是導入工具。真正的問題不是有沒有導入AI,而是AI驅動的效率累積是否已經反映在毛利結構上。至於AI帶來的效率,最終能否轉化為毛利結構的改變,答案會在接下來幾年的財報數字裡逐漸呈現。
2026-03-13
企業AI導入的7個層次
過去兩年,AI科技公司市值飆升,傳統本益比估值已不適用——市場溢價反映的是產業結構重組的預期,而非當期獲利。對尚未投入AI的企業而言,問題不在旁觀與否,而是從何切入,掌握這波AI紅利。有效使用AI工具的企業,完成同樣業務量所需的人力成本與工時正在縮減。這個落差當下還不明顯,但歷次技術變革的走向都說明同一件事:效率差距遲早會轉化為成本結構的差距,而成本結構一旦落後,追趕所需的時間往往遠超過補齊工具本身。企業使用AI的方式,其實有清楚的技術層次可循,從幾乎零門檻的日常工具,到需要深度IT能力的客製化部署。理解這幾個層次,才能找到合理的切入點。第一層:對話式AI的日常滲透。對多數企業而言,第一個接觸點是ChatGPT、Claude等對話式AI,用於文件草稿、市場分析摘要、會議紀錄整理、法規條文初步解讀。這個入口看起來瑣碎,影響卻不容低估。麥肯錫(McKinsey & Company)的研究顯示,使用生成式AI的知識工作者平均每天節省1.75小時;GitHub Copilot的實測數據則顯示工程師完成指定任務的速度提升約55%。這一層幾乎沒有理由不做,唯一需要決定的是是否系統性地推動,而不是讓每個員工各自摸索。第二層:嵌入工作流程的agent工具。這一層的關鍵不是AI「幫你建議」,而是給定目標,agent自主規劃步驟、執行完成,員工負責最後審核。Cursor、Claude Code等coding agent是目前最成熟的例子,工程師描述需求,agent自己寫程式、測試、除錯,開發週期大幅壓縮。但應用範疇已遠不止於此:給定主題,agent自主產出完整投影片;描述財務邏輯,agent建公式、設架構、生成圖表;會議錄音進來,整理決議、分配待辦、起草通知;業務開發上,agent研究目標對象、撰寫個人化開發信、追蹤回覆進度,銷售團隊專注在真正需要人判斷議題。當工作流程中有重複性高、步驟明確的工作,這一層值得認真評估。第三層:特定領域的第三方工具:HR的智慧排班、聘雇、與績效分析、客服的自動回覆與情緒偵測、行銷科技的廣告投放優化,以及電商平台如Amazon Seller Central的商品描述生成與動態定價建議。優點是導入快、ROI計算相對清晰,不需要IT深度介入;取捨是客製化空間有限,資料往往流向第三方。當特定職能有明確痛點、且不想花IT資源自建時,這是效益最快顯現的選擇。第四層:呼叫LLM API自建企業工具。當第三方工具無法滿足需求,直接呼叫OpenAI、Anthropic、Google等的API(使用token),由內部IT開發客製化工具是下一步。例如串接內部ERP資料的智慧查詢介面、自動摘要供應商合約重點條款的審閱流程、根據歷史訂單提供採購預測的決策輔助系統。先決條件是具備一定規模的IT開發能力。資料流向雲端是主要的風險考量;當這個風險可接受、且IT人力具備,這一層提供第三方工具難以達到的客製深度。第五層:自建模型環境,資料不出企業。當資料敏感度更高,或用量規模使雲端API的成本不再划算,企業可以建立自己的模型環境。最常見的做法是部署開源模型,搭配RAG架構:模型的內部知識負責推理與回答,公司的文件、手冊、歷史紀錄作為外部知識來源,在每次查詢時動態檢索補充,讓回答有所依據。這個架構不一定需要自建實體伺服器,企業可以在自己管控的雲端環境中部署開源模型,運算資源租自雲端、資料留在自己的空間,兼顧彈性與資料主權。對有特定領域需求的大型企業,可以進一步微調(fine-tune)開源模型,讓模型精準理解內部術語與文件格式,但門檻不低,需要足夠數量且標註完整的領域資料與相應的訓練資源,成本可觀,中小型企業直接使用RAG通常已足夠。至於從頭預訓練(pre-training),幾乎不在企業的選項之列——所需運算資源以億美元計,是大型AI實驗室才有條件投入的工作。同樣在這個層次,邊緣AI(Edge AI)提供另一條路線:推論直接在終端設備上執行,資料從不離開設備、延遲極低、斷網也能運作。更值得關注的是企業多年累積的內部資料——製程參數、研發紀錄、設備維護歷史、客戶交易記錄——過去是沉睡的資產,現在可以透過本地部署的AI模型加以活化。不只是查詢與檢索,而是跨資料集推理:找出製程與良率之間人工難以發現的關聯、連結多年研發紀錄中被遺忘的發現、系統化留存資深員工的隱性知識。這類資料幾乎不可能送上雲端,本地部署的投資也因此有更明確的商業理由。第六層:整合多模型的AI決策平台。在更高的複雜度層次,是像Palantir AIP這樣的平台:在企業既有的資料基礎設施之上,同時整合多個LLM來源,讓人員在不直接接觸原始資料的情況下進行AI輔助決策。美國軍方是其最具代表性的客戶,商業端也快速拓展至製造、醫療、金融等場景。導入門檻高、週期長,但提供其他方案難以達到的整合深度與決策可稽核性。這一層適合資料環境複雜、決策責任明確、且已在第四、第五層累積相當經驗的企業。成熟的企業AI策略往往是混合架構:日常文書使用雲端LLM,敏感的內部知識查詢走RAG加開源模型,特定職能採購第三方工具,產線即時判斷、內部know-how活化走邊緣AI。根據各任務的資料敏感度、使用頻率與精度要求做出合理配置,不必一刀切。這7個層次表面上是技術路線的選擇,背後是競爭力的重組。採用AI更徹底的企業,人均產出顯著提升、決策週期縮短。對供應鏈而言,硬體架構的影響也同步在發生:企業端的AI推論需求快速成形,伺服器、記憶體與邊緣運算設備的採購邏輯正在重寫。而組織層面,隨著AI承接愈來愈多的文書、協調與初步判斷工作,人員的職能重心從「執行」移向「決策」與「問責」——這對人才結構的重新界定,是企業領導者需要提早布局的課題。
2026-03-12
AI Token耗量持續攀升—推理模型的崛起與產業重塑
2022年下半,AI技術出現罕見的結構性轉折。Frontier Model 首度同時展現出真正的泛化(Generalization)與多工能力(Multi-tasking)。泛化意味著模型學到可擴展的語義與分析能力,能在新的指令形式與問題情境下維持穩定表現;多工則意味著同一套模型可以服務翻譯、摘要、圖片生成、問答等截然不同的場景應用,無需為每個任務另行訓練專用模型。這個突破,使AI從針對單一任務優化的垂直工具,轉變為橫向的通用、高成長智慧服務。同時也對供應鏈產生即時衝擊:自2022年下半起,資料中心的算力需求全面上修,GPU短缺從研究機構蔓延至企業端,並推動整條AI供應鏈——從晶片、伺服器到應用層——重新定位。2024年的下一步:推理(Reasoning)登場。泛化與多工解決「能做什麼」的問題,卻沒有解決「能想多深」的限制。對話式問答提供足夠解方,但遇到需要多步驟邏輯推導的任務如解數學題、複雜程式除錯、分析法律條文、科學探索、邏輯論證等,模型的能力侷限就被暴露出來。這個落差,在2024年下半開始逐步被補上。OpenAI-o1的發布標誌著推理時代的開始。推理模型呈現出更接近「System-2」的思考方式——借用心理學家康納曼(Daniel Kahneman, 1934~2024)的框架:System-1是快速直覺式的反應,System-2是緩慢刻意的深層推理。在實際運作中,推理模型不會直接輸出答案,而是先在內部展開較長的(推理)思維鏈(Chain-of-Thought, CoT),逐步分解問題、排查矛盾、整合邏輯,再收斂出最終回應。數學推導、程式除錯、法律條文解析、醫療決策輔助——這些原本只有專業人士才能應付的複雜任務,開始出現跨越式的能力提升。推理能力的形塑,來自幾個相互強化的技術突破。最基礎的是思維鏈CoT訓練。模型在訓練時被要求把推理過程一併展開,而非直接給最終答案,強迫模型在解題時學會分解問題、逐步推進。這種推理的引導,顯著提升複雜邏輯任務的表現。其次是強化學習(Reinforcement Learning)的深度整合。模型透過持續與真實任務互動並接收回饋,逐步找出「真正有用的答案」而非「聽起來合理的答案」——這成為推理品質得以持續演進的核心機制。值得注意的是,強化學習的獎勵機制,也間接強化模型「用更多token想清楚」的行為傾向——更長的思維鏈往往對應更好的答案,模型在訓練中學會以算力(更多token)換品質。第三條路是推論時擴展(Test-Time Scaling),被視為繼預訓練(Pre-training)、後訓練(Post-training)之後的第三條scaling law:不必重新訓練模型,只需在推論(inference)階段投入更多運算資源,讓模型「想更久」,就能換取更好的答案品質。正因如此,隨著用戶數量增加,據報導,目前實際對用戶服務時的推論運算需求,已經高於模型訓練階段的算力消耗。推理能力的代價,直接反映在token用量上。傳統問答模式下,一次查詢平均消耗數百個token;推理模型因為需要展開較長的內部推理步驟,每次查詢的使用量往往是傳統模式的10到50倍。這種倍數效應已在市場流量結構中浮現:目前推理模型的token使用量,已佔整體LLM流量的6成以上,預計會持續增長。這不只是技術規格的改變,而是整個算力需求預測邏輯必須重新計算的開始。當推理能力成熟,一個更大的結構性轉變隨之而來:Agent 的崛起。Agent (代理人)不是升級版的聊天機器人,而是具備目標驅動、自主規劃與多步驟執行能力的AI系統。沒有深層推理,Agent只是預先編排好的流程;有了推理,它才能在複雜流程中深度思考,做出判斷、處理例外、在不確定性中高價值任務。程式設計是第一個Agent的突破點。GitHub Copilot、Anthropic Claude與Cursor的AI coding工具,目前市佔各約24%至25%,生產力提升幅度估計達1.5至3倍。從成長速度可以感受到市場反應的強度:Anthropic的年化營收(ARR)在2025年年增幅逾 800%,Cursor從1億美元成長至10億美元、年增達900%。法律、醫療、財務等垂直領域的跟進速度也正在加快:據報導,Harvey的法律AI ARR已達1.5億美元。OpenEvidence在臨床醫療場景的ARR同樣超過 1.5 億美元。這些垂直應用的共同特徵,在於它們都依賴多步驟推理——不只是查詢資料庫,而是在法條、案例與臨床指引之間做出複合判斷,處理真實世界中的模糊與矛盾。推理的架構決定token耗量只會持續增加。每個新應用場景導入、每個Agent工作流程啟動,都意味著更多的思考步驟與更高的算力消耗——這是推理模型的設計本質,不會因為效率優化而消失,只會因為應用範疇擴大而放大。對半導體、伺服器、高頻寬記憶體供應鏈而言,這是結構性的長期需求訊號。當推理能力從數位工作流程走向實體世界,影響規模可能再擴大一個量級。工廠排程、醫療診斷輔助、教育個人化、法律文件審查——這些場域一旦嵌入自主推理能力,改變的不只是工具,而是企業工作流程與人員分工的重組。這種重組很可能使對ICT基礎建設的需求,從一次性的升級,轉為更長期的投入。這波AI資本投入是否會在建設高峰後趨於平緩?推理模型提供一種不同的結構性邏輯。其特性在於,應用規模的擴張會直接轉化為持續性的推理運算需求,而不僅是一次性的部署成本。當前推論已成為AI算力負載的主要來源,而推理型推論的運算佔比不斷攀升。再加上方興未艾的Agent架構興起,以及各種以token消耗為核心的智慧服務快速普及,算力需求將不再僅僅隨模型訓練週期波動,而是與日常使用頻率高度綁定。當使用深度與應用廣度持續擴張,供應鏈從晶片、記憶體到電力基礎設施所面對的需求動能,可能更接近結構性成長,而非單一景氣循環所驅動。延伸報導專家講堂:AI愈強,Token卻愈便宜
2026-03-04
AI愈強,Token卻愈便宜
2023年初,OpenAIGPT-4的API定價約為每百萬token30美元;如今,主流前瞻模型已全面重訂價格:GPT-4o mini降至0.15美元、Anthropic Claude 3.5 Haiku低至0.25美元、Google Gemini 2.0 Flash更壓至0.10美元—降幅從90%到99%不等,而且仍在持續下修。這不是削價競爭,而是深層的技術與市場力量共同作用的結果,並正在引發整個AI生態系的結構性改變。3個相互強化的力量在同時作用,支撐token價格持續下降。首先是模型效率的快速提升。蒸餾(distillation)將大模型的能力壓縮進更小的架構,量化(quantization)降低每次運算的位元需求,混合專家架構(MoE)讓推論時只啟動最相關的小網路。同樣的任務,所需算力持續縮減,而且這個技術優化態勢,還沒止息。其次,是系統層級的優化。產業界已清楚Transformer推論的運算瓶頸——矩陣乘法佔了絕大多數計算量,KVCache的記憶體存取效率與頻寬配置直接影響延遲,而批次處理策略則決定整體吞吐量。從編譯器最佳化、推論排程到硬體與系統層的整體優化,讓同一套硬體能服務更多prompt、產出更多token。以Google為例,透過TPU與模型、系統的協同優化,在特定工作負載下推論能效出現數倍到數十倍等級的提升,顯示推論成本仍有可觀的下降空間。接著是競爭格局的根本改變。DeepSeek-R1、Meta LLaMA3、阿里巴巴Qwen2.5等開源模型持續追近閉源frontier模型的效能(約落後7個月),打破少數大廠的定價壟斷。開源模型的全球部署量已佔整體AI使用的約3成,也成了市場定價基準的壓力源。Token成本的持續下降,正在同步觸發3個層面的連鎖反應。第一,是AI推論應用的急遽擴張。當每百萬token的成本從過去的高價模型,下降到數十分美分至數美元等級,大量原本「因成本不具經濟效益」的場景開始跨越可行門檻。個人化郵件撰寫、即時翻譯、文件摘要、程式碼生成、多語客服回覆、會議紀錄整理、合約審閱輔助、報表初稿產生等任務,不再只是試驗性功能,而逐步成為工作流程中的常態模組。關鍵不在於成本歸零,而在於邊際成本已低到足以長時間、完整部署推論服務,讓AI從「偶爾使用的工具」轉變為持續運行的生產力工具。第二,是Agent對工作流程的全面滲透。低成本token是Agent得以規模化的前提。這一點已在市場成長速度上反映出來:Anthropic的營收規模近年快速進入數十億美元級距,年增幅達數倍;Cursor等AI coding工具在短時間內從千萬美元級別,躍升至上億美元年化營收,成為成長最快的一批AI SaaS產品。這些成長快速的新創幾乎無一例外地以agent或workflow automation為核心定位——無論是Anthropic、Harvey、Glean——產品路線指向的是自主代理與垂直工作流程整合,而非單純的聊天介面。一個agent往往需要與多個工具連續互動、發出數十次甚至上百次API呼叫才能完成任務。token成本的每一次下降,都在直接擴大agent可運行的任務邊界與商業規模,同時也引發更多的token用量。第三是價值的持續上移。最具體的案例是程式碼生成。Cursor、ClaudeCode等AI coding agent以Claude與GPT-4o為核心引擎,正在重塑開發者的工作流程,而非只是IDE的外掛。Microsoft 365 Copilot、Anthropic Claude將AI能力直接嵌入Excel的公式建議與資料分析、PowerPoint的簡報生成、Teams的即時摘要,使AI不再是獨立查詢工具,而成為日常工作的預設助手。根據DIGITIMES Research的市場觀察,AI產業價值佔比將在2026至2028由硬體逐步轉向軟體與服務,而應用層的滲透速度,將成為下一階段競爭的真正起點。成本的持續下壓,讓另一端的問題更加凸顯:如何繼續壓低生產token的成本(TCO)?顯現在2個產業核心。晶片架構是第一個關鍵。各大CSP正加速投入自研ASIC,針對Transformer推論的計算模式深度最佳化,在特定工作負載下可實現數倍等級的能效提升,使算力成本的下降速度不再完全受制於通用GPU的產品節奏。電力則是更根本的制約因素。高密度AI資料中心的電費往往佔營運成本的相當比例,當規模擴張到一定程度,電力取得能力往往比伺服器採購能力更早觸及上限。近年新資料中心的選址優先順序已悄悄改變——穩定電力供給逐漸取代土地成本成為首要考量。多家能源研究機構預測,全球資料中心電力需求在未來數年將出現倍數成長,AI擴張的真正瓶頸,已從晶片轉向能源。Token成本持續驟降,是AI進入第二階段的信號。第一階段的核心問題是「能不能做到」,競爭集中在最先進模型的能力競賽;第二階段的問題已經不同——誰能把TCO壓得夠低、把平台做得夠開放,讓更多應用在上面生長,才是真正的決勝點。接下來幾年,與其看各家發布什麼新模型,不如看推論成本降到哪裡、開發者生態有多活躍,以及有多少垂直應用選擇在平台上發展;這些變數的交會處,才是下一波市場重心真正落腳的位置。對台灣而言,半導體與伺服器供應鏈能否持續協助全球客戶優化整體TCO,將決定我們在這一波Token通縮浪潮中的角色與分量。
2026-03-03
Energy + Intelligence:AI競賽新指標
過去幾年,全球大型語言模型(LLM)的早期競賽幾乎都圍繞在「評測指標」上。矽谷公司們所引領的這場「AI軍備競賽」,倚賴公開評測基準(benchmark)來展現AI實力:從 MMLU 的跨學科知識、BBH的複雜推論、GSM8K的數學應用、HumanEval的程式設計,到HellaSwag的常識推論、以及Winogrande的語境理解,這些測試成了模型在賽場追逐的技術指標。敘事也極為直接:分數代表能力,分數就是王道。於是,技術優化的路徑幾乎被鎖定——設計更大的模型、注入更多的資料、投入更龐大資本、集中高密度運算資源。然而,當各家模型在標準化測試中不斷刷新紀錄,「這些評測是否真能代表真實場域」的疑慮也隨之浮現。為了凸顯AI的場域能力,2024年起,Google與 OpenAI 先後嘗試讓模型挑戰國際數學奧林匹亞(IMO)題目,被視為複雜推論的終極考驗,但這些挑戰,終究無法反映大眾日常的使用場景。於是,美國柏克萊大學研究團隊打造的Chatbot Arena,透過大規模真人盲測,讓使用者的「體感」直接成為裁判,建立一個更貼近市場的「用戶價值」新戰場。同時,開源社群則以下載次數、社群優化程度作為佐證,強調模型在實際應用中的應用性。於是,在傳統基準分數之外,用戶體驗與主觀感受逐漸成為另一個攸關勝負的評價指標。對於後進者而言,要在AI競賽中打破既有格局,必須找到不同的切入維度,創造出非對稱的攻防空間。這在中國科技公司身上表現得尤為明顯:一方面受制於地緣政治,高階晶片的取得受限;另一方面則處於內部競爭極度激烈的環境。在雙重壓力下,他們不僅追逐「效能極致」,更積極在「系統層」尋求突破。透過垂直整合,挑戰者試圖以降低訓練與推論的「成本」作為切入點,將AI的價值主張,從單純比拚模型「智慧高度」,拓展到「商業效益」的務實層面。這意味著,競爭焦點從「誰更聰明」、「誰的體驗更好」,進一步擴展為「誰更務實」:除了「能不能做到」、「好不好用」,還得回答「能不能普及」。 AI 競賽中積極追趕的Google,發揮自身在資料中心的多年經驗,提出另一個關鍵指標,永續(Sustainable)LLM。在最新發表的研究中,Google 團隊揭露:當用戶發送一個文字提示(prompt)給Gemini模型時,平均需要消耗 0.24 Wh能量、0.03克二氧化碳,以及0.26毫升水。換句話說,1次文字生成的能源成本,大致相當於看電視9秒鐘,或飲用5滴水的等效能耗。需要注意的是,這些數據是以Gemini應用的能耗「中位數」文本提示為基準,並僅限於文字問答場景,尚未涵蓋影像或影音等更複雜的生成任務。此外,研究範圍也只涉及推論(inference)階段,而不含更高能耗的訓練過程。即便如此,這份報告仍讓外界難得窺見營運中大型語言模型背後的「AI 能源帳單」。根據其他研究,目前 LLM 的訓練與推論能耗比例約為4 : 6,顯示推論已成為整體AI能源足跡中不可忽視的主角。更有意思的是,透過這個研究,我們也看到大模型推論時,各能耗的佔比。結果顯示,AI加速器(TPU/GPU)消耗約58%的能量,接著是主機CPU與記憶體約佔24%,而資料中心的基礎設施負擔(包含冷卻、電力轉換等overhead)與備份/高可用性設備共佔約18% 。這樣的分布非常值得注意:超過一半的能源用在模型運算本身,然而近乎一成也不能被忽略地用於「系統維持與可靠性保障」的功用。更讓人驚訝的是,Google 報告同時指出,在過去一年,透過硬體(如 TPU、通訊、儲存等)與軟體堆疊的優化,AI 推論的能耗1年內降低33倍,碳排放則下降44倍。這顯示能效提升的速度,遠遠超過我們對摩爾定律的想像。顯然在系統層級「Energy + Intelligence」共同考慮下,存在非常大的發揮空間。能源不僅是珍貴資源,更界定AI智慧的邊界,也迫切需要永續潔淨能源的支持:因為「淨零碳排」(Net Zero)要求。在這方面,Google 已逐步展開布局:在碳會計的Scope 2範疇(購買電力的間接排放)中,近年持續加碼全球各地的再生能源採購,包括太陽能與風能,主動透過市場簽訂長期的潔淨能源合約,確保資料中心與業務能獲得穩定的低碳電力。同時,Google也嘗試將資料中心轉換為綠能資產,並藉由參與電網的「需量反應」(demand response)服務,於尖峰時段調整用電量,提升電網穩定。可以預見,隨著大型語言模型進入「效率優化」的新階段,系統層級的調校將比單純模型演算法更為關鍵。Google 報告中已開始納入Scope 1、Scope 2與Scope 3的碳排放計算,而Scope 3更直接牽涉到供應鏈:從晶片、伺服器、網通零組件到各類供應商的碳排責任,最後都會加總進國際雲端與AI營運商的ESG帳本。如果國際CSP大廠、前瞻AI模型公司加速要求供應鏈提供ESG指標,我們在地的ICT供應商,是否已經準備好?這意味著ESG不再只是合規清單,而是全球市場透明度與競爭力的核心要求。對台灣ICT產業而言,大語言的永續指標至少帶來3個啟示:第一,效能不再是唯一圭臬,效益才是。晶片與伺服器不只要快,更要省,否則難以在全球 AI 供應鏈中站穩腳步。第二,Net Zero正在成為產品競爭指標,能源效率與碳排揭露將成為跨國合作的必要條件。第三,治理力就是競爭力——能否把算力、能耗與永續整合進企業敘事,將決定企業在全球舞台的份量。AI的新指標已經浮現:從技術到商業,再到責任與環境(能源)成本,AI競賽的下半場將不只是「誰更聰明」,而是「誰能在智慧與能源之間找到平衡」。對產業而言,同時考量「Energy + Intelligence」,是產品策略與產業定位的新常態。
2025-09-15
Energy + Intelligence:AI優化能源效率與韌性
Intelligence需要能源當作燃料供應,同樣的,AI技術的發展,也正提升能源的韌性以及效率。AI與能源互相為用:AI需要更可靠、更乾淨的電,能源系統也需要AI提供準確預測、快速維運,以及可信賴的控制。當我們開始納入「AI for Science」探索材料與化學新結構、能源探勘,以及地球天氣的基礎模型,更可以理解為何Energy+Intelligence為企業及國家貢獻的關鍵競爭力。AI不僅是能源消費大戶,也正在各個面向優化新能源應用,包括:(一)發電方式、來源的探勘、發電優化,(二)電網穩定,及(三)降低耗電及用電端優化。在發電與儲能端,AI正加速能源資源的探勘與新材質研發。透過地震波與電磁感應數據分析,AI可更精準偵測地熱資源;在海域與山谷,AI對潮汐與風速的長期預測,能幫助規劃最佳的風機與潮汐發電位置。材料科學領域也因AI for Science而出現突破,例如AlphaFold2在蛋白質結構預測的成功,有機會用來加速電池與太陽能板材料開發。過去太陽能發電每提升1%可能需耗時數年,AI有機會將開發週期縮短30~50%,並在固態電池、氫能儲能等新興領域找到更安全、更高能量密度的材料組合。AI正在成為解決再生能源「間歇性」問題的核心工具。風電、太陽能、潮汐等發電量深受天氣影響,輸出曲線常常在幾分鐘到幾小時內大幅波動,這意味著其他發電機組(如天然氣、煤、水力)必須即時補上缺口,或透過儲能設備平滑輸出。AI的價值在於提前預測這些變化,讓調度單位能在幾小時甚至幾天前準備好備援計畫,因為各個能源系統啟動的成本以及需要的預置時間不同,從幾秒到幾個小時。Google DeepMind與英國國家電網的合作案例顯示,透過AI預測風電輸出,準確度提升直接讓風能的經濟價值增加20%。同樣的,台灣也正使用AI系統預測未來4到72小時太陽光電的變化,提供電力調度依據。再生能源預測與地球的天氣系統變化息息相關。生成式AI的進展也推昇「地球系統基礎模型」的整合,例如最近《Nature》上發表的AURORA基礎模型,能同時處理空氣品質、海浪、颱風與天氣預測,比傳統數值分析快上數十倍,且能在不同地區與時間條件下預測,對於掌握再生能源間歇性的太陽光輻射、風速、潮汐等有很大的助益。同時,準確的天氣預測(大雨、溫度)也能掌握用電端的用量趨勢,協助智慧電網分區負載平衡、電池充放電優化,甚至辦公大樓與工廠的需量反應(減少電網用電)。當預測能力與調度能力打通,AI不只是再生能源的輔助工具,而是讓再生能源成為穩定、可規劃的資源。在維運端,AI的價值在於找回「可回復損失」,並縮短從偵測到修復的時間。以太陽光電為例,電站層級的停機、組串層級的汙損與遮蔭、電氣層級的接觸不良與誤停,都會造成可觀的損失。資料驅動的診斷可以在至小時級偵測到異常型態,配合工作單與現場流程,將修復時間壓到最短;在風電、燃氣與燃煤機組上,同樣的技術可用於振動與溫度特徵的早期偵測,以延長壽命、降低突發停機。我們的經驗發現,在大型太陽能案場使用AI驅動的監控服務,可以將發電損失由5.5%降至0.9%,以短期台灣20 GW的太陽能目標(2025年時)來看,可以省下將近4個超大型太陽能案場的規模。在新一代電網中,穩定供電不再只是「發多少、用多少」的平衡,而是必須在複雜且瞬息變化的情境下,同步協調發電、充放電、價格預測與供需調度。這需要在邊緣(edge)即時運算與決策的AI系統,透過感測器與IoT架構收集數位電表、風機、變壓器、輸電設備等即時資料,提前預警設備異常、降低停機風險。同時協調各種發電來源、儲能電池與用電端,組成虛擬電廠(VPP),在尖峰時段回饋電網。傳統多依賴規則式控制,如今可結合強化學習(Reinforcement Learning),在模擬中反覆優化策略,提升調度效率。由於能源已被歐盟《AI Act》列為高風險應用,這類系統必須兼顧可解釋性與審查機制,確保關鍵決策既快速又可追溯。在此情境下,EdgeAI也會逐漸在能源扮演關鍵角色。能源轉型不僅帶來產業結構的重整,還創造智慧電網與綠能服務的新機會。當AI融入能源,發電、輸配、儲能與用電端不再彼此獨立,而是透過演算法與即時資料緊密整合,形成具備韌性、可優化且能交易的動態網路,讓能源成為可被彈性調度的資產。數據呈現這一趨勢背後的產業規模:AI在再生能源市場的規模,從2022年約6億美元,預計將躍升至2032年的46億美元,年複合成長率達23.2%。同時,智慧能源市場(smart energy)在2022年約為153.8億美元,預測將成長至2030年約316.4億美元,年複合成長率約9.6%。顯而易見,Intelligence與Energy的結合已成為全球基礎建設的雙引擎,在AI主權、能源安全、與氣候議題三重壓力下,更是國家與企業競爭優勢發展關鍵。
2025-08-20
訂閱椽經閣電子報
 
新文章上刊時發送,提供您DIGITIMES專家及顧問群的最新觀點、見解。
智慧應用 影音