徐宏民
國立台灣大學資訊工程學系教授
國立台灣大學資訊工程學系教授,曾任鴻海集團與Stellantis合資車用科技公司技術長暨副總經理,推動ADAS及智慧座艙系統產品進入全球車用市場。紐約哥倫比亞大學電機博士,專精於機器學習、電腦視覺、自駕車、機器人等領域。為訊連科技研發團隊創始成員,慧景科技(thingnario)共同創辦人,NVIDIA AI Lab計畫主持人;曾任IBM華生研究中心及美國微軟研究院客座研究員。擔任多家科技公司AI策略顧問,習慣從學術與產業雙重視角檢驗技術發展的機會與挑戰。<br>
東京Humanoids Summit觀察:當實體AI成為有手腳的電動車
日本大阪大學教授石黑浩教授(類人機器人研究先驅)在Humanoids Summit主題演講結尾說了一句話「日本在機器人研究上投入了數十年,但還沒有殺手級應用」。日本在工業機器人領域的先驅地位毋庸置疑,川崎、發那科、安川的機械手臂至今仍是全球工廠的骨幹;然而近年數據顯示,日本製造業的機器人密度已從全球第一跌至第五,數十年的研究積累,未能取得新世代自主機器人的領先優勢。回到最基本:機器人最終要回答的問題,是能否提升「生產力」,而不是形態是否像人。2026年5月底在東京舉辦的Humanoids Summit,是這個發源自矽谷的論壇首次進軍亞洲,匯聚各領域第一線業者與決策者上台,來自50個國家的與會者同場。包括汽車廠與製造業龍頭的機器人策略負責人、基礎模型研發團隊、機器人新創執行長、法務風險分析師與投資決策者,討論的是商業化路徑,不是研究論文。會場有人把機器人稱為「有手腳的汽車」,背後有一條比多數人意識到的更具體的產業邏輯。會議名稱雖叫「人形機器人高峰會」,但兩天下來討論的範圍遠不止於此。四足機器人已在高速公路涵洞裡偵測裂縫、在晶圓廠用熱像儀發現幫浦過熱、在大型賽事現場執行化學生物威脅偵測,這些是已驗收的商業合約,不是展示影片。某家靈巧手廠商出貨超過1,000套,物流場域單筆訂單超過700萬美元。以Real2Sim2Real資料飛輪為核心的新創,在2026年第1季拿到超過1億美元訂單,說明訓練基礎建設本身已成為有真實收入的生意。人形機器人只是具身智慧的一種形態;這個產業的全貌,是一個還在快速分化的生態系。筆者在現場持續帶著2個問題:眼前這個展示,能否在非受控條件下重現?以及,這個產業何時才能真正放量?某家靈巧手廠商的發表者在台上說:「These are real」,連業者都感受到必須主動澄清的壓力。靈巧操作是目前公認的最後一道硬體障礙,兩天下來技術深度最高的展示是某家車廠的16自由度手內操作,但仍是高度受控的條件。移動與感知已逐漸工程化;卡住的是操作——抓取不同材質、形狀、重量的物件,在需要精細力道控制的場域,仍是高失敗率的環節。長時序任務的可靠性是另一道結構性門檻。任務步驟愈多,錯誤率加速累積,真實場域的容錯空間遠低於實驗室。各家都在針對特定場域補強;現場展示的永遠是最有把握的任務;實際部署能可靠執行的範圍,遠比展示看起來的窄。真正限制部署的,不完全是技術問題。產業調查顯示,71%的企業主管認為目前最大障礙是「business case 說不通」。成本是直接原因:高階機器人採購成本落在15萬~50萬美元之間,估計需要降到2萬~5萬美元,才能打開大規模採購。認證架構同樣空白,目前沒有任何一套標準完整涵蓋具備語言理解與自主決策能力的機器人系統;商業場域發生事故時,製造商、操作者、AI 模型開發者之間的責任歸屬仍無清楚的法律架構,這是大規模採購無法跳過的前提。部署因此有其優先順序。第一波進入的是結構化環境(製造業產線、物流倉儲、基礎設施巡檢),第二波才是半結構化環境(工地、醫院物流、商業設施維運),家庭與照護場域是現場討論最熱烈的,也是目前幾乎沒有人能可靠做到的。機器人不是從最有趣的地方開始部署,而是從投資報酬率最清楚的地方開始。一個有參考價值的前例:某大型服務機器人當年進入2,000家企業,3年後85%放棄,失敗原因有83%不是技術問題,而是與組織流程和人員文化的整合失敗。分工地圖則是另一層問題。市場分析列出機器人關鍵硬體的全球產能分布:永久磁鐵中國佔 90%、致動器 55%、諧波減速機 45%、電力電子 30%。這些零組件與電動車供應鏈高度重疊,過去十年中國電動車的快速擴張,同時建立一套可直接轉用於機器人量產的製造能力。這是整場討論的隱性背景,多位講者都觸及這個現實,沒有人把它定性為威脅,但數據攤開來,結論不言而喻。現場一張來自歐洲的投影片標示:「China is dancing ahead — From dance floor to the shop floor」。「有手腳的汽車」這個比喻,對資訊電子業的含意相當直接。人形機器人半導體市場估計將從2026年約2,100萬美元成長到2050年的1,770億美元(若涵蓋工業機器人與AMR,整體還要大上數倍);每台高階人形機器人的晶片物料清單約1,400美元——光是70個以上的關節,每個都需要獨立的MCU做馬達控制,這還不包含推論與感知層的需求。功能安全MCU、馬達驅動IC、感測器訊號處理晶片,與車用電子規格需求高度重疊,服務汽車供應鏈多年的能力在機器人場域有相當程度可以對應。但晶片這一層的分工地圖與機械零組件截然不同:感測器、推論晶片、安全 MCU,日本、美國、歐洲、南韓業者都有明確位置。再往上是軟體模型層,基礎模型的研發重心在矽谷與北京,開源生態讓各層的競爭邊界持續模糊。同一個「機器人產業」,機械硬體、晶片、軟體三層各有自己的競爭格局,不能用同一張圖理解。兩天下來,筆者對這個時間點最清楚的感受是:2026年更像是機器人基礎建設的元年——賣鏟子的先有生意。訓練資料服務、資料收集基礎建設、各地資料工廠,真正有確定性收入的環節在供應鏈的更上游,不只是整機廠商。資料飛輪能否轉起來,可能比組裝良率更早決定誰在這場競賽裡站穩。但石黑浩那句話提醒的問題還在:殺手級應用是什麼、在哪個場域、誰先找到。電動車的答案不是在實驗室裡想出來的,是在場域裡跑出來的。供應鏈可以先跑,這個答案卻沒辦法用鏟子挖出來;從2013年以來幾輪AI技術更替的經驗看,在真實場域中貼近客戶、理解生態系需要什麼的,往往是上升曲線之後的贏家。
2026-06-02
Token帳單之後:AI運算架構的5層重組
2024年下半,我有機會和一家矽谷前瞻大模型公司的高層交流。我問了一個問題:為了減輕伺服器端的推論負載,有沒有可能把部分工作移到終端裝置,甚至開通新的應用情境?對方的回答很直接:根據他們的研究,這完全不可能。幾個月後,2025年農曆年前後,一場模型效率的突破事件讓業界重新檢視這個可能性。「完全不可能」,在不到一年內被現實修正。目前的資本流向,幾乎清一色集中在最頂層。據部分研究機構估計,2025年美國資料中心建設規模(含規劃中與施工中)已逼近80 GW;多家財經媒體的報導指出,主要科技業者的資本支出預計在2026年合計達到約6,600億美元,其中逾8成直接流向AI資料中心。業界觀察者以「沒有放緩跡象」形容這波投資熱度,並點出其結構性而非週期性的特徵。熱點在哪裡,目前的答案很清楚。但另一組力量也在累積,而且有個不直覺的地方值得點出。2023年初,主流前瞻模型的API定價約為每百萬token 30美元;如今已全面跌至0.1至0.25美元,降幅達90至99%,且仍在下修(本專欄〈AI越強,Token卻越便宜〉)。按照直覺,token這麼便宜,AI帳單應該縮水。現實卻相反:推論模型、agent呼叫鏈等需求乘數,讓總用量的成長速度遠超單價下滑的速度,帳單不減反增(本專欄〈推論經濟學〉)。「在哪裡推論、用什麼規模推論」,已從架構選項變成經營決策。若把AI推論的基礎設施從當前的資本重心到未來的部署前瞻排列,我們推估大致可分為5層。最頂層也是目前投資最密集的,是超大規模AI工廠——以GW為單位,服務全球通用推論工作負載。這一層的競爭邏輯是純粹的規模經濟,幾個大型雲端廠商之間的較量,進入門檻極高,只有少數企業能直接介入的市場。往下一層是受監管或主權級AI資料中心。歐盟的AI法規、中東的數位主權政策、東南亞各國對資料本地化的立法,都在把特定產業或政府機構推向「必須在受控環境內完成推論」的處境。需求最明確的是國家安全相關機構——推論工作不只不能出境,往往還需要在實體隔離的環境中完成,對硬體安全認證的要求遠高於一般企業。金融和醫療等私部門雖然約束程度較低,但面對的本質問題相同。這一層的採購決策往往由法遵、風控或安全主管部門驅動,銷售週期和評估標準與其他層截然不同。企業AI資料中心目前是成長最快的一層。金融業、醫療機構、製造業領導廠商,在評估AI推論的部署位置時,部分選擇自建而非公有雲,驅動力不只是長期成本,更多是資料不願外傳的現實考量。這一層需要一定規模的IT組織支撐。對有自建能力的大型企業而言,推論需求愈大,自建的TCO優勢就愈明顯——每個token的運算成本、能源效率與系統使用率,都成為設計的核心參數,而非事後才考量的營運細節。但沒有足夠IT資源的中小企業,直接跨入的風險不低。中小型本地伺服器對應有一定技術能力、但不想完全依賴公有雲的中小企業或部門級部署。有一個長期被低估的現實:許多企業過去透過NAS等本地儲存,累積大量業務資料——檢驗紀錄、作業日誌、客戶往來文件——因為法遵、成本或頻寬的限制,從未上雲,也從未被真正利用。本地推論伺服器的出現,讓這批沉睡資料第一次有機會被語言模型處理,不需要把資料傳出去,也不需要支付龐大的雲端費用。這一層真正的門檻不是資本支出,而是IT人力的可得性。第五層是終端裝置。從手機上的智慧語音助理、工廠邊緣的視覺檢測,到需要即時感知與動作決策的自主機器人,這一層的關鍵是延遲與離線可用性,而非運算規模。機器人在實體空間執行動作,幾乎沒有等待雲端回應的餘裕,斷線就意味著停擺;這讓終端推論從「可選項」變成系統設計的前提。需要大型模型推論或長篇上下文的任務,目前仍難以在這一層完成。但這條限制的邊界正在移動。我們曾以封包(packet)的演進為例分析過(本專欄〈鑑往知來:packet vs. token〉):網際網路早期的運算重心在伺服器端,當封包成功進入行動裝置,才催生智慧型手機與長達10年的行動生態系爆發。token往終端裝置移動,似乎正在走出類似的路徑——使用需求的拉力、模型輕量化的持續推進,以及本地端推論硬體的能力提升,3個條件正在相繼具備。近中期更可能的形態是混合並存,而非全面取代;但這一層的成長方向相當確定。這個層結構能夠同時成立,背後有幾個技術條件在近兩年相繼成熟:模型輕量化讓前瞻模型得以在更少的硬體上完成推論;開放權重模型的能力持續追近閉源模型,且可以自行部署、不依賴特定廠商介面;法規與地緣政治的壓力,則讓受監管資料中心這一層的需求有了更穩定的支撐。三者缺一,分層格局就難以成立。這個趨勢不代表頂層的投資退燒——各方數據顯示那一層的建設力道仍在持續。各層同步展開,需求規模擴張,而非資源從頂層向下轉移。競爭重心過去集中在頂層的大規模伺服器與散熱解決方案;現在,每一層都有不同的系統規格需求——低功耗推論晶片、針對推論工作負載優化的中密度伺服器、安全法遵的系統整合,直到終端裝置的邊緣推論模組。能否針對不同層次的客戶需求給出有差異的回應,或許正是這波擴張中新機會的所在。
2026-05-29
具身推理:機器人也開始深度思考了
過去一年多,大型語言模型(LLM)的「推理」已成為主流模型的標準配置。從2024年下半開始,長思考鏈與強化學習訓練逐漸在各主流模型中普及,在程式設計、數學、法律、醫療等資訊密集的領域確實展現效果。這套能力的基礎,在於語言世界本身提供大量訓練素材,而且推理的對錯可以被直接驗證。傳統工業機器人從來不需要推理。它們的設計前提清楚:事先設定動作序列,在結構固定的環境裡重複執行,不需要應變。一台焊接手臂每天走同一條軌跡,分揀機器人在預先規劃的路線上來回——對這類任務而言,彈性是多餘的。這個前提在過去幾十年運作得很好,但它的邊界也很清楚:換了場景就得重新設定,出了例外就得人工介入。但這個限制正在被鬆動,而且是產業必須認真面對的突破。下一代自主機器人的目標截然不同:接受一道自然語言指令,在開放場域中自主運作10個小時以上,途中能察覺例外、調整計畫、完成任務,不需要人在旁監看。要做到這件事,機器人必須能「推理」。這個能力能否真正落實,很可能就是機器人產業下一輪典範轉移的關鍵技術。如果機器人在實體世界也開始可以「推理」(深度思考)了呢?想像機器人第一次進入陌生的空間:需要電源,但插頭可能藏在電視機後面,要自行判斷從哪個角度找得到;被交代「把廚房收一下」,必須把這個模糊指令拆解成十幾個子動作,決定先收什麼、後收什麼;面對一台沒見過的微波爐,要推論哪顆鍵是加熱、設定多久合理;桌面已滿,拿著餐盤不知道往哪放,得判斷能否先挪開某個物件;工廠的儀表讀數被管線遮住,要推測是換個視角、還是移開管線才能看清楚;前往下一個位置的路徑被外物堵住,要決定是等、是繞、還是主動清出空間。這些情境的共同特徵是:答案不在事先設定的規則裡,機器人必須把視覺線索、空間常識、任務目標即時整合,做出當下的判斷。然而,同樣的推理機制搬到實體空間,就會明顯失靈。根本原因在於資料結構不同。LLM的推理之所以可行,是因為語言有豐富的文字序列供訓練,答案也可被清楚驗證。但3D實體場景缺乏這種天然的監督訊號——沒人會持續為自己的空間、物件位置、姿態變化做標註,「開關大致在門邊牆面」「開罐器通常放在廚房抽屜」這類空間常識,沒有網頁規模的訓練資料可以依靠。長時序規劃是另一層難點:指令一旦複雜,機器人必須把目標拆解成數十個子動作並在執行途中不斷應變,研究顯示純LLM在這類任務上的錯誤率會隨步驟數超線性上升,沒有外部驗證機制,難以可靠完成任務。針對具身推理,研究圈已在幾個方向同步推進,核心問題都是讓推理過程能與實體世界的真實狀態掛鉤——不只是語言上說得通,還要能被驗證、能指導動作。方向從讓機器人行動前先寫出推理過程、到把推理步驟對應到空間幾何預測、再到讓機器人從實際嘗試的結果中修正自己的推理,各有側重,也各有代價。整體仍在研究階段,尚未出現明確勝出的路徑;但幾個方向的進展都比幾年前快,可見度也愈來愈高。這套推理能力的實際部署,可能採取分層架構。目前機器人邊緣運算平台的運算能力已進入千TOPS等級,足以在本地端即時執行推理模型,完成大多數動作決策。遇到需要更深層推理的任務,例如複雜場景規劃或多步驟的例外處理,若時間允許,可以呼叫雲端較大的模型做更完整的推理,再把結果傳回邊緣端執行。這種金字塔式的分工,讓即時執行與推理深度可以依任務彈性切換,不必在兩者之間硬性取捨。在這個背景下,前面提過的世界模型(world model)與推理的關係也愈來愈值得關注。上一篇已介紹過世界模型在感知與表徵上的角色;在推理層面,它的潛在貢獻是讓機器人在行動之前能先「模擬」:預測推開某個物件後場景會如何改變、抓取某個位置後會遭遇什麼阻力。如果推理可以借助這種前瞻性的物理預測,驗證就不只是事後比對,而是在行動前就能排除不合理的計畫。這個方向目前仍在早期,但已被納入幾個主要機器人基礎模型的路線圖。延伸報導專家講堂:World Model:分歧的研究世界LLM推理能力的突破,帶來的不只是「模型更聰明」——而是讓AI能進入法律文件分析、醫療診斷輔助、軟體開發等原本需要高度專業判斷的領域,改變工作流程,在部分商業場域引發典範轉移。具身推理若能達到類似的可靠程度,讓機器人在不確定的實體空間裡真正能規劃、應變、判斷,潛在的變化幅度可能同樣深遠。工廠、物流、照護、服務,這些領域長期需要「能判斷、能應變」的自主執行能力,卻一直缺乏可靠的技術支撐。自主機器人的產業天花板,很可能取決於推理能走多深、場域能延伸多遠。
2026-05-26
World Model:分歧的研究世界
過去兩年,「世界模型」(World Model)成為AI業界引用頻繁、定義卻最分歧的詞彙。每個正在做生成式AI或機器人技術的團隊都會自稱「在做world model」,但仔細看,每家口中的定義並不相同。這個概念本身在認知科學、控制理論與1990年代的強化學習文獻中都有過討論;2018年David Ha與Jürgen Schmidhuber發表的〈World Models〉論文,用神經網路學習賽車環境的潛在動態,agent完全在內部模型中訓練後再轉到真實環境執行,這個概念錨定在現代神經網路的脈絡下,奠定「壓縮環境動態、用以預測與規劃」這個基本定義,也成為後續討論的共同起點。從這個原始定義延伸,業界各陣營各有解讀。Yann LeCun主張的JEPA(Joint Embedding Predictive Architecture)在抽象表示層預測世界下一步,作為agent規劃的基礎;李飛飛從「空間智慧」(spatial intelligence)切入,把世界模型視為可生成、可互動的3D表示,這也是她創立WorldLabs的核心命題;NVIDIA的Cosmos則把世界模型定位為實體AI(Physical AI)的生成式模擬器,依文字、影像或動作條件預測下一秒畫面;Google DeepMind的Genie系列則更接近「可互動生成環境」的路線。同一個詞,4種版本,分別對應預測、生成、模擬、互動4種不同的工程目標。與世界模型容易被混為一談的,還有數位分身(Digital Twin)與模擬器(Simulator)。數位分身強調「特定實體的數位映射」,重點在於與真實世界即時同步,背後是工程模型加上IoT資料流。模擬器(如Isaac Sim、MuJoCo、Gazebo)則是基於物理方程式建構的程式化環境,優勢是可控、可重現,缺點是建模成本高,且在接觸力學與柔性物體上仍存在sim-to-real落差。世界模型則是用神經網路從資料中學出來的「環境動態函數」,不依賴明確規則,可以生成從未真實出現的場景;本質上是從資料學出來的,不是手工建構的。三者並非互斥,近年逐漸結合:用模擬器產生資料訓練世界模型,再以世界模型補足模擬器涵蓋不到的長尾場景。釐清這些定義之後,真正值得ICT產業注意的,是世界模型為什麼會成為具身智慧(embodied AI)能否規模化的關鍵元件。機器人在實體世界嘗試動作,每一次都伴隨不可逆的成本。機器人用力一壓,可能直接打破物料;自駕車試一個激進變道,可能撞到行人。這與語言模型的處境截然不同——語言模型的錯誤輸出最多被使用者打回,沒有實體損害。具身智慧的學習與決策迴圈,因此必須有一層「先在內部模擬一遍」的階段,而那層內部模擬,世界模型提供可能的工具。舉例來說,機器人的複雜推理可以嘗試這樣運作:每一步推理不只是用語言判斷「下一個動作該做什麼」,而是先預測「做完這個動作之後,世界會變成什麼狀態」,再把這個預測送入世界模型驗證實體上是否合理;通過驗證的動作,才會送到真實世界執行。這把推理鏈從「在語言空間中規劃」拉回到「在實體空間中驗證」,正是具身智慧與大型語言模型在推理結構上的主要分野。少了這層驗證,機器人就難以走出受控場域;補上之後,泛化與規模化才有空間。這個方向在近期研究中陸續出現:部分VLA研究(如CoT-VLA)開始把世界模型與具身推理結合,在執行動作前先在內部模型中生成子目標影像或合成成功軌跡,再回頭修正動作;NVIDIA的Cosmos Reason也把世界模型的預測輸出接到推理層。這些做法都還在實驗階段,但愈來愈多研究傾向認為:可靠的世界模型,可能是讓具身智慧走出受控場域的關鍵元件之一。這個方向的另一面,是運算需求的大幅躍升。大型語言模型處理的是離散token,每秒幾十到上百個就算流暢;世界模型處理的是高解析度、長時序、多模態的影像或3D表示,每一秒影片對應的資訊量大致相當於數十萬至上百萬個token。一旦世界模型真的在具身智慧上成形,這波運算需求會比目前以token為主的大型語言模型高出一個量級;不只是token變多的問題,而是運算的維度從「文字」擴展到「世界」。運算之外還有2道更基礎的瓶頸。一是3D空間推理仍有明顯落差,連物件相對位置、可達性、操作後果這類實體任務中視為基本的能力,目前都還不夠穩定。二是實體一致性與互動:影片擴散模型已能生成相當逼真的畫面,但物件穿模、重力違反、接觸不合理這類錯誤仍常見——世界模型從資料學動態,沒有明確的物理約束,畫面好看不等於符合物理規律;要在毫秒等級對輸入動作做出實體一致的回應,目前還沒有方法能在機器人實際所需的延遲下穩定運作。AI產業現在缺的不是更多世界模型,而是第一個真正需要它的殺手級應用。比較值得追蹤的不是又有哪家發表新版世界模型,而是3D推理與低延遲互動這兩層基礎能力會在哪一個垂直情境先站穩;那個情境多半也會成為第一個真正需要世界模型的應用。過去幾十年的科技發展也顯示,這類路線分歧本就是探索解方的過程;一旦某條路線走出明確的產業效益,研究方向往往會再次收斂。
2026-05-20
一千台自主機器人須跨越哪道鴻溝?
過去十五年,幾項產業典範先後從0到1跨越商用門檻。手機從2007年iPhone重新定義形態,5年後(2012)出貨進入交叉點;ADAS從2014年深度學習推動視覺辨識成熟、Tesla Autopilot量產起算,到2022~2024年中國市場進入L2+標配狀態,跨越約十年;大型語言模型從2020年GPT-3到2023年ChatGPT,逐漸改變生產力的樣貌;自駕計程車則經過七年突破一千輛的關鍵門檻,開始逐步規模化—領先業者已擴張到約3,000輛,每週行駛里程仍在倍數成長。每段路徑的起點不同(形態創新、感測突破、能力湧現、車隊密度),但跨越鴻溝的共同模式相當清楚:從來不是單一公司獨立完成,而是技術突破、形態定義、平台開放、規模製造、法規介入、終端通路,各個關卡由不同類型的業者接力跑完。跨越之後的影響也大致分3種型態:產品取代(手機重新定義使用情境,feature phone供應商消失,換代最快最徹底)、產業重組(ADAS成為汽車標配,整個供應鏈、競爭力與價值重新分配,產業形態本身不消失)、生產力樣貌重塑(大型語言模型不取代人,但改寫人做事的方式與組織流程,速度最慢但影響最深)。機器人似乎也站在關鍵的時間點。2024~2025這兩年,多家公司把通用機器人系統推上現場,VLA架構從學術論文走進產品,工廠試點開始小規模部署。如果把問題更具體化:今天還沒有一家公司能讓1,000台機器人在開放場域中達到完全自主的長時間運作。目前最具規模的部署,要不依賴預先規劃的場景(倉儲AMR),要不依賴可觀比例的遠端操作員介入(配送機器人)。「能做出一台」與「能讓一千台真正自主運作」,是兩道性質不同的門檻。實驗室裡示範1台機器人泡好1杯咖啡很驚豔;要把同樣的能力放大到醫院物流、餐飲後場、產線組裝這類場域、千台規模、每天10小時連續運轉,又是完全不同層級的問題。以倉儲AMR為例,某大型電商物流中心同時運行超過4,000台自主移動機器人,條件是預先鋪設的格狀地板、固定路徑、不允許外物進入。這4,000台跑的是預先規劃好的路徑,不是在開放場域中即時感知、規劃、決策。把倉儲為機器人改造,是先把場景的不確定性拿掉,讓機器人在規劃過的環境內運轉——這在工程上有效,但離真正的自主能力還有差距。接下來幾年,機器人能不能真正擁有「自主性」、像前述三項典範那樣跨越chasm(鴻溝),技術上的關鍵在兩塊長期被低估的能力:「長時序規劃」與「泛化」。第一塊是長時序規劃(long-horizonplanning)。煎蛋翻面、塗果醬、把箱子搬上輸送帶,任何「看起來很簡單」的任務拆開都是十幾步連續決策。每一步當下做對不代表整體能完成;累積誤差(compoundingerror)、子目標衝突、感測雜訊在某一步觸發誤判,整段規劃可能就此失效。舉例來說,即使每一步有9成準確率,連續10步整體成功率仍會掉到3成左右。機器人面對的是物理環境,每一步的誤差不只是文字錯誤,可能是手臂卡住、物件掉落、推倒旁邊的杯子。目前VLA模型在短任務上已展現基本能力,但30秒以上的連續任務、跨子目標的重新規劃、失敗後的自我恢復,仍是研究熱區。沒有這層能力,機器人無法獨立完成廚房一道菜、清潔一間病房、組裝一塊主機板。第二塊是泛化能力。換個光源、換個物件、換個房間布局,機器人的成功率能否維持?這個問題的根源不在模型本身,而在訓練資料的覆蓋度。VLA模型的能力直接受限於資料的場域多樣性、視角多樣性、物件多樣性、失敗模式多樣性,任何一個維度覆蓋不足,部署到現場就會持續露出缺陷。模擬器可以補一部分,但接觸密集場景與感測雜訊的真實分布只能部分逼近,這在前一篇Sim-to-Real已詳述。真正的解方是讓部署現場本身成為持續的訓練資料來源:千台機器人在工廠、餐飲、物流連續運作,每一次失敗、每一個未見場景回流中央模型,經篩選、標註、再訓練,再以OTA更新回邊緣裝置;規模本身成為模型進化的燃料。這個自我強化的迴路就是業界所稱的fleet learning。自駕車產業從2016年起花了將近十年才把它建起來,工程上真正的重點不在模型,而在資料管道、篩選與標註、版本管理、現場運維與維修回應網路,每一塊都是獨立工程系統,缺一塊整個迴路就跑不起來。其他幾項在前幾篇已展開:靈巧操作的觸覺與力回饋、Sim-to-Real落差、VLA安全設計(執行前棄權、執行中監控、語義層的物件風險)。這些在工廠試點階段都在被解,但要走到1,000台、10,000台規模時,都會與長時序規劃、泛化、fleetlearning糾纏在一起,任何一項補不齊,整個迴路就跑不滿。技術之外,還有2道非技術障礙會擋住採購端決策。一是認證體系與持續學習的衝突:現行的工業與自主機器人認證(ISO10218、UL3300、2027年生效的歐盟機械法規)建立在「行為可預測、可凍結、可審計」的前提,fleet learning的核心卻是「模型在部署後持續更新」,OTA之後是否要重新認證目前沒有明確答案。二是保險與責任歸屬:當機器人停掉產線或撞到推床,責任主體是製造商、部署方、模型供應商、還是現場整合商?自駕車產業討論了十幾年才大致收斂於「L4/L5由製造商承擔」,服務型機器人介面更分散,責任分層只會更複雜。沒有保險背書,採購方就無法承擔對應的風險。場景選擇也是一道初期障礙。哪一種垂直情境適合一個剛起步的機器人系統開始真正自主運作?這個問題沒有最佳解,但前述無人計程車業者的軌跡給了清楚的策略:先把問題的開放性壓到夠小,劃出明確圍欄,在受控邊界內累積運轉時數、收集真實場域資料、把例外情境逐一解掉,回頭看清楚這個任務的核心運作邏輯,然後才把邊界往外推。該業者從特定城市的受限路段起步,逐年向外擴大運行範圍,每一次擴張都是在前一個邊界內把長尾收斂得足以承接下一輪。機器人對應的問題是:哪些垂直場域同時有足夠的需求密度、任務重複性與容錯空間,能讓fleet learning迴路真的跑起來?答案多半在工廠某條產線、特定倉儲格局、特定餐飲後場、醫院藥局,而不是「家庭服務機器人」這種看似最大、實際開放性也最大的終局場景。業界對機器人規模部署的時間表,多半指向2028~2030年才會出現以萬台為單位的案例。能否成立,取決於接力賽每一棒能否在這幾年同步接好。技術上要把長時序規劃與fleet learning推到產業可用的水位;商業上要把形態定義、開放平台、規模製造、終端通路這幾棒補齊;制度上要拿出認證體系與責任歸屬的答案。3項都同步到位,這個時間表才會兌現。對台灣供應鏈來說,真正的押注點不是哪個整機廠商會贏,而是哪一棒會在自己擅長的位置接好。
2026-05-12
Sim-to-Real:虛擬世界的侷限
上一篇談到機器人訓練資料的4種來源:遙控示範、模擬器、影片、穿戴設備。其中模擬器看似最方便——資料生成邊際成本接近零、場景參數(天候、情境等)可以隨意調整。從MuJoCo、IsaacSim到Genesis,業界持續推進高逼真度物理引擎,NVIDIA也不斷強調世界模型Cosmos在機器人訓練上的優勢。模擬器值得投入的理由不少。強化學習要靠大量試誤,在實體機器人上幾乎不可行;VLA基礎模型在預訓練階段也需要大量多樣場景,這兩件事前幾篇已談過。上一篇也介紹過把模擬當成資料工廠、合成大量軌跡的「重模擬」路線。模擬器更是加速應用開發的標準工具:給定機器人結構、夾爪規格、場域布局,工程師可以先在虛擬環境中迭代演算法、驗證任務規劃,不必等實機。這件事在ADAS與自駕領域已是標準做法,移動機器人與工廠自動化也在跟進。不過模擬器訓練出的策略搬到真實機器人時,常常表現不如預期;現象一般稱為sim-to-realgap。接觸力學是第一個盲點,上一篇已點出布料、電線、食材這類柔性物體是目前物理引擎的共同難題,但另有幾個較少被提及的盲點。第一個是力回饋與精準度。夾爪抓起一個紙杯不壓扁、擰開瓶蓋的扭矩判斷、插針孔的次毫米對位,這些動作在真實世界要靠觸覺、扭力感測與視覺迴圈一起完成;模擬器裡的感測器多半是理想模型,與真實感測器的雜訊分布並不一致。消費端夾爪看似容忍度大,但一進到電子業的組裝場域、醫療器材或食品加工,容差瞬間收斂到數十微米到幾毫牛頓的區間;即使模擬精度與真實系統相當,殘餘的sim-to-real落差仍會直接反映在成功率。第二個是驅動端與系統端的落差。模擬器多半假設電機瞬時響應、通訊完美、狀態完全可觀測;真實系統卻有電力電子的延遲、齒輪反向間隙、電池電壓波動造成的扭矩不穩,再疊上封包遺失、時脈同步誤差、以及感測受限下的決策缺口。更關鍵的是,這些差距會隨時間漂移:機構磨損、電池老化、現場網路變動,模擬器即使再精細,也跟不上現場長期運轉的累積。第三個是物件層級的風險。前一篇談VLA安全時已詳述情境危險性:同樣一個抓取動作,物件是刀還是湯匙、是熱飲還是冷飲,風險天差地別;這層語義層的風險,虛擬環境在幾何與動力學層面上不會主動標註,必須靠真實場域的資料補齊。還有一層更難處理的問題——物件狀態的變動,而這些變動往往不在物理引擎的描述語言裡。微波爐是不是正在被佔用、抹布是不是髒的、平底鍋剛用過還沒洗、油是不是已經酸敗。自然語言指令通常不會把這些條件寫明,但實際執行時缺一不可。我們近期的研究就把這類「動態可操作性」(dynamic affordance)納入評估,要求代理人在動作前先判斷物件當下是否可用,而非當成固定幾何體;測試結果顯示,這個額外的判斷確實能改善代理人在新場景下的表現。這類問題暴露一個本質限制:物理引擎模擬的是「物件怎麼動」,不是「物件現在可不可以用」。前者是物理,後者是常識。虛擬世界可以把桌面渲染到以假亂真,但「桌面髒污還是剛被擦拭過」這件事,模擬器不會主動生成,也不容易標註。真實場域的不確定性,很大比例是這類狀態變動累積而來。傳統機器學習對訓練資料的基本要求,在VLM/LLM新典範之下並沒有放寬,大致有3個面向。第一是視覺與場景的多樣性:模型要在不同光源、視角、雜物分布、場景配置下都能穩定運作,視覺長尾覆蓋不足,泛化能力就有限。第二是失敗模式的多樣性,這和視覺多樣性是兩件事;機器人真正要學的不是「做對一次」,而是在各種失敗邊緣能不能察覺並調整,這類分布只能刻意取得,不會自然出現。第三是領域貼合度:要讓模型學會某個場域的操作邊界,資料必須來自該場域,一個合格的物流倉、醫院藥局、餐飲廚房,都有自己獨特的動作分布與例外情境。回到模擬器,這三件事它能補的程度不一。視覺多樣性已有相當進展,特別是場景合成與domain randomization,但接觸密集場景仍有差距。失敗模式合成則是模擬器較具獨特性的角色:不安全操作、碰撞、摔落、錯抓這類情境,在真實場景上難以大量反覆上演,模擬器可以放心重現危險操作、組合極端條件,是「安全地大量失敗」的少數可行路徑之一。至於領域貼合度,模擬器只能部分逼近,難以取代真實場域資料;這也是其他訓練資料必要的原因。機器人產業真正需要的,或許不是更逼真的模擬器,而是讓部署現場本身成為持續訓練的資料來源。實體機器在真實場域運作時,能察覺自身錯誤、退回安全狀態,並把偏差訊號回饋到模型迭代。這個思路在數位世界剛被走通。近期的代理型AI(Agentic AI)推理並非總是準確,但搭配驗證(verification)、錯誤偵測與再修正機制,系統在迭代中逐步收斂到可用水準。實體AI(Physical AI)有機會走上同一條路:用模擬器建立預訓練的底層,用真實場域的錯誤訊號回饋微調,把部署規模轉化為模型進化的燃料。這裡的「驗證」不只是軟體驗證,還包括獨立的安全監控層;前一篇談VLA安全時提到的執行前棄權、執行中監控,正是這個迴路的實體版本。模擬器仍是地基,但模型真正變強的地方,會在實體部署之上。機器人部署場域的營運資料,未來幾年會逐步變成比硬體規格更關鍵的資產;誰能蒐集、清洗、回饋這些資料進模型,誰就能把「單次出貨」變成「持續累積的優勢」。Sim-to-Real的問題,未必能靠「把模擬做得無比接近真實」徹底解決,這條路的邊際報酬看來正在遞減。比較務實的方向,或許是接受虛擬與現實之間確實存在的差異,透過場域資料微調、驗證與修正迭代逐步提高成功率。如同代理型AI在數位世界走過的路,機器人也可能藉此在實體世界站穩腳步。
2026-05-06
VLA機器人的「安全」該如何設計?
服務型與移動型機器人在商業場域的部署密度,過去3年明顯加速,巡檢、倉儲、餐飲、商場、醫院物流、戶外遞送逐一導入;這些機器人驅動核心仍以預先定義的規則與固定流程為主。緊接而來的技術主軸,是 VLA(Vision-Language-Action)架構:以 LLM/VLM 為大腦,幫助機器人理解自然語言指令、在更有彈性的情境下做決策,展現傳統機器人沒有的適應力與自主性。但更多能力、彈性,也隱含更多風險。「安全」這件事被相對低估了。新一代VLA驅動機器人的安全框架,不是把工業機器人那套「圍欄加急停」放大就能沿用。傳統機器人的安全是工程問題——感測器劃出實體禁區、動作在認證階段鎖定。VLA 的彈性打破既有前提,使過去二十年的安全工程資產難以直接套用。指令本身成為新的誤解與攻擊面,至少4類風險是傳統安全框架沒處理過的。第一類是指令層的攻擊面。LLM 本身的越獄(jailbreak)與prompt injection攻擊,在接上動作決策點之後會整套傳染到實體世界;語言領域的「胡言亂語」,到VLA場景就成為危險動作。第二類是語義對齊不等於動作對齊(linguistic-action alignment gap);預訓練的安全對齊主要發生在語言輸出層,動作空間沒有經過同等強度的對齊;同一個危險指令,語言層可能拒絕回應,動作層卻不受這道防線約束。第三類是物件安全盲點。當指令是「把桌上的東西收走」,模型不會自動區分刀具、藥瓶、熱飲與一般雜物。第四類是自損與環境碰撞。忽視自身硬體限制與場域結構,產生魯莽動作與反覆碰撞,既損壞機器人也威脅週邊人員。更根本的限制是開放世界的長尾。訓練資料不可能涵蓋所有場景,模型對「角落情境」(corner cases)的行為難以預測。這個問題在自駕車已反覆驗證,15年里程累積仍不足以壓平長尾;而服務型機器人的場景空間只會更發散,道路有車道線可循,商場走道、醫院走廊、倉儲區交叉口卻沒有同等清晰的邊界。傳統安全方案多仰賴控制障礙函數(Control Barrier Function;CBF)這類實體濾波器,如同為機器人設下一層「電子圍籬」,在數學上保證其不進入物理禁區。這套方法在低自由度系統有效,但面對高自由度機械臂、或在複雜場域運作的移動機器人時,狀態空間會指數成長。更根本的是,它也處理不了「指令本身就危險」這類不在實體空間發生的風險。實體濾波器只看機器人自身的狀態空間,不問它正在互動的物件是什麼。CBF可以保證機械臂的關節角度不超出安全範圍、末端執行器不撞到牆,但它不知道夾爪握著的是水瓶還是藥瓶。填補這個空缺的新興方向,是把物件的情境危險性納入規劃。已經有研究團隊讓模型在生成動作序列時,把「這個瓶子裡是藥」、「這個容器裡是熱飲」、「這把工具是尖銳的」一併納入考量,在餐飲、醫院、倉儲等場景特別關鍵。近年學界也從2個方向補上指令層的缺口。一個方向是執行前的判斷:當機器人偵測到指令超出自身能力,或在語義上有潛在危害時,應主動棄權(abstain)而非硬做。另一個方向是執行中的監控:在模仿學習(Imitation Learning)策略運作時,用另一個輕量模型即時評估策略輸出是否異常,一旦偏離就觸發人工接管或安全模式。我們最近的兩個研究(VLN-NF與AED)對應的就是這兩件事:執行前的「要不要做」,與執行中的「做錯了要怎麼儘早發現」。把實體濾波器與語義層的行為守護者並置,是目前能實際部署的務實組合。真正決定 VLA 機器人能否走出demo、進入大規模部署的,其實不是「永遠不出錯」,而是「出錯之後能救回來」。這個觀念在安全工程裡有個說法叫Safety II:重點從「避免失效」轉向「維持韌性」。自駕車產業花了多年才建立「最小風險操作」(minimal risk maneuver)的觀念:當系統無法繼續行駛時,車輛要能自主進入安全停等狀態——例如平順減速、打方向燈、靠邊停車,而不是直接把方向盤拋回給駕駛。這件事在規範上看似直觀,在工程上卻極為困難:需要另一套獨立於主自駕系統的冗余去判斷「何時我已經不該繼續」,並在有限時間內完成安全退場。服務型機器人可能會有類似路徑,但場景更複雜。工廠可以急停,商業場域不行——餐廳送餐機器人在用餐高峰停在走道中央,擋住的是出餐動線與服務生通道;醫院物流機器人若在走廊中央斷電,擋住的可能是緊急推床;倉儲AMR若在交叉口卡住,後面可能有一整列後續車輛與作業人員。這些場景都沒有「路肩」這種已被定義好的安全區可以退守,恢復行為本身就必須是一個具備情境判斷的決策,而不是一個預設動作。傳統的恢復機制是寫死的規則:抓失敗就重試、路徑不通就後退。但VLA的動作空間遠比工業機器人複雜,規則式恢復很快碰到上限。新一代的研究方向,例如牛津大學(Oxford)團隊2026年提出的CycleVLA,讓機器人具備「子任務回溯與重新採樣」的能力:偵測到異常狀態時,退回上一個合理子任務重新生成動作序列,而不是在當前已經失敗的軌跡上一路錯下去。這條路線把恢復從「固定流程」變成「動態決策」。技術之外,另一個正在快速逼近的議題是標準與認證。工業機器人(ISO 10218於2025年大改版)、倉儲移動機器人(ISO 3691-4、北美ANSI/RIA R15.08)、服務機器人(UL 3300於2025年獲OSHA認可)3條軌道各自在不同成熟度;EU AI Act與EU Machinery Regulation 2023/1230(2027年1月生效)則已把自主機器人列為高風險系統,要求風險管理、可解釋性與即時監督介面。但VLA這類具備語言理解與自主決策能力的系統,目前沒有任何一套標準完整覆蓋。設計上除了優化能力,也必須對齊安全與合規,這已是能否回應RFQ/RFI的基本門檻。VLA機器人的競爭力,未來幾年不會在於誰的動作最快、誰的模型最大,而在於誰的系統在面對未知環境與突發錯誤時,能同時展現出多層安全能力:實體濾波器守住空間邊界,物件安全約束判斷互動對象的情境危險性,語義守護者決定要不要做,韌性恢復決定做壞了還能否回到正軌。這些AI層的能力都運行在硬體層的傳統安全primitives(獨立MCU、扭矩限制、機械e-stop)之上;硬體地基仍然必要,但新一代的安全能力都落在AI層。四層缺一不可,而每一層都還有明顯的技術推進空間。這也說明安全不是機器人上市前的選配功能,而是整個系統設計的地基。對準備切入這個產業的團隊而言,智慧安全防護做得多深、多早,很可能決定產品能走多遠。
2026-04-28
機器人訓練資料從哪裡來?
太平洋兩岸的機器人新創與頂尖實驗室,這一年來在一件事上達成共識:模型架構不再是唯一焦點,資料成為競爭的核心資源。不論技術路線如何演變,多數團隊最終都會遇到同一個瓶頸——機器人行動「訓練資料」的規模嚴重不足。大語言模型的成功,建立在數十兆個從網路爬取的文字資料上;機器人需要的是機器人在真實物理環境中的動作序列、感測器數值與任務標註。研究估算,目前主流機器人訓練資料集的規模,比語言模型少了3個數量級以上。2025年底,Physical Intelligence的π₀在少量示範後的自主執行中,於數分鐘內完成疊衣任務;NVIDIA 的GR00T N1.6在同一個模型框架下可以同時操控7種不同機械手臂。這類進展的背後,架構設計看似重要,但資料規模才是關鍵。資料缺口,是機器人基礎模型能否真正大規模實際部署的天花板。面對這個落差,學術與產業界正從4個方向同時突破資料障礙:遙控示範、模擬器、網路影片、穿戴設備。4條路線各具特色,可以互相配搭。遙控示範(teleoperation)是目前高品質資料的主要來源。操作人員透過 VR 頭盔或主從控制臂等遠端介面操控機器人,系統同步記錄動作序列與感測器數據:資料真實,實體互動完整,動作標註精確。openVLA的訓練基礎就是採用97萬筆這類示範資料。近來也出現更輕量的工具,史丹福大學(Stanford) 團隊開發的 UMI(Universal Manipulation Interface)以手持夾爪裝置,內建魚眼鏡頭與慣性感測器,操作人員在任意場景示範即可錄製,大幅降低收集門檻。問題在於規模:每筆資料仍需人力投入,以中國各地的機器人訓練中心為例,工作人員每天重複數百次開關微波爐、疊衣服,擴張速度終究受制於人力極限。模擬器(simulator)提供的是另一個極端:近乎無限的資料量、幾乎零邊際成本、可精確控制場景參數。從商業平台到MuJoCo、Genesis等開源工具,各樣投入都在朝高逼真物理模擬推進。但核心難題不在畫面是否逼真,而在接觸力學(contact dynamics):兩物體碰觸瞬間的摩擦力、形變與反作用力,即使模型極度精細,轉移到真實機器人後仍常出現誤差。布料、電線、食材等柔性物體尤為困難,傳統剛體模擬難以精確處理。面對sim-to-real gap,目前嘗試2條路線:一是「域隨機化」(domain randomization),刻意擾動光影、質感、摩擦係數,讓模型學會不依賴特定環境特徵;二是 NVIDIA 的Cosmos世界基礎模型,以大量真實影像學習物理直覺,讓神經網路本身充當更逼真的模擬器。2條路都有進展,但讓模擬器成為可靠的免費資料工廠,仍有一段距離。網路影片是規模最大、卻最難直接使用的來源。YouTube上海量人類執行日常任務的影像,蘊含豐富的物件互動與動作語義,但影片裡看不到力道、關節角度與夾爪狀態,也沒有任何動作標註,且人手與機器人末端執行器存在根本的形態差異(embodiment gap)。Meta的Ego4D等大規模第一視角人類行為資料集,是目前這個方向最具代表性的嘗試。跨具身學習(cross-embodiment learning)是跨越這道障礙的主要技術路線:透過匯集來自不同機器人平台與人類示範的資料聯合訓練,讓模型學到不依賴特定硬體形態的通用動作表示;我們近期的研究也證實,這是一個有效的策略。具身智慧(Physical Intelligence)最新研究進一步顯示:當跨具身預訓練規模足夠大,「人類影片遷移到機器人動作」的能力會自然出現,不需要複雜的動作轉換層,意味著網路影片的可用性比原本預期的更高。穿戴設備(wearable devices)是最近快速發展的路線。輕量外骨骼或動作捕捉裝置讓操作人員在自然場景中活動,同步記錄全身動作與環境互動,再轉換為機器人可學習的格式。NuExo、HumanoidExo已能在戶外場景收集全上肢動作資料,場景多樣,資料自然,操作者的活動自由度也遠高於固定工作站的遙控示範。難點在於「動作轉換」(motion retargeting):人體關節結構與機器人機械結構不完全對應,需要精密幾何映射,且轉換品質因平台而異。綜合目前領先團隊的做法,目前正在收斂出一個「兩段式」資料架構,邏輯上與LLM的預訓練/微調高度相似。第一階段是大規模、多元的預訓練,以網路影片、合成模擬資料為基礎,讓模型建立視覺語義與通用動作直覺;第二階段是少量、高品質的微調,以遙控示範或穿戴設備錄下的真實機器人資料,將能力實際部署到特定任務與平台。各家在這個資料策略的分歧,集中在對模擬器的信任程度。NVIDIA的GR00T N1是「重模擬」策略的代表:訓練資料呈3層金字塔,底層是網路影片與人類動作影像,中層是Isaac平台與Cosmos模型生成的合成軌跡,頂層才是真實遙控示範資料。NVIDIA曾在11小時內生成78萬條合成軌跡,相當於6,500小時人工示範;加入合成資料後,模型表現比純真實資料提升40%,是其力推模擬路線的具體依據。相對地,許多新創——尤其是中國團隊——對sim-to-real持保留態度。在精細操作上,模擬器的接觸力學與真實世界仍有落差,與其花工程資源橋接誤差,不如直接擴大真實資料的收集規模。具身智慧的 π₀以橫跨7種機器人平台、68項任務、超過1萬小時的遙控示範資料進行跨具身預訓練,針對新任務微調僅需1至20小時。Generalist AI的GEN-0則更為徹底,完全不用模擬,以27萬小時的純真機互動資料訓練,每週持續新增逾萬小時。這幾條路線背後有一個共同的結構:遙控示範與穿戴設備錄下的資料,目前主要扮演「微調材料」而非「訓練主體」的角色,提供的是最後那10%讓模型真正能用的能力,而非語義理解的來源。這個分工,正在促使各條路線重新定位自己的核心競爭力:模擬器拚的是物理引擎真實度,網路影片拚的是動作標註技術,遙控示範拚的是針對特定任務的示範品質。投資機構(如Merrill Lynch)預估2025年全球人形機器人出貨量約1.8萬台,是2024年的7倍;協作型機械手臂、自主移動機器人(AMR)等更成熟的平台部署規模更大,也都在加速整合新一代AI模型。電動車廠與第三方物流業者已在工廠與物流中心商業運轉。資料積累與部署量之間的正向循環已開始運作:部署量愈大,場域資料愈多;資料愈多,模型泛化愈強;模型愈強,部署門檻愈低。真正的競爭優勢,在於誰能以最符合成本的方式取得有效資料、在實際場域中持續迭代,進而建立起真正的資料護城河(moat)。
2026-04-24
智慧機器人如何學動作技能?
煎蛋翻面不到2秒,但每一步都是連續的感測判斷與力道決策;塗果醬、擺餐盤同樣如此。這類「低階技能」(atomic skill)的難點不在於執行固定軌跡,而在於複雜環境正確執行。前一篇討論的VLA架構解決的是(高階)任務規劃,本文要回答的是更深入的問題:機器人怎麼把每一個(低階)基本動作做好?傳統工廠機器人的動作,是不同性質的事。抓取、插件、焊接、鎖螺絲,關鍵字是「重複性」與「受控條件」:同一款零件在同一個位置,同樣的夾爪、同樣的軌跡、同樣的速度,不需要處理複雜變動環境。這類動作可以用固定程式精確執行,但容錯空間極低,環境稍有偏差就失效。過去教導機器手臂的主流方式,叫「示教法」(teach-and-playback):操作員透過示教器(teach pendant)將手臂逐點移至目標位置、記錄各路徑點的關節角度,再讓機器人依序重放。環境固定的場景至今仍適用,但示教法本身沒有感測(甚至推理)能力——它只知道「下一個路徑點在哪裡」,換了零件或場景就要重新示教,遇到變動情境也無從判斷。從「執行固定軌跡」到「應對多變場景」,需要從根本上換一種動作學習邏輯。目前學界與業界收斂出2條主軸:強化學習(Reinforcement Learning;RL)與模仿學習(Imitation Learning;IL)。強化學習(RL)的基本邏輯是「從嘗試中學習」。機器人不看示範,自行在環境中試探;每次行動之後,根據結果的好壞(「獎勵信號」)調整策略,慢慢摸索出完成任務的方法。理論上,只要定義好成功標準(比如「蛋翻面後完整不破」),機器人甚至可能摸索出人類沒想到的解法。但是,RL在實體機器人上有一個根本缺陷:它需要大量的試誤次數才能收斂,而每一次試誤在真實機器人上都消耗時間,且有損壞設備的風險。在模擬器裡可以讓機器人不眠不休地失敗幾百萬次;搬到真實機器人上,同樣的學習量可能需要幾年。這就是為什麼 RL 在機器人領域目前主要的定位,是在模擬環境中預訓練,而非從頭在實體上學習。模仿學習(IL)走的是另一條路:讓機器人觀察人類示範,從中學習,而非從零試誤。在理解模仿學習之前,有一個基礎概念值得先釐清:「策略」(policy)。策略是機器人的決策核心:給定當下的感測狀態(攝影機畫面、關節角度、觸覺數值),輸出下一步應該執行的動作。訓練機器人動作的本質,就是在訓練一個好的策略。最直覺的模仿學習方式叫行為複製(behavioral cloning):把人類示範的「狀態與對應動作」當作訓練資料,用監督式學習訓練策略。簡單,但有一個根本弱點:示範都是「做對了」的過程,機器人從未學過「偏掉了該怎麼辦」。執行時只要出現細微偏差,後續每一步的判斷都可能進一步出錯,誤差層層累積。任務愈長、步驟越多,這個問題愈致命。目前解決這個問題最具代表性的方向是「擴散策略」(Diffusion Policy)。它的技術來自於這幾年大家熟悉的(影像)生成式 AI,背後用的就是擴散模型:從隨機雜訊出發,經過多輪降噪處理,逐漸收斂出高品質影像。研究人員把同樣的架構搬進機器人控制,把輸出從畫素值換成連續的動作序列。傳統行為複製傾向輸出「平均解」,遇到同一任務有多種合理做法時往往哪邊都不對。擴散策略換了角度:不輸出單一動作,而是學習「給定當下狀態,合理動作的機率分布」,再從這個分布中採樣。降噪過程同時生成接下來若干步的完整動作序列,讓機器人不必每一步重新決策,動作因此更穩定、流暢。在相對少量的示範資料條件下,Diffusion Policy就能讓機器手臂完成需要精細力道控制的操作任務,是目前資料效率與效果兼顧最好的方法之一。更新的策略學習方向是「流匹配」(Flow Matching)。概念更直觀:與其從雜訊出發反覆降噪,不如直接學習從雜訊到目標動作的最短路徑,推論步驟因此大幅減少,速度更快、訓練也更穩定。目前已有機器人基礎模型採用此架構,在學界與業界逐漸受到重視。2條路線各有天花板。RL的試誤成本在實體機器人上難以接受,目前主要在模擬環境中預訓練,而非直接在實體上學習。IL的效果上限受制於示範資料的品質,示範者沒做過的,機器人就不會。實務上兩者通常搭配使用:模仿學習建立初始策略,強化學習在模擬環境中補足長尾情境。但不論哪條路,核心限制都指向同一件事:訓練資料。這也是太平洋兩岸的領先機器人研究團隊們已有的共識。示範資料從哪來、如何在可接受的成本下大規模取得,已經成為這場競賽真正的核心問題——這也是下一篇要探討的主題。
2026-04-15
VLA(Vision-Language-Action)機器人的新智慧引擎
大型語言模型(LLM)問答能力超強,讓人自然產生一個直覺:把LLM接上機器人,使用語言下指令,機器人是不是就有智慧行動力?直覺沒錯,但中間有幾個結構性的缺口,填補這些缺口的解法,就是目前崛起的機器人AI新引擎:VLA(Vision-Language-Action)模型。LLM面對機器人控制有2道缺口。第一,輸出格式不對:語言模型產生的是文字,不是機器手臂可以執行的動作指令。Google 2022年的SayCan研究把這個問題稱為grounding gap:一個模型可以生成「拿起桌上的水瓶,放到椅子旁邊」這樣的規劃,但這串文字如何轉換成3D空間的關節運動向量?語言敘事與實際執行之間,需要一個明確的橋接機制。第二,LLM的動作理解能力本身有結構性的弱點。史丹佛大學(Stanford)團隊在NeurIPS 2024的研究中把機器人決策能力拆成4個分項分別評測,發現LLM在「連續動作規劃」這項表現最弱——而這正好是機器人控制最不能缺少的能力。這不是prompt寫得不好的問題,而是語言模型在訓練目標上本來就不是為了預測實體世界的狀態變化而設計的。VLA的架構設計,就是為了跨越這兩道缺口。Google DeepMind 2023年發表的RT-2,是目前被引用最多的VLA系統之一。它的思路是:把視覺語言大模型(VLM)作為感知與理解的主幹,再接上一個action head:專門負責把模型的決策輸出轉換成連續的動作向量。這個架構讓系統能夠同時處理視覺畫面與語言指令,輸出的不是文字,而是實際的關節角度與末端執行器的移動指令。更重要的是,VLM在網路規模的視覺與語言資料上預訓練所獲得的泛化能力(常識),在一定程度上能遷移到機器人操作的新場景上,這是過去單一任務單一模型的架構做不到的(多工能力)。開源生態也已跟上。openVLA展示同一個模型框架可以控制多種不同機械手臂;Physical Intelligence的π₀則用超過1萬小時的跨平台遙控示範資料預訓練,可以讓新任務的微調降到1至20小時。大語言模型「泛化」的概念開始有了工程上的實證。然而,把一個大型VLM直接接上action head、整合成單一模型的做法,有一個結構性的矛盾:VLM跑得慢(加上推理工作速度會更慢),精細控制需要跑得快。兩者要處理的問題性質根本不同、運作速度也不在同一個層次。知道怎麼做,和有能力把它做好,是兩件性質不同的事。大腦可以清楚規劃「拿起零件、對準位置、輕放入槽」,但每個步驟的實際執行,依靠的是另一套機制——精準的肌肉控制與即時的力道感知。機器人系統面對同樣的分工問題,這推動學界與業界共同往分層架構的方向走:把「知道怎麼做」與「有技能去完成」拆成兩個系統。System 2(高階)是VLM,負責語意層次的理解與任務規劃;System 1(低階)是輕量化的動作生成模型,負責把規劃轉換成連續、精確的關節動作,兩者運作頻率完全不同。NVIDIA於2024年發布的GR00T N1是目前最具代表性的公開實作——2個模組在模擬平台上聯合訓練,讓System 1能以120Hz的頻率控制機器人,也就是每秒更新120次動作,這是確保精細操作穩定的基本要求。但即便架構方向漸清,3個瓶頸依然尚待突破。資料是最根本的限制。語言模型的訓練資料來自網路,規模以兆計;機器人的示範資料需要人工遙控示範逐筆收集,目前最大規模的資料集也只有幾萬小時等級,差距懸殊。模擬器能協助,但sim-to-real gap持續存在——模擬器在接觸力、材質摩擦上的真實度仍有落差,在模擬環境訓練出的策略,移到真實場景常出現非預期失誤。此外,真實場域中各種難以預料的邊緣情境也是挑戰之一。靈巧操作(dexterous manipulation)不只是模型問題。毫米級精度的組裝、軟性材料的抓取,需要即時觸覺回饋,而觸覺感測器的成本與可靠度仍是工程上未解的題目。這個缺口靠擴大資料規模無法完全解決,感測器與機械結構的進化同樣必要。長時序任務(long-horizon planning)則是VLA目前最難迴避的限制。各樣任務往往需要多個步驟依序完成,每個步驟的執行結果都影響下一步判斷,誤差一旦累積,之後很難修正。我們近期的研究也發現,現有模型在規劃時往往專注在指令執行,卻未評估目標物件在當下是否可被操作(比如微波爐髒了)——環境一旦出現未預期的狀態變化,整個任務就在執行中途失效。分層架構讓System 2承擔規劃責任,方向正確;但VLM的長時序規劃能力能否支撐真實情境任務,目前還沒找到系統性的方案。VLA確立語言、視覺、動作整合的架構方向,分層設計進一步回答「如何同時跑得快又想得深」這個問題。靈巧操作、長時序規劃、訓練資料這三道缺口尚待突破,但過去2年的技術演進速度已經說明,這些問題被解決只是時間問題。真正值得追問的下一個問題是:VLA讓機器人有高階思考能力之後,機器人怎麼把每一個基本動作學好?這才是整個系統能否真正部署的關鍵基礎。
2026-04-14
智慧應用 影音