VLA(Vision-Language-Action)機器人的新智慧引擎

徐宏民
2026-04-14
AI語音摘要
00:51

大型語言模型(LLM)問答能力超強,讓人自然產生一個直覺:把LLM接上機器人,使用語言下指令,機器人是不是就有智慧行動力?

直覺沒錯,但中間有幾個結構性的缺口,填補這些缺口的解法,就是目前崛起的機器人AI新引擎:VLA(Vision-Language-Action)模型。

LLM面對機器人控制有2道缺口。第一,輸出格式不對:語言模型產生的是文字,不是機器手臂可以執行的動作指令。Google 2022年的SayCan研究把這個問題稱為grounding gap:一個模型可以生成「拿起桌上的水瓶,放到椅子旁邊」這樣的規劃,但這串文字如何轉換成3D空間的關節運動向量?語言敘事與實際執行之間,需要一個明確的橋接機制。

第二,LLM的動作理解能力本身有結構性的弱點。史丹佛大學(Stanford)團隊在NeurIPS 2024的研究中把機器人決策能力拆成4個分項分別評測,發現LLM在「連續動作規劃」這項表現最弱——而這正好是機器人控制最不能缺少的能力。這不是prompt寫得不好的問題,而是語言模型在訓練目標上本來就不是為了預測實體世界的狀態變化而設計的。

VLA的架構設計,就是為了跨越這兩道缺口。

Google DeepMind 2023年發表的RT-2,是目前被引用最多的VLA系統之一。它的思路是:把視覺語言大模型(VLM)作為感知與理解的主幹,再接上一個action head:專門負責把模型的決策輸出轉換成連續的動作向量。這個架構讓系統能夠同時處理視覺畫面與語言指令,輸出的不是文字,而是實際的關節角度與末端執行器的移動指令。更重要的是,VLM在網路規模的視覺與語言資料上預訓練所獲得的泛化能力(常識),在一定程度上能遷移到機器人操作的新場景上,這是過去單一任務單一模型的架構做不到的(多工能力)。

開源生態也已跟上。openVLA展示同一個模型框架可以控制多種不同機械手臂;Physical Intelligence的π₀則用超過1萬小時的跨平台遙控示範資料預訓練,可以讓新任務的微調降到1至20小時。大語言模型「泛化」的概念開始有了工程上的實證。

然而,把一個大型VLM直接接上action head、整合成單一模型的做法,有一個結構性的矛盾:VLM跑得慢(加上推理工作速度會更慢),精細控制需要跑得快。兩者要處理的問題性質根本不同、運作速度也不在同一個層次。

知道怎麼做,和有能力把它做好,是兩件性質不同的事。大腦可以清楚規劃「拿起零件、對準位置、輕放入槽」,但每個步驟的實際執行,依靠的是另一套機制——精準的肌肉控制與即時的力道感知。機器人系統面對同樣的分工問題,這推動學界與業界共同往分層架構的方向走:把「知道怎麼做」與「有技能去完成」拆成兩個系統。

System 2(高階)是VLM,負責語意層次的理解與任務規劃;System 1(低階)是輕量化的動作生成模型,負責把規劃轉換成連續、精確的關節動作,兩者運作頻率完全不同。NVIDIA於2024年發布的GR00T N1是目前最具代表性的公開實作——2個模組在模擬平台上聯合訓練,讓System 1能以120Hz的頻率控制機器人,也就是每秒更新120次動作,這是確保精細操作穩定的基本要求。

但即便架構方向漸清,3個瓶頸依然尚待突破。

資料是最根本的限制。語言模型的訓練資料來自網路,規模以兆計;機器人的示範資料需要人工遙控示範逐筆收集,目前最大規模的資料集也只有幾萬小時等級,差距懸殊。模擬器能協助,但sim-to-real gap持續存在——模擬器在接觸力、材質摩擦上的真實度仍有落差,在模擬環境訓練出的策略,移到真實場景常出現非預期失誤。此外,真實場域中各種難以預料的邊緣情境也是挑戰之一。

靈巧操作(dexterous manipulation)不只是模型問題。毫米級精度的組裝、軟性材料的抓取,需要即時觸覺回饋,而觸覺感測器的成本與可靠度仍是工程上未解的題目。這個缺口靠擴大資料規模無法完全解決,感測器與機械結構的進化同樣必要。

長時序任務(long-horizon planning)則是VLA目前最難迴避的限制。各樣任務往往需要多個步驟依序完成,每個步驟的執行結果都影響下一步判斷,誤差一旦累積,之後很難修正。我們近期的研究也發現,現有模型在規劃時往往專注在指令執行,卻未評估目標物件在當下是否可被操作(比如微波爐髒了)——環境一旦出現未預期的狀態變化,整個任務就在執行中途失效。分層架構讓System 2承擔規劃責任,方向正確;但VLM的長時序規劃能力能否支撐真實情境任務,目前還沒找到系統性的方案。

VLA確立語言、視覺、動作整合的架構方向,分層設計進一步回答「如何同時跑得快又想得深」這個問題。靈巧操作、長時序規劃、訓練資料這三道缺口尚待突破,但過去2年的技術演進速度已經說明,這些問題被解決只是時間問題。真正值得追問的下一個問題是:VLA讓機器人有高階思考能力之後,機器人怎麼把每一個基本動作學好?這才是整個系統能否真正部署的關鍵基礎。

現任國立台灣大學資訊工程學系教授,曾任富智捷(MobileDrive)技術長暨副總經理,推動ADAS及智慧座艙系統產品進入全球車用市場。紐約哥倫比亞大學電機博士,專精於機器學習、電腦視覺、自駕車、機器人等領域。為訊連科技研發團隊創始成員,慧景科技(thingnario)共同創辦人,NVIDIA AI Lab計畫主持人;曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會,擔任多家科技公司AI策略顧問。
智慧應用 影音