降低自駕技術資料成本

徐宏民
2021-07-20
分享
Line

3D點雲資料十分難標註，不管是室內(如結構光)或是室外(LiDAR)等。徐宏民提供

前面的文章提到Tesla之所以能拋棄雷達(Radar)或是光達(LiDAR)而使用全視覺的技術，其中一個要素是使用大量的訓練質料來提升「感知」以及「預測」能力。另一個自駕團隊Lyft Level 5近期研究也發現足夠的訓練資料可以大大提升自駕品質：在預測的工作上如果訓練資料由10小時提升為1,000小時，每1,000英里自駕出錯機率會降為11分之1。訓練資料在自駕上扮演了關鍵的角色，特別是目前的演算法都採用了以深度學習為基礎的架構。

更新了自駕智慧模型設計後，如何評估效能？最直覺的方式就是開車子上路測試。但是這樣的方式很不符合經濟效益，測試的時間冗長、風險太高、而且中間出錯的狀況很難複製追蹤。所以目前大多使用行車紀錄或是(3D)行車模擬器，作為訓練或是測試資料(場景)，而且大部分都是混合搭配。

錄製的行車資料，可以利用模仿學習(imitation learning)的方式，讓自駕系統學習人類的駕車方式，一般可以達到不錯的結果，但是在某些特殊案例，時常出現不可預測的反應。Waymo團隊發現，原因是這些長時間收錄的駕駛資料，都是符合法規的安全駕駛，沒有意外、違規等負樣本。解法是可以使用資料擴增的方式產生某些負樣本(例如讓車輛闖紅燈、撞上前車、偏離車道等)，來協助訓練效果。

訓練自駕技術不僅需錄製的大量原始訊號，還需標註這些物件的3D位置、方向、速度等。而這些標註的取得十分昂貴，我們的經驗是3D資料(如點雲)並不是容易觀看的資料形式，時常得在多個視角切換，費時費力。

為降低時間以及人力成本，自動資料標註是很多團隊正在努力的方向。Tesla日前宣稱採用了龐大的自動標註訓練資料，Waymo團隊最近發表Auto Labeling技術，也呼應了Tesla的看法。因為資料標註不需要即時性，可以在後端利用較複雜的演算法(如物件追蹤)，並統合多個時間點對同一個物件的感測，改進自動標註的正確性。實驗顯示，多時間的標註遠高於目前最好的3D物件偵測技術；更有意思的是，提出的自動標註技術與人工的品質相當。自動標註的潛力應該還有更大的發揮空間。

按照過往資料擴增的策略，我們可以生成更多的自駕訓練資料，一般是透過：(1)資料編修、(2)內容轉換、以及(3)新資料生成。編修既有的場景，加上需要的物件(事件)，如加入一輛闖紅燈的跑車，或是逆向行駛的貨車，模擬對意外的應變能力。但是加入的物件必須與場景完全融合，光線、大小、甚至遮蔽等必須合乎自然，可以想像有非常多的面向必須考量。利用耗時的人工編修，當然可以達到目的，但不是具有擴充性的做法，最近Uber UTG團隊所提出的GeoSim，由深度學習技術自動編修，開啟更多的可能性。

同樣的也可以採用風格轉換的方式將白天轉換為黃昏、陰天，或是不同的季節，相關技術這幾年都有很多討論實做。在交通資料生成的方面，可以參考既有的交通流量，生成更多的訓練資料，不只是生成交通物件移動向量(如SimNet)，甚至是自駕場景等都有所嘗試(如DriveGAN)，也看到這些研究在降低自駕訓練以及測試成本所帶來的機會。

就模擬軟體而言，CLARA或是類似的模擬平台都是許多開發團隊所使用的，3D模擬軟體方便安置各樣的物件，或是模擬車上的感知元件，方便使用，但是場景有限，資料的多樣性是最大的限制。模擬平台又有sim2real，由模擬環境跨到真實領域的問題，目前不管在機械手臂、自駕車、或是電腦視覺的研究中，針對這樣的問題，都有許多跨領域學習調適(cross-domain learning)的方式可以著力。

自駕技術的演進，已經跨過技術概念展示的階段。所有頂尖團隊目前專注的都是如何將這些技術，以具有擴展性的方式，落地為未來可以獲利的產品。也代表者智慧車輛(甚至是智慧城市)變革不再只是實驗室內的討論，而即將逐一在產業發酵，帶來軟硬體的變革。在新產業驅動的同時，我們要扮演怎樣的角色，其實還是有選擇的機會，但也時間不多了。

徐宏民
台大資工系教授

徐宏民(Winston Hsu)現任富智捷(MobileDrive)技術長暨副總經理以及台大資訊工程學系教授。哥倫比亞大學電機博士，專精於機器學習、大規模影像視訊搜尋與辨識。為訊連科技研發團隊創始成員，慧景科技(thingnario)共同創辦人，NVIDIA AI Lab計畫主持人；曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會；十餘年產學合作及新創經驗。曾獲2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018偽裝人臉辨識冠軍、傑出資訊人才獎、吳大猷先生紀念獎等國內外研究獎項。