智慧應用 影音
MongoDB
member

智慧駕駛產品開發?先解決資料問題(上)

各國的天候、地貌、道路規劃、號誌規則大不相同,數據難以通用。

先進駕駛輔助系統(ADAS)或是未來大家期盼的全自駕(兩者統稱為「智慧駕駛」),都是接下來新興造車產業關鍵性的產品,DIGITIMES的研究也顯示相關產品如感應器、鏡頭、線材、MCU、AI晶片、軟體、服務等的營業額以及成長性都相當可觀。

智慧駕駛技術一般區分為4個技術模組:感知,理解環境重要的物件、移動方向、速度、行駛路徑等;預測,掌握週邊物件的未來移動軌跡;規劃,決定短時間前進的最佳路徑;控制,直接控制油門、煞車、方向盤等。

訓練(及測試)資料在智慧駕駛中具關鍵的角色,而且眾多研究顯示,量級多寡與正確率以及穩定度相關。資料除了用來訓練「感知模組」(一般以視覺為主、雷達為輔)所需的標註外,同時也是「驗證及確認」(verification and validation;V&V)程序中關鍵的元素; V&V用來確保智慧駕駛產品功能安全,其同時也需要大量駕駛場景(scenarios)。而這些感知、V&V資料的取得,耗費人力與時間成本相當高,而且深具挑戰。

智慧駕駛3D資料的標註耗時費力。在智慧駕駛的感知、路徑預測、以及規劃當中,需掌握物件在空間(立體)環境中的精確位置,所以必須標定空間中的長寬高以及中心點。一般3D的標註工具不方便使用,研究指出,3D資料的人工標註更加耗時,所需的時間為2D資料標註的2~16倍。

跨區的資料使用也有其限制。能否將甲地的資料使用在乙地?比如在歐洲收集以及標註的資料使用在美國?研究顯示有其侷限性。幾個原因,各區域的物件種類、分布不同,如美國的皮卡、台灣的機車,遠高於其他地區;另外,經過幾個資料集分析,一般美國車的大小高於歐洲車。當然可以想見天候、地貌、道路規劃、號誌規則也大不相同。此外各地的駕駛習慣也有想當大的差異:車輛密度、以及路況的反應,例如遇到前側方打方向燈時,各地區的駕駛反應大不相同。

建構3D動畫,模擬生成的資料存在應用領域差異的問題。既然收集標註不易,那就使用3D動畫生成路況,直接掌握各個物件、環境參數。但是真實場景的生成程序繁瑣,通常產生的路段、場景有限,不具多樣性。另一個更具挑戰的是Sim2Real的障礙:模擬場景(simulation;sim)所訓練出的AI演算法,在真實環境中(Real)同樣會因跨域(cross-domain)的問題而大打折扣,因兩方的光影、材質、線條風格等差異頗大,3D動畫很難成為主流資料。

特殊物件以及場景的稀少性是另一個挑戰。比如各地都有造型特殊的交通工具,可能在訓練資料中未曾出現,在辨識當下常被忽略,比如一台倒在路面只看到白色車廂頂的貨車、特殊造型工程車等。更多的是各種少量的駕駛邊角場景,一般難以收集,例如臨時封街辦流水席、深夜一頭牛衝上高速公路等。少量邊角案例常造成智慧駕駛的安全事故,並已有多起案例發生。

資料取得成本高,那可以考慮少量樣本技術(few-shot learning)嗎?這些技術一般針對資料取得不易的醫學或是工業應用,而且預期會在類似的工作中轉換。相關技術對於精度以及穩定度標準高的車輛感知與控制,一般不會採用。

看到這麼多資料取得的挑戰,難道就限制智慧駕駛技術的發展?無法商品化?當然不是。除了耗時、投入大量資金採用全人工標註之外,在工程以及學術上,已經證實有些方法可以大大降低資料標註的成本,後續的文章,我們再繼續探討可能採用的資料策略。

徐宏民(Winston Hsu)現任富智捷(MobileDrive)技術長暨副總經理以及台大資訊工程學系教授。哥倫比亞大學電機博士,專精於機器學習、大規模影像視訊搜尋與辨識。為訊連科技研發團隊創始成員,慧景科技(thingnario)共同創辦人,NVIDIA AI Lab計畫主持人;曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會;十餘年產學合作及新創經驗。曾獲2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018偽裝人臉辨識冠軍、傑出資訊人才獎、吳大猷先生紀念獎等國內外研究獎項。