智慧應用 影音
MongoDB
ST Microsite

軟體吃掉硬體的自駕技術

自駕技術幾個重要模組:感知、預測、以及規劃等都需要龐大的訓練資料。Lyft

隨著自駕技術的發展,許多的團隊把技術的眼光專注在可擴展性(scalability)上,希望將技術轉換為自駕產品時,能具有合理成本,如硬體穩定度高、價格可以被市場接受、在可見的時間內獲利,以及能以低人力或時間成本,轉移到不一樣的場域或國家。如為無人計程車(robotaxi)開發的自駕技術可以使用在個人自駕車,或是在舊金山通行的自駕能力,也可以無痛在台北使用。

可擴展性確保所開發的技術不是在封閉場域內的概念展示,而是扎扎實實的成為被大眾使用的商品。這當然是非常大的挑戰,特別是自駕技術四大模組中的「感知」與「預測」,如何穩定的調適在不同的場域中,善用高性價比的硬體。而軟體(智慧技術)在這個面向扮演了關鍵的角色。

為了成本,Tesla首先主張不使用光達(LiDAR),大致可以被接受,因為價格以及長久使用的穩定性還沒解決。最近Tesla甚至主張不使用雷達(Radar),這樣的論調對於產業界或是學界而言,都出乎意料之外,甚至高度懷疑可行性。

最近在頂尖電腦視覺會議CVPR的自駕車論壇上,Tesla深度學習技術負責人Andrej Karpathy說明他們如何善用全視覺的技術,完全揚棄雷達、或是一般業界時常使用的LiDAR。

他們使用了8個鏡頭(解析度1024x768,每秒36幀)擔綱自駕技術最關鍵的感知(理解環境)以及預測(未來變化)訊號源。他們強調這樣的訊息量已非常龐大,而且很自豪的利用深度學習技術來推估非常重要的深度、物件偵測、物件速度等,不需要之前常仰賴的雷達或是其他訊號源了。有趣的是,最近有兩個國際研究團隊也在發表的學術論文中,呼應了類似的想法。

以軟體吃掉硬體,付出的代價是設計特殊龐大的深度學習網路、使用大量訓練資料。8個攝影畫面同時輸入網路運算,利用鏡頭間視角差、時間差的特性推估環境感知,使用類似transformer的網路結構,採用end-to-end、multitasking這些設計策略,讓網路協同完成複雜的工作。

可以想像訓練資料扮演了關鍵的角色,他們採行的策略是:(1)使用大量的訓練資料,(2)乾淨的資料標註:物件、速度、深度、加速度等,(3)多樣性的資料:各種天氣、場景、甚至包含許多不常見的特殊案例。但是這些大量訓練資料不是靠昂貴費時的人工標記,而是利用其他演算法自動標註,以時間來換取資料標註品質,例如使用耗時的物件追蹤技術,這樣的優點是即使是逆光、起霧、下雪時,物件偵測信心度降低,追蹤技術還是可以輔助標註品質。以此方法收集約100萬個10秒長度的訓練樣本,大概佔1.5PB的資料。

為了訓練這個高功能的深度學習網路,他們在公司內部建建制超級電腦,使用將近6,000片GPU(A100)。為了應付龐大的即時駕駛計算,行車電腦包含了12個CPU,1顆GPU(600 GFLOPS,FP32/FP64),2顆NPU,每顆算力36.86 TOPS (int8)。

智慧技術正在轉化汽車產業,甚至是人類的生活方式。當更多智慧技術逐漸落實在交通工具上時,我們考量的計算平台不再只是伺服器、平板、筆記型電腦、手機等。這個世界的技術正在定義新的(移動)技術平台,多少算力、如何計算、感測器如何串聯通訊、記憶體、頻寬、耗能要求等。當然還不到量大的時候,但是「擴展性」已經是技術專注的標的了,我們還可以袖手旁觀嗎?

徐宏民(Winston Hsu)現任富智捷(MobileDrive)技術長暨副總經理以及台大資訊工程學系教授。哥倫比亞大學電機博士,專精於機器學習、大規模影像視訊搜尋與辨識。為訊連科技研發團隊創始成員,慧景科技(thingnario)共同創辦人,NVIDIA AI Lab計畫主持人;曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會;十餘年產學合作及新創經驗。曾獲2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018偽裝人臉辨識冠軍、傑出資訊人才獎、吳大猷先生紀念獎等國內外研究獎項。