LiDAR車輛智慧偵測

徐宏民
2019-11-19
分享
Line

LiDAR雖然價位高，但未來很有可能成為車輛的必備感測器。法新社

3D(立體)視覺計算的目的是利用3D感測器所拍攝的資訊，來偵測物件或是辨識應用場景。因自駕車或是ADAS的商機，能精確掌握人、車、障礙物位置、方向、速度等技術，就成為學研以及產業關切的方向。LiDAR雖然價格不斐，但仍為目前車輛中最受矚目的3D感測器，因其利用雷射光的飛行時間來偵測環境，所以可以測得更遠距離。

3D視覺計算的突破，在於發現適合點雲(point cloud)的系列算法，直接在眾多的點雲中計算。LiDAR點雲中，每個點都有空間中3D位置資訊(雷射光遇物件反射位置)，甚至物體表面的反射量(金屬表面反射量較高)。近來LiDAR點雲偵測研究相當活躍，大致可分為「投影法」及「點雲法」兩大類。

「投影法」將上萬個3D點雲投影到2D平面上，接著利用2D上發展成熟的物件偵測技術，將人、車等標示出。這依舊是相當挑戰的工作，和傳統影像不同，投影之後的平面圖為非常稀疏的點狀資訊，並非清楚顯現車輛、行人的全貌。一般投影到兩個常用視角的2D平面：鳥瞰圖以及水平平面圖。前者由車輛上方鳥瞰周遭來偵測物件，後者由車輛四周的2D視角來偵測物件。當然這些不同視角偵測的資訊會再結合(利用3D座標轉換)做最後的判斷，傳統RGB攝影機也是偵測融合的來源之一。在這範疇，MV3D算是最具代表性。

在「點雲法」中，則是直接使用點雲的豐富3D幾何資訊來偵測物件。總體來看，對點雲有兩種使用方式，例如將區域內的點雲作為確認是否為特殊物件以及物件姿態的依據。首先由2D RGB攝影機大概偵測出可能的物件，在回推這些物件在空間中的位置，接著對小範圍內的點雲進行運算，用以確認可能的物件種類以及物件的精確姿態。Frustum PointNet為此類代表。

另外延續之前提過的立體畫素(voxel)作法將車輛行進空間切割為固定大小的立體方格，接著利用類似PointNet的算法取出每個voxel內的點雲特徵值，試著描述點雲在voxel內的排列方式，接著修改傳統2D的物件偵測方式在立體空間中進行偵測，VoxelNet為在這領域的經典演算法。可以想像利用大量的voxel來表示行車空間，再加上每個voxel上的高維點雲特徵值，運算量大幅增加，所以也有不少加速計算的延伸工作，利用點雲稀疏的特性而進行加速。

我們團隊的研究也發現這些現行的方法還是避免不了幾個關鍵挑戰。例如點雲資料分布相當不平均，靠近LiDAR的車輛點雲個數遠大於遠處的；還有不同方向車輛角度的問題，行人的點雲個數較少，甚至是不同LiDAR訊號間跨領域轉移等。當我們特別考量LiDAR物理特性來設計演算法，會有顯著的改善空間，更能降低訓練資料量。另外3D物件標註相當費時，所以資料收集是另一項耗費資源的工作。

LiDAR價位高，但勢將成為未來車輛的必備感測器(當然也有業者持反對意見)，所以目前有相當的硬體研究在降低LiDAR的價格。另一方面也有團隊嘗試使用較低價位的感測器(如立體相機等)來逼近LiDAR的功能，看起來也相當具有產業機會。

徐宏民
台大資工系教授

徐宏民(Winston Hsu)現任富智捷(MobileDrive)技術長暨副總經理以及台大資訊工程學系教授。哥倫比亞大學電機博士，專精於機器學習、大規模影像視訊搜尋與辨識。為訊連科技研發團隊創始成員，慧景科技(thingnario)共同創辦人，NVIDIA AI Lab計畫主持人；曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會；十餘年產學合作及新創經驗。曾獲2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018偽裝人臉辨識冠軍、傑出資訊人才獎、吳大猷先生紀念獎等國內外研究獎項。