3D感測器所拍攝到的資訊比傳統的2D相機(僅捕捉立體環境中某個視角)包含更豐富的3D幾何資訊。在人臉辨識應用機會高度發展的時候,3D感測器自然被賦予相當期待來精進人臉辨識。
在人臉辨識應用上,目前常用的3D感測器包括使用雙攝影機推估深度的立體相機,利用紅外線飛行時間偵測物體遠近的ToF相機、或是打出特殊編碼畫面的結構光等。最鮮明的例子為iPhone上的人臉辨識功能,可以辨識數個使用者(實為較簡易的人臉驗證工作),但是個中技術細節以及場域限制等,並未完全了解。在3D人臉辨識中,究竟何種作法可以通用在一般3D感測器呢?特別是近年3D點雲的技術突破,如何順勢帶來更多人臉應用的自由度?
3D人臉辨識最直接的優點即在低亮度的環境中,依然可以使用點雲來表式立體資訊,進而辨識人臉,甚至提供多個角度的辨識效果,無需正對鏡頭;或是利用深度來判斷是否為實際人臉,避免使用相片造假。
在公開資料中,尚未顯明何為最佳的辨識方法,我們判斷是因為3D人臉資料取得不易,無法進行大規模(公開)研究。但在這幾年的學術研究上(從學界或是工業界所公開的論文中)我們發現,絕大部分為2.5D的辨識,並未真實釋放3D豐富的幾何資訊。也就是單單利用深度圖(depth map,即畫面物件位置相對於相機的距離),或是結合既有的RGB三個頻道,沿用即有的2D卷積運算技術。2.5D做法有先天上的限制,無法真正釋放3D幾何資訊的技術能量。
在過去的發展中,有人嘗試使用3D的曲率或是利用2.5D資訊來偵測重要的臉部特徵位置。比較有趣的是將人臉與3D圖學模型結合之後,可以自動產生各種表情、角度的人臉進而優化訓練資料庫,或是將不同人的3D人臉,組合為新的人臉進而創造出更多的人臉訓練資料。或是針對低價位、點雲數目較少的3D感測器(通常為行動或終端設計),拍攝多張畫面,接著對齊這些稀疏3D人臉點雲,融合為較豐富的點雲,進而改進辨識效果。
在學術上目前尚未顯明最佳做法,但是絕對有幾個技術深耕的方向。比如說,為了達到最佳的3D人臉辨識,至少需要多少的點雲個數,取得成本以及效能上的平衡?雖然3D點雲的計算可以利用先前提過的點雲(point-based)或是立體畫素(voxel-based)演算法,但是如何設計才是最有效呢?特別是接下來的辨識應用許多得再終端落地,低耗能的運算似乎成了必要的條件。在近來的3D點雲計算研究中,我們發現可以提供相當的抗旋轉的特性,那對於3D人臉辨識也有這樣的特質嗎? 還是依舊依循過去的2D人臉辨識,得先找到眼、鼻等重要位置再校正到固定位置呢?
目前大部分的研究都是使用2.5D資訊,使用3D點雲在人臉辨識上可以真正提升多少辨識率?當然,最關鍵的是3D人臉辨識的成本函數設計(cost functions),這與2D的辨識情境不盡相同。如前所示,3D資料收集標註成本想對耗時困難,在資料有限的情形下,有沒有機會利用大量的2D人臉影像來輔助3D人臉辨識?類似的案例在其他3D偵測、語意切割上都看到不錯的成效。
參考這幾年2D人臉辨識發展的成功軌跡:包括影像卷積網路的提升,大量的訓練資料(因為容易取得),以及開發適合人臉辨識的成本函數等,產業界絕對也有機會善用極具潛力的3D視覺感測器來精進人臉辨識。
延伸閱讀:人臉辨識—從理論到產品
徐宏民(Winston Hsu)現任富智捷(MobileDrive)技術長暨副總經理以及台大資訊工程學系教授。哥倫比亞大學電機博士,專精於機器學習、大規模影像視訊搜尋與辨識。為訊連科技研發團隊創始成員,慧景科技(thingnario)共同創辦人,NVIDIA AI Lab計畫主持人;曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會;十餘年產學合作及新創經驗。曾獲2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018偽裝人臉辨識冠軍、傑出資訊人才獎、吳大猷先生紀念獎等國內外研究獎項。