似乎一夕爆發,最近許多國內外的企業都將「人臉辨識」列為主要的產品。這些公司橫跨各種類型,包括晶片、軟體、系統 、金融、交通、安全、服務等。顯然目前人臉辨識的學術突破,已經可以落地為實際應用,並成為很多跨領域的公司極度看好的核心技術。前陣子在矽谷舉辦NVIDIA GTC 2019,我們也分享了如何產品化人臉辨識技術,之後收到很多工業界與會者非常正面而且熱烈的評價。顯然矽谷的產業鏈也十分在乎這項關鍵技術。
我們根據10年來人臉辨識的研究經驗以及有幸參與數個人臉辨識產品落地(其中某項產品全球已超過80萬用戶使用),將主要的技術因素,整理成5個關鍵,包括:前處理程序、深度學習網路主幹、訓練成本函數、訓練(測試)資料集、以及應用情境。
前處理技術主要是在人臉偵測,目前採用的方法大多是利用一般深度學習的物件偵測核心來做修改,所以正確率已有非常大的提昇。除了人臉位置偵查外,也同時抓取人臉幾個特殊位置(如人中、瞳孔、下巴、鼻尖等),用以矯正人臉大小以及方向,以供疊合辨識。目前的挑戰在於低解析度、以及低亮度的人臉,均還有努力的空間。
整體而言,網路的架構對性能影響其實沒那麼大,除非運算效能有特殊限制考量(比如在記憶體或是運算能力有限的終端平台)。近來人臉辨識的技術突破點在哪裡?我們發現最關鍵的環節在於訓練資料集以及訓練人臉辨識網路所使用的成本函數(cost functions)。
訓練資料集的數量與深度學習的準確度有高度的相關性。所以目前大部分的產品開發都會盡量使用到所有可得的資料集(包括公開的資料集或是自行收集標註的)。但是研究發現,量級越大的資料集,錯誤率越高;原因是僅使用搜尋引擎收集,標註清除的成本過高,正確性可議。所以在訓練的過程中,就需要容錯的考量。此外,不同資料集內每個人物的個數以及每個人的照片張數不一,也會影響訓練的品質。最重要的是,目前這些公開資料集因為社群使用人口的關係,有著嚴重的資料分佈偏差(bias),白人佔大部分,所以訓練出來的辨識模型,對於深色皮膚的人種,辨識率較低。這是在設計全球通用的產品時,必須考量的因素。而且公開資料集中,帶眼鏡的人臉較少,對於辨識眼鏡人口較多的亞洲地區,需要利用資料增益的方法,增加與實際場域吻合的訓練資料集。
成本函數的目的是為了訓練深度學習網路能將同一位人物在不同狀況(時間、光影、裝扮、角度等)所拍攝的人臉,產生一致的深度特徵值(為了辨識為同一個人)。可以想像這是非常艱難的問題。從2013年前的傳統特徵(eigenface、LBP、sparse coding等),到深度學習技術的導入時開始使用的分類函數等,在近來研究中都發現還是有很大的局限性,原因是完全忽略這些高維度人臉是以特殊的結構(manifold)分佈。直到最近提出的一系列large-margin成本函數,才達到性能的巔峰。主要的精神在於訓練的過程中,不僅要將不同的人的人臉透過深度學習辨識無誤,還進一步希望取得的特徵值,在不同人間,還得維持很大的差異性。在實際應用上,能大大提昇人臉辨識的穩定度。
當然落地的產品場域也會影響設計的準則,如何設計適合的成本函數來考量特殊的人臉辨識應用(低解析度、跨年齡、逆光、3D等)都有不一樣的考量。 這也是將系統設計為工業級產品的著力點。同樣的,接下來我們會看到人臉辨識在跨領域的應用上,有令人刮目相看的新機會。
徐宏民(Winston Hsu)現任富智捷(MobileDrive)技術長暨副總經理以及台大資訊工程學系教授。哥倫比亞大學電機博士,專精於機器學習、大規模影像視訊搜尋與辨識。為訊連科技研發團隊創始成員,慧景科技(thingnario)共同創辦人,NVIDIA AI Lab計畫主持人;曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會;十餘年產學合作及新創經驗。曾獲2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018偽裝人臉辨識冠軍、傑出資訊人才獎、吳大猷先生紀念獎等國內外研究獎項。