人臉辨識—深度卷積網路帶來的突破

徐宏民
2018-07-31
分享
Line

近來人臉辨識的穩定度可以提昇到滿足產業應用，在於兩個主要因素：深度卷積網路的發展以及大量的人臉訓練資料。亞馬遜

人臉辨識中，取出強健的有效特徵值，即使在不一樣的光源、拍攝時間、些微的表情、視角變化，仍能正確判斷，是數十年來研究的挑戰工作。而近來人臉辨識的穩定度可以提昇到滿足產業應用，在於兩個主要因素：深度卷積網路的發展以及大量的人臉訓練資料。

卷積網路利用層狀的結構來逐步表示影像中的複雜訊號，由低階的線條到高階富有語意(semantic meaning)的物件、情境等。每個階層皆有數十個（到百個）卷積單元的單元組成—可以想像在各層輸入畫面進行特殊的樣式檢測，再將諸多檢測結果（反應強度）交給下一層繼續檢測。一般階層個數由數個到上百個，端看基底網路架構以及應用複雜度。目前人臉辨識的主流是採用ResNet型態(在2015年底由任職於微軟研究院的何凱明博士率先提出)的基底網路。

辨識時，取出末端一層網路輸出做為人臉（高緯）特徵值。過去的方法，不管是特徵臉、局部二值模式、稀疏編碼等，一般類似於使用一到兩層的卷積運算來逼近，相對上，稱為「淺層」作法。與深度卷積網路來比，參數使用量（複雜度）低，特徵值描述能力相當薄弱。更重要的，當利用大量資料訓練卷積網路時，這些重要的檢測樣式還可以由訓練樣本中自動學出，目的是為了讓最後的辨識效果達到最好。之前的方法，常從經驗當中判斷設計，不一定吻合應用情境。

目前在國際研究社區也分享了相當多的人臉訓練資料，甚至達到百萬人的數目。為何可以收集到這些資料？主要來自於網路名人（明星、新聞人物）以及社群網站上的公開相簿。但是這也衍伸出其他的問題，比如說這些免費人臉資料中絕大部分為西方人，絕少戴眼鏡，畫質清晰，在實際場域上還有某些技術問題得克服，但是已經大大降低資料收集耗時、耗費的問題。

除資料外，訓練卷積網路的目標函數（Cost Function）也佔了非常重要的角色，比如說單使用常用的交叉熵（Cross-Entropy）來訓練人臉辨識的穩定度，遠遠比不上Large Margin 的系列作法—因為不只在訓練網路中將人臉正確預測，還得讓不屬於同個人的人臉特徵值分隔遙遠，反之，則得十分接近。

利用目標函數，還有增益訓練資料的技術，還可以訓練網路解決人臉光影變化過大、化妝、眼鏡的問題，甚至是低解析度的人臉辨識。在特殊的安全應用上，更可以部分解決人臉偽裝的問題，最近我們獲得國際偽裝人臉辨識競賽冠軍，也驗證了這些作法。

人臉辨識技術發展逐漸成熟，更可能溢出傳統安控領域而成為「個人化」的基礎引擎，而影響各種應用情境。如果整合我們擅長的硬體（系統、晶片）技術，似乎在產業應用上也帶來了新的機會！

系列文見<人臉辨識的核心問題與商機>、<人臉辨識的技術環節>

徐宏民
台大資工系教授

徐宏民(Winston Hsu)現任富智捷(MobileDrive)技術長暨副總經理以及台大資訊工程學系教授。哥倫比亞大學電機博士，專精於機器學習、大規模影像視訊搜尋與辨識。為訊連科技研發團隊創始成員，慧景科技(thingnario)共同創辦人，NVIDIA AI Lab計畫主持人；曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會；十餘年產學合作及新創經驗。曾獲2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018偽裝人臉辨識冠軍、傑出資訊人才獎、吳大猷先生紀念獎等國內外研究獎項。