人臉辨識的核心問題與商機

徐宏民
2018-06-13
分享
Line

隨著攝影鏡頭的普及以及安全防護的需求，近來人臉辨識相關技術成為產業界關心的對象。搭配運算速度的提昇、深度學習技術的突破、以及許多使用者端、企業端、政府端各種實質應用情境，也觸發除了指紋、虹膜等生物特徵辨識之外的產業機會。

人臉辨識的定義常有許多混淆，一般是為了瞭解拍照的目標為何人。舉例來說，進來銀行的人是誰，如果直接可以辨識，我們會有多幾秒的時間可以知道他是VIP嗎？黑名單？喜歡什麼樣的商品？該找誰服務呢？

但是也容易與其他技術混淆。例如人臉屬性偵測，目的是為了瞭解標的年齡、性別、人種、打扮等，用途在於購物安全(如自動販賣機的年齡限制)、目標群眾大致統計等。

另一非常類似的領域為表情偵測：區分微笑、嚴肅、生氣等表情，可以用於客服或是使用者滿意度分析；目前駕駛安全技術上，也會有駕駛打瞌睡、不專心等透過人臉判斷的技術。

人臉辨識核心可以大致區分為兩個問題：人臉確認(face verification)以及人臉識別(face identification)。前者的定義主要是給兩張人臉，必須回答是否為同一人，例如自動通關時掃描護照，同時比對攝影以及官方人臉資料；或是iPhone解鎖等安全確認情境。

人臉識別主要是在大規模的人臉資料庫中(可能每人有一到多張)照片，找出提供的照片是否在資料庫內？是哪一個人？警政的人臉搜尋、安全監控、或是進出管制等，大多屬於這個範疇。

雖然兩個問題看起來類似，但是後者較為挑戰，當資料庫內需要識別的人變多時，比對速度會變慢、特徵值(表示人臉的高緯度資料)間會大大的混淆。

辨識的訊號來源也不侷限於2D的人臉照片，包括大家已熟知在手機上的3D點雲、走路的姿勢(聲音)、甚至是在空間移動對Wi-Fi訊號的影響等，都有不同的應用。

這幾年精進的人臉辨識技術早已跳脫早期僅限安防使用的局限性，並且看到原本在雲端的功能，逐漸落地到設備端。例如具有辨識功能(自動開鎖)的門鈴、利用人臉來提供個人化服務、廣告內容、存取功能、開關設備等。

諸多應用發現，人臉辨識更需要軟硬整合，如光線變化時如何自動調整鏡頭硬體？辨識用的影像(視訊)該如何壓縮？我相信在智能應用轉型的契機，對於產業界也是另一個相當大的機會！

徐宏民
台大資工系教授

徐宏民(Winston Hsu)現任富智捷(MobileDrive)技術長暨副總經理以及台大資訊工程學系教授。哥倫比亞大學電機博士，專精於機器學習、大規模影像視訊搜尋與辨識。為訊連科技研發團隊創始成員，慧景科技(thingnario)共同創辦人，NVIDIA AI Lab計畫主持人；曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會；十餘年產學合作及新創經驗。曾獲2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018偽裝人臉辨識冠軍、傑出資訊人才獎、吳大猷先生紀念獎等國內外研究獎項。