視訊辨識的技術與機會

徐宏民
2020-04-28
分享
Line

近年來深度學習技術中卷積網路(CNN)的高度發展，才激勵產業與學界重新檢視視訊辨識的機會。法新社

急速增加的攝影機使得監看人力逐漸無法負荷，「視訊辨識」一直是長久以來安全監控領域的殺手級應用。但礙於技術發展，過去不曾真正落實，直到近年來深度學習技術中卷積網路(CNN)的高度發展，才激勵產業與學界重新檢視視訊辨識的機會。在應用上，視訊辨識可以滿足諸多需求：例如影片拍攝分類，安全監控中的摔倒偵測、尾隨進入建築、爬牆，購物情境中的產品銷售熱區、結帳安全，自駕車中的事件判斷，或是醫療照護中的老人看護、復健動作偵測等。

與影像辨識不同，許多視訊事件必須透過連續畫面才能判斷：例如單看手部高舉，無法分辨接下來的動作是抓頭髮或是出手打人。所以視訊辨識必有效的參考多個連續畫面來做判斷，可以想像運算量以及模型複雜度會比單畫面的影像辨識來得高。

在大分類上，視訊辨識可以區分為「視訊分類」(video classification)以及「動作辨識」(action recognition)。前者僅需將影片分門別類(如婚禮、會議、晚會、運動類型等)，一般只要參考場景或主要物件等就可以大致分類完成。研究發現，多張畫面對於正確率的提升並不大，一般認為視訊分類(和影像分類一樣)是目前相對成熟的技術。視訊分類技術時常用來整理大量的視訊資料庫如個人的拍攝、電影製作、甚至是廣告分類、追蹤等，偏向於消費者端的需求。

在動作辨識上，連續畫面以及物件的動線影響了辨識的效果。所以過去的研究致力於如何有效描述畫面變化。許多人提出先使用CNN來紀錄每個畫面的內容(場景以及物件)，再結合時序模型(如LSTM)來抓取畫面的動態變化，所以類似於ConvLSTM的模型成為箇中主流。另外傳統電腦視覺中的光流(optical flow)技術可以描述連續畫面間各個像素的可能移動方向，也被拿來作為「動態」畫面，成為視訊辨識中相當重要的訊息來源，但缺點是速度相當緩慢，因為計算畫面間的光流十分耗時，而且無法直接與深度學習網路端對端的結合。有人主張使用CNN來逼近光流、或是直接使用視訊壓縮標準中的motion vector等來取代光流的高成本運算。

既然利用連續畫面辨識十分重要，目前的主流做法是直接將2D的卷積加上額外時間維度擴充為3D卷積，不過會大量增加模型的參數以及運算量。關鍵的問題是各個視訊事件(動作)有不同的時序速度，如何決定適合的時間解析度成了棘手的問題。還好，最近提出的SlowFast模型提供了相當不錯的均衡方式。

視訊辨識在安全領域有極高影響性，比如在工程、工廠的運作中，動作偵測十分關鍵，決定了良率以及安全性。但這方面的偵測需要關注更多細節，例如操作人員是在敲擊？旋轉？還是拉動某個開關？這些差異可能只在細微的部份呈現，極具挑戰。因此近年興起「細精度動作分類」，可以加上類似attention模組來解決精細關注的問題。甚至利用人體姿態辨識自動標記出人體各個關節點，接著參考關節點的移動來進行細部辨識。

多樣性攝影機在各個應用場域快速成長，已無法使用人力監控，特別是在許多高成長的應用場域，如交通、零售、工業安全、醫療照護等，更需要智能化的判斷。而且許多新穎的應用還沒被開發，如「視訊預測」：判斷被稽查的嫌疑犯是否有開槍意圖、家中監控的攝影機在小孩發生危險前能預先提出警報。攝影機為國內重要的產業鏈，對於視訊辨識的技術發展，實在不能輕忽。

徐宏民
台大資工系教授

徐宏民(Winston Hsu)現任富智捷(MobileDrive)技術長暨副總經理以及台大資訊工程學系教授。哥倫比亞大學電機博士，專精於機器學習、大規模影像視訊搜尋與辨識。為訊連科技研發團隊創始成員，慧景科技(thingnario)共同創辦人，NVIDIA AI Lab計畫主持人；曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會；十餘年產學合作及新創經驗。曾獲2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018偽裝人臉辨識冠軍、傑出資訊人才獎、吳大猷先生紀念獎等國內外研究獎項。