智慧應用 影音
MongoDB
ST Microsite

視訊辨識的技術與機會

近年來深度學習技術中卷積網路(CNN)的高度發展,才激勵產業與學界重新檢視視訊辨識的機會。法新社

急速增加的攝影機使得監看人力逐漸無法負荷,「視訊辨識」一直是長久以來安全監控領域的殺手級應用。但礙於技術發展,過去不曾真正落實,直到近年來深度學習技術中卷積網路(CNN)的高度發展,才激勵產業與學界重新檢視視訊辨識的機會。在應用上,視訊辨識可以滿足諸多需求:例如影片拍攝分類,安全監控中的摔倒偵測、尾隨進入建築、爬牆,購物情境中的產品銷售熱區、結帳安全,自駕車中的事件判斷,或是醫療照護中的老人看護、復健動作偵測等。

與影像辨識不同,許多視訊事件必須透過連續畫面才能判斷:例如單看手部高舉,無法分辨接下來的動作是抓頭髮或是出手打人。所以視訊辨識必有效的參考多個連續畫面來做判斷,可以想像運算量以及模型複雜度會比單畫面的影像辨識來得高。

在大分類上,視訊辨識可以區分為「視訊分類」(video classification)以及「動作辨識」(action recognition)。前者僅需將影片分門別類(如婚禮、會議、晚會、運動類型等),一般只要參考場景或主要物件等就可以大致分類完成。研究發現,多張畫面對於正確率的提升並不大,一般認為視訊分類(和影像分類一樣)是目前相對成熟的技術。視訊分類技術時常用來整理大量的視訊資料庫如個人的拍攝、電影製作、甚至是廣告分類、追蹤等,偏向於消費者端的需求。

在動作辨識上,連續畫面以及物件的動線影響了辨識的效果。所以過去的研究致力於如何有效描述畫面變化。許多人提出先使用CNN來紀錄每個畫面的內容(場景以及物件),再結合時序模型(如LSTM)來抓取畫面的動態變化,所以類似於ConvLSTM的模型成為箇中主流。另外傳統電腦視覺中的光流(optical flow)技術可以描述連續畫面間各個像素的可能移動方向,也被拿來作為「動態」畫面,成為視訊辨識中相當重要的訊息來源,但缺點是速度相當緩慢,因為計算畫面間的光流十分耗時,而且無法直接與深度學習網路端對端的結合。有人主張使用CNN來逼近光流、或是直接使用視訊壓縮標準中的motion vector等來取代光流的高成本運算。

既然利用連續畫面辨識十分重要,目前的主流做法是直接將2D的卷積加上額外時間維度擴充為3D卷積,不過會大量增加模型的參數以及運算量。關鍵的問題是各個視訊事件(動作)有不同的時序速度,如何決定適合的時間解析度成了棘手的問題。還好,最近提出的SlowFast模型提供了相當不錯的均衡方式。

視訊辨識在安全領域有極高影響性,比如在工程、工廠的運作中,動作偵測十分關鍵,決定了良率以及安全性。但這方面的偵測需要關注更多細節,例如操作人員是在敲擊?旋轉?還是拉動某個開關?這些差異可能只在細微的部份呈現,極具挑戰。因此近年興起「細精度動作分類」,可以加上類似attention模組來解決精細關注的問題。甚至利用人體姿態辨識自動標記出人體各個關節點,接著參考關節點的移動來進行細部辨識。

多樣性攝影機在各個應用場域快速成長,已無法使用人力監控,特別是在許多高成長的應用場域,如交通、零售、工業安全、醫療照護等,更需要智能化的判斷。而且許多新穎的應用還沒被開發,如「視訊預測」:判斷被稽查的嫌疑犯是否有開槍意圖、家中監控的攝影機在小孩發生危險前能預先提出警報。攝影機為國內重要的產業鏈,對於視訊辨識的技術發展,實在不能輕忽。

徐宏民(Winston Hsu)現任富智捷(MobileDrive)技術長暨副總經理以及台大資訊工程學系教授。哥倫比亞大學電機博士,專精於機器學習、大規模影像視訊搜尋與辨識。為訊連科技研發團隊創始成員,慧景科技(thingnario)共同創辦人,NVIDIA AI Lab計畫主持人;曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會;十餘年產學合作及新創經驗。曾獲2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018偽裝人臉辨識冠軍、傑出資訊人才獎、吳大猷先生紀念獎等國內外研究獎項。