ECCV 2018 | 建模任務相關注視點轉移，實現第一人稱視頻注視點的準確估計

　　機器之心發佈

　　作者：Yifei Huang（黃逸飛）、Minjie Cai（蔡敏捷）、Zhenqiang Li（李振強）、Yoichi Sato（佐藤洋一）

　　準確估計第一人稱視頻中人的注視點能夠幫助計算機更好地預測人的關注區域，對於計算機自動理解人的動作和人與人之間的交互行爲具有重要意義。近日，來自東京大學和湖南大學的研究者們提出了一個全新的視角和方法對這一問題進行建模，新的方法在第一人稱視頻的注視點估計任務上大大超出了已有方法的性能。目前這項研究工作已被全球計算機視覺三大頂會之一的歐洲計算機視覺大會 (ECCV 2018) 收錄，並被邀請赴會進行口頭報告 (Oral Presentation)。

　　論文：Predicting gaze in egocentric videos by learning task-dependent attention transition

　　論文鏈接：https://arxiv.org/abs/1803.09125

　　項目主頁：https://cai-mj.github.io/project/egocentric_gaze_prediction

　　論文代碼：https://github.com/hyf015/egocentric-gaze-prediction

　　背景

　　近年來，隨着便攜式相機在記錄人們日常生活體驗（lifelogging）等方面的普及，基於第一人稱視角拍攝的視頻開始大量出現，而以自動分析理解第一人稱視頻爲主要任務的第一人稱視覺逐漸得到研究者們的關注，成爲計算機視覺領域的熱點方向之一。在第一人稱視頻中，注視點（gaze）被定義爲人眼視線聚焦的區域，注視點及其周邊區域包含了與相機穿戴者相交互的物體或該穿戴者的意圖相關的重要信息，因此，對第一人稱視頻注視點的自動預測（gaze prediction）能夠讓計算機重點關注視頻中與分析理解人的動作和意圖最相關的重要區域，減少第一人稱視覺的各種學習和推斷任務所需的計算量，提高視覺模型的建模效率。本文致力於提出一個有效的方法來實現對第一人稱視頻注視點的準確估計。

　　傳統方法通常將這一問題構建成一個視覺顯著性（visual saliency）的估計問題，通過自下而上（bottom-up）的方法框架從輸入圖像或視頻中提取自定義的（例如手的位置）或可學習的視覺特徵（例如卷積神經網絡），並進而訓練一個視覺模型來預測顯著性最高的區域作爲肯能的注視點。但是，基於視覺顯著性的方法並不能有效地預測第一人稱視頻的注視點，尤其是在包含複雜的日常動作的視頻中，任務相關的高層知識對於人的注視點轉移有重要的影響，而基於視覺顯著性的模型並不能對來自頂端的任務知識進行建模。

　　核心思想

　　在日常生活場景中，爲了完成某個複雜的物體交互任務，例如泡茶，人們會通過一系列的視線聚焦來注視與任務相關的多個物體並導引交互動作的完成。論文的作者們發現，在完成任務的過程中，人們的注視點並不會一直停留在視野中顯著的區域，而是會根據自己正在進行的任務來改變所注視的物體，且注視點的轉移與正在執行的任務密切相關。論文第一作者來自東京大學的博士生黃逸飛這樣介紹說「正在進行的任務信息對人的注視點的轉移有着很重要的影響，舉例來說，在將水從瓶子倒入杯子的過程中，人們通常會先注視即將抓取的瓶子，然後在抓起瓶子後將注視點轉移到杯口來導引接下來的倒水動作。」

　　基於對人在完成物體交互任務過程中的視線聚焦行爲的觀察和發現，此論文提出了一個遞歸神經網絡來對注視點在時間上的轉移過程進行建模。值得注意的是，論文所建模的注視點轉移並不是單純的二維圖像位置的轉移，而是注視點所對應區域的語義信息的轉移。考慮到基於圖像/視頻的視覺顯著性模型和基於任務的注視點轉移模型在建模方法上具有互補性，論文最後提出了一個混合型的網絡架構（細節如下一節所述）將互補的兩個模型統一起來，注視點預測性能相比現有的方法取得了顯著的提升。

　　方法架構

　　圖 1：論文提出的注視點預測模型的網絡架構

　　論文提出的注視點預測模型融合了自下而上的基於圖像/視頻的視覺信息和自上而下的基於任務的高層信息，方法架構如圖 1 所示。首先，由於人的注視點通常是向着視野中的顯著區域，本文提出的模型首先基於一個自下而上的顯著性預測模塊（Saliency Prediction Module，SP）。以第一人稱視頻作爲輸入，作者採取了 Two stream encoder decoder 的全卷積網絡結構，兩個 stream 的輸入分別爲 rgb 圖像和光流圖像，輸出是包含各個圖像位置的顯著性的熱圖（heatmap），並使用基於眼部跟蹤設備的測量值生成的 heatmap 作爲網絡訓練時的真值（ground truth）。

　　在人與物體的日常交互活動中，人們並不會一直關注視野中顯著的區域，而是會根據自己正在進行的任務來調整關注的物體。因此，作爲 SP 模塊的補充，作者提出了注意轉移模塊（Attention Transition Module，AT）來對關注物體在時間上的轉移過程進行建模，訓練時使用一系列視線聚焦時刻（gaze fixation）的注視點作爲訓練數據。

　　最後，作者使用了一個 Late Fusion（LF）模塊來融合 SP 和 AT 的結果。LF 模塊由一個小型的卷積網絡組成，它的輸出將作爲整個注視點預測模型的最終結果。

　　注意轉移模塊（AT）架構

　　圖 2：注意轉移模塊的網絡架構

　　論文的核心部分-AT 模塊如圖 2 所示。爲了表示注視點所關注的物體的語義信息，一種直接的方式就是找到物體的分類，並學習不同物體分類之間的時間轉移關係。但是這種方式需要一個可靠的物體檢測和定位方法，由於有限的數據量，目前在第一人稱視頻的數據集中並沒有這樣可靠的物體檢測和定位方法。爲了解決這個問題，作者利用了在深層卷積網絡中比較深的卷積層中每一個 channel 都包含了高級語義信息（比如物體分類）這樣的一個現象，利用給各個 channel 不同的權重來表示注視點所包含的語義信息。具體而言，AT 模塊首先從 SP 模塊的 encoder 中提取最後一個卷積層的特徵圖（feature map），然後根據注視點所在圖像的位置截取特徵圖中的 RoI 區域（Region of Interest），並進行池化（Pooling）操作，得到一個表示卷積層不同 channel 權重的向量用於表示當前的注視點。根據一系列注視點的表示向量，論文訓練了一個 LSTM 網絡，用於根據當前注視點的表示向量預測下一個時刻的注視點的表示向量。使用 LSTM 的預測向量和下一時刻的特徵圖進行加權平均，即可得到與所進行的任務相關的下一時刻注視點的預測位置。

　　實驗

　　實驗數據集：

　　本文使用了兩個公開的第一人稱視覺數據集：GTEA Gaze 和 GTEA Gaze Plus，來評價所提出的注視點預測模型的性能，並使用 AAE (Average Angle Error) 和 AUC (Area under Curve) 兩種評價標準。同時，爲了檢驗模型的注意轉移學習能力，本文從 GTEA Gaze Plus 中選取並標註了部分數據（簡記爲 GTEA-sub）來測試模型是否能夠正確的預測注意力的轉移。

　　不同方法的性能比較：

　　表 1 與不同參照方法在兩個公開數據集上的定量比較。本文所採用的方法得到了最高的 AAE 和最小的 AUC，也即意味着最好的注視點預測結果。

　　不同模塊的有效性檢驗：

　　表 2 模型的不同模塊在數據集上的表現比較。S-CNN bce 和 T-CNN bce：二元交叉熵（bce）損失函數訓練得到的單一 Stream 顯著性預測模塊；S-CNN 和 T-CNN：作者改進的 bce 損失函數訓練得到的單一 Stream 顯著性預測模塊；SP bce：bce 損失函數訓練得到的雙 Stream 顯著性預測模塊；SP：作者改進的 bce 損失函數訓練得到的雙 Stream 顯著性預測模塊；AT：注意轉移模塊。

　　注視點預測結果的可視化：

　　本文提出模型預測得到的注視點的可視化。作者分別展示了顯著性預測模塊、注意轉移模塊和完整模型的四組輸出 heatmap。每組包含的兩張圖片分別來自兩次連續的注視，其中 a 發生在 b 之前。Ground truth 的 heatmap 通過在注視點座標周圍卷積高斯濾波器得到。由這一可視化結果可以觀察到，本文提出的完整模型擁有最接近 ground truth 的預測結果。

　　交叉任務檢驗：

　　交叉任務檢驗的定量結果比較。爲了檢驗模型在同一場景的不同任務下的泛化性，本文在 GTEA Gaze Plus 中 7 種不同的食材準備任務下進行了交叉檢驗，並測試了幾種不同實驗設定下的注視點轉移結果。SP：顯著性預測模塊的結果，由於注視點轉移模塊在不同任務下不具有差別，所以被視爲一個通用模塊，並在一個單獨的子集下進行訓練，其結果被視作交叉任務檢驗結果的基準。AT_d：在不同任務下進行訓練和測試的注意轉移模塊的結果。AT_s：在同一任務的兩個不同劃分下進行訓練和測試的注意轉移模塊的結果。SP+AT_d 和 SP+AT_s：SP 和 AT_d 以及 AT_s 通過 Late Fusion 進行合併之後的結果。

　　注意轉移模塊預測性能的可視化：

　　注意轉移模塊在 GTEA-sub 中部分幀下的定性結果可視化。每張圖中都包含了當前幀的注視點（紅色十字表示）、基於當前幀模型預測的注視點的 heatmap、注視的基準區域/物體（由黃色矩形框出）。

　　結論

　　本文提出了一個能夠準確預測第一人稱視頻中的注視點的新方法。作者創新性地提出了一個注意轉移模型，該模型通過挖掘視頻中注視點的上下文時序信息，來對人在完成特定任務時所關注的物體的時序關係進行建模。通過將這一注意轉移模型與一個自下而上的視覺顯著性模型進行結合，論文新提出的方法在兩個公開的數據集上都取得了最佳的預測性能。值得一提的是，本文提出的注意轉移模型不但顯著提高了注視點預測的性能，背後的思想對於未來研究如何提高計算機對於複雜任務中人類行爲的理解能力具有重要的啓示意義。

　　參考文獻

　　Li, Y., Fathi, A., Rehg, J.M.: Learning to predict gaze in egocentric video. In:ICCV (2013)

　　Zhang, M., Teck Ma, K., Hwee Lim, J., Zhao, Q., Feng, J.: Deep future gaze: Gaze anticipation on egocentric videos using adversarial networks. In: CVPR (2017)

　　Zhou, B., Khosla, A., Lapedriza, A., Oliva, A., Torralba, A.: Learning deep features for discriminative localization. In: CVPR (2016)

　　本文爲機器之心發佈，轉載請聯繫本公衆號獲得授權。

　　------------------------------------------------

　　加入機器之心（全職記者 / 實習生）：[email protected]

　　投稿或尋求報道：[email protected]

　　廣告 & 商務合作：[email protected]

查看原文 >>