論文盤點：基於圖卷積GNN的多目標跟蹤算法解析

©PaperWeekly 原創 · 作者｜黃飄

學校｜華中科技大學碩士

研究方向｜多目標跟蹤

隨着這兩年 GNN 的發展，其對於關係的建模特性也被引入了多目標跟蹤領域，這次我通過對這兩年基於 GNN 的 MOT 算法的介紹來分析其特點。相關 MOT 和數據關聯的基礎知識可以去我的專欄查看。

EDA_GNN

論文標題： Graph Neural Based End-to-end Data Association Framework for Online Multiple-Object Tracking

論文來源： CVPR 2020

論文鏈接： https://arxiv.org/abs/1907.05315

代碼鏈接： https://github.com/peizhaoli05/EDA_GNN

從算法的示意圖可以看到，作者通過一個孿生網絡求得了觀測目標 j 與當前目標軌跡 i 的表觀相似度，然後取目標軌跡的歷史位置爲輸入，通過 LSTM 得到預測的位置，計算該位置與觀測目標位置的運動相似度，兩個相似度結合構建相似度矩陣。

至此，所有目標軌跡與觀測目標的相似度構成了一個二部圖，以目標和觀測信息作爲節點，相似度作爲邊權，表觀特徵和位置信息拼接作爲節點屬性特徵。

然後基於消息傳遞機制，作者通過 GNN 的網絡框架實現對節點特徵的更新：

鄰接矩陣的 normalization 採用的是 row-wise softmax，即對相似度矩陣進行逐行 softmax，可以用注意力的方式來理解，W 爲待學習的權重。最後通過一個激活函數 ReLU 實現特徵的更新。對於邊權關係的更新則是簡單地利用 MLP 將兩個節點特徵的差轉換爲標量。

在訓練的時候，損失函數由三部分組成：

其中第一部分是預測得到的關聯矩陣的分類損失，第二部分則是將 groundtruth 中的關聯對取出，計算分類損失，第三部分是將新出/消失的目標單獨取出，計算 MSE 損失。

DAN

論文標題： Deep association: End-to-end graph-based learning for multiple object tracking with conv-graph neural network

論文來源： ICMR 2019

論文鏈接： https://dl.acm.org/doi/pdf/10.1145/3323873.3325010

這裏的 DAN 並非我之前提過的DAN，其整體流程跟 EDA_GNN 基本一樣：

都是先提取表觀和運動特徵，由此構建網絡圖，通過 GNN 得到最終的關聯矩陣。首先相似度矩陣怎這裏用的是 IOU 信息：

IOU 後面的部分是幀間差，如果目標存在跨幀鏈接，那麼間隔越久，相似度越低。不過 DAN 與 EDA_GNN 不同的是，並沒有將圖結構構建爲二部圖，而是將跟蹤節點和觀測節點統一爲節點集合，因此鄰接矩陣/相似度矩陣就變成了 (m+n)x(m+N)，這就是最基礎的 GNN 網絡結構了。所以節點特徵的更新就是：

鄰接矩陣的更新爲：

損失函數爲 Graph Loss，即對正負鏈接邊權的交叉熵損失函數：

結果如下:

GNMOT

論文標題： Graph Networks for Multiple Object Tracking

論文來源： WACV 2020

論文鏈接： http://openaccess.thecvf.com/content_WACV_2020/papers/Li_Graph_Networks_for_Multiple_Object_Tracking_WACV_2020_paper.pdf

代碼鏈接： https://github.com/yinizhizhu/GNMOT

首先我們看看算法流程：

可以看到，GNMOT 的不同在於表觀和運動部分分別採用了 GNN 網絡，二者結合得到的是相似度矩陣，由此輸入數據關聯部分。關於 GNN 網絡的更新流程，作者設計了 4 步：

其中第一次邊和節點的更新都是通過兩層 FC 進行更新的。第三次的全局更新這裏，作者引入了一個全局變量 u，先計算所有節點的特徵均值和邊權均值，再通過兩層 FC 進行更新。這裏的 u 會在出現在所有更新過程中，作爲一個調節量。

最後一次的邊權更新則是在兩層 FC 之後再加了一層 softmax 層。

MPN Tracker

論文標題： Learning a Neural Solver for Multiple Object Tracking

論文來源： CVPR 2020

論文鏈接： https://arxiv.org/abs/1912.07515

代碼鏈接： https://github.com/selflein/GraphNN-Multi-Object-Tracking

我之前也介紹過這篇文章，但是之前不懂 GNN，所以只能做搬運工，現在學習了 GNN，所以就再次分析一下。首先是圖的構建，圖節點由所有幀的所有目標構成，直接將觀測信息作爲節點，沒有跟蹤，只有關聯。

節點屬性特徵由訓練得到的表觀特徵和幾何特徵構成，其中幾何特徵爲位置和形狀。並且定義表觀特徵距離用歐氏距離度量，幾何特徵距離用下面的公式度量：

時間特徵自然就是幀數，這幾個特徵通過一個 MLP 網絡得到最終的特徵表達。

邊的連接自然就是跨幀節點存在連接，而同一幀節點不存在連接，邊權的設定就是上面的距離度量。也就是說，這相當於一個端到端的離線跟蹤框架。

消息傳遞機制中，對於邊權的更新和節點的更新方式如下：

上面這個圖從左往右是不同時間幀的節點，這裏舉的例子是一個相鄰三幀的節點連接。原始的更新機制中，對於節點的更新會將周圍邊的影響通過求和的方式聚合。而這裏作者考慮了時間因素，將時間分爲了過去和未來兩個部分：

然後通過拼接的方式聚合，最後利用 MLP 結構實現特徵降維。

可以看下消息傳遞代數的影響：

不得不說離線的方法在 IDF1 指標上的表現很好：

PS：大家可能對於第一張圖中的 Edge Classification 有疑惑，即如何實現的邊的稀疏化。這裏由於每條邊權都經過了一個 sigmoid 層，因此作者直接利用固定閾值 0.5 進行了裁剪。

GNN3DMOT

論文標題： Graph Neural Network for 3D Multi-Object Tracking with Multi-Feature Learning

論文來源： CVPR 2020

論文鏈接： https://arxiv.org/abs/2006.07327

代碼鏈接： https://github.com/xinshuoweng/GNN3DMOT

從這篇開始，接下來的全是這個組的文章。這篇文章所涉及的算法框架很完整，值得一讀：

算法流程通過這張圖可以很容易得到，運動特徵是通過 LSTM 網絡迴歸得到的，表觀特徵是通過 CNN 網絡得到的，二者相拼接。其中 3D 部分的輸入則是點雲信息和 3D 位置信息，o 表示物體，d 表示檢測。將 2D 和 3D 特徵拼接/相加得到每個節點的特徵。而節點自然就是上一幀存在的目標和當前幀的觀測。

對於邊權/相似度矩陣的確定，作者嘗試了三種方式，餘弦距離、歐氏距離還有網絡迴歸，即上圖中的 Edge Regression：

當然這個也是邊權更新的機制，而對於節點消息傳遞機制，作者也設計了四種：

方法很明瞭，我就不細講了，可以看到聚合方式都是求和。另外由算法框架示意圖可知，每次消息傳遞都會計算關聯矩陣的損失，那麼爲什麼會採用 batch triplet loss呢？

作者把關聯矩陣中的每條邊權看作了 N 對匹配，三元組損失中，首先選取相鄰幀中的一對連接 i,j，然後分別選取不同 id 的兩幀節點 r,s，計算上述損失。即要保證不同幀間不同 id 身份的邊權的最小距離越大越好。而對於相似度損失，則是採用了兩種交叉熵損失：

效果如下：

GNNTrkForecast

論文標題： Joint 3D Tracking and Forecasting with Graph Neural Network and Diversity Sampling

論文鏈接： https://arxiv.org/abs/2003.07847

代碼鏈接： https://github.com/xinshuoweng/GNNTrkForecast

這篇論文裏面，作者通過 GNN 將 3D MOT 和軌跡預測結合在一起了。其中對於 GNN 網絡的構建以及關聯矩陣的獲取跟之前的論文幾乎一致，具體我們就不介紹了：

那麼 3D MOT 分支實際上就是 GNN 模型中的一部分，是根據 GNN 的邊權矩陣進行數據關聯：

而對於軌跡預測分支，作者基於條件自編碼器的形式，設計的流程圖如下，由於這塊我不熟悉，所以我就不細講了。

效果如下：

JDMOT_GNN

論文標題： Joint Detection and Multi-Object Tracking with Graph Neural Networks

論文鏈接： https://arxiv.org/abs/2006.13164

也許是看到最近聯合檢測和跟蹤的框架很熱門，作者團隊又給加入了 GNN 模塊，所以我們簡單提一下：

最開始的表觀和運動特徵部分就不提了，一個是 LSTM/MLP 迴歸，一個是 Darknet53 迴歸得到的。圖的構建依舊是以檢測框和目標作爲節點，節點特徵的更新則是：

這裏面要注意的是兩個 head，其中檢測 head 的是根據各節點特徵利用 MLP 降維得到用於分類和迴歸的特徵。而數據關聯 head 則是邊權，它的確定是依據節點特徵的差異，通過三層全連接得到的：

最終效果如下：

可以看到單純用 GNN 做數據關聯的提升並不大，當然，這裏並沒有做消融實驗，也不能妄下評論。

參考文獻

[1] Jiang X, Li P, Li Y, et al. Graph Neural Based End-to-end Data Association Framework for Online Multiple-Object Tracking[J]. arXiv preprint arXiv:1907.05315, 2019.

[2] Ma C, Li Y, Yang F, et al. Deep association: End-to-end graph-based learning for multiple object tracking with conv-graph neural network[C]//Proceedings of the 2019 on International Conference on Multimedia Retrieval. 2019: 253-261.

[3] Jiahe L, Xu G, Tingting J.Graph Networks for Multiple Object Trackin[C]//The IEEE Winter Conference on Applications of Computer Vision (WACV).2020.

[4] Brasó G, Leal-Taixé L. Learning a neural solver for multiple object tracking[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 6247-6257.

[5] Weng X, Wang Y, Man Y, et al. GNN3DMOT: Graph Neural Network for 3D Multi-Object Tracking with Multi-Feature Learning[J]. arXiv preprint arXiv:2006.07327, 2020.

[6] Weng X, Yuan Y, Kitani K. Joint 3d tracking and forecasting with graph neural network and diversity sampling[J]. arXiv preprint arXiv:2003.07847, 2020.

[7] Wang Y, Weng X, Kitani K. Joint Detection and Multi-Object Tracking with Graph Neural Networks[J]. arXiv preprint arXiv:2006.13164, 2020.

讓你的論文被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者羣體，縮短讀者尋找優質內容的成本呢？ 答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成爲一座橋樑，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是 最新論文解讀 ，也可以是 學習心得 或 技術乾貨 。我們的目的只有一個，讓知識真正流動起來。

:memo: 來稿標準：

• 稿件確係個人 原創作品 ，來稿需註明作者個人信息（姓名+學校/工作單位+學歷/職位+研究方向）

• 如果文章並非首發，請在投稿時提醒並附上所有已發佈鏈接

• PaperWeekly 默認每篇文章都是首發，均會添加“原創”標誌

:mailbox_with_mail: 投稿郵箱：

• 投稿郵箱： [email protected]

• 所有文章配圖，請單獨在附件中發送

• 請留下即時聯繫方式（微信或手機），以便我們在編輯發佈時和作者溝通

:mag:

現在，在 「知乎」 也能找到我們了

進入知乎首頁搜索 「PaperWeekly」

點擊 「關注」 訂閱我們的專欄吧

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公衆號後臺點擊 「交流羣」 ，小助手將把你帶入 PaperWeekly 的交流羣裏。

論文盤點：基於圖卷積GNN的多目標跟蹤算法解析

參考文獻

更多閱讀

讓你的論文被更多人看到

熱門新聞

週熱門

論文盤點：基於圖卷積GNN的多目標跟蹤算法解析

參考文獻

更多閱讀

讓你的論文被更多人看到

“AI換臉”騙走2億港元 專家支招如何防範

工信部：加快突破人工智能基礎關鍵技術，夯實應用賦能的底座

文心大模型推理性能提升了105倍 推理成本降到原來的1%

IPO雷達｜600億估值獨角獸地平線衝港股：資產負債率超250%，深陷虧損泥潭

上海：在智算中心內重點應用基於自主芯片和算法的開源通用大模型

人工智能發展駛入快車道 任勇：技術創新、人才培養是關鍵

谷歌設立 500 萬美元獎金，旨在尋找量子計算機的實際用途

維海德(301318.SZ)：多模態白平衡算法與多模態AI大模型存在本質區別

五連板維海德澄清未從事AI大模型業務佈局，已有遊資“跑路”

不涉及文生視頻技術和產品，澄清後維海德仍一度走出六連板

維海德(301318.SZ)澄清：多模態白平衡算法與多模態AI大模型存在本質區別 公司不涉及文生視頻技術和產品

5連板維海德：不涉及文生視頻技術和產品 近期亦沒有從事AI大模型業務的佈局

維海德：不涉及文生視頻技術和產品 近期亦沒有從事AI大模型業務的佈局

微美全息盤中異動 早盤急速拉昇5.31%報1.07美元

星環科技(688031.SH)：正在聯合產業鏈合作伙伴共同探索AIPC解決方案

熱門新聞

週熱門

“AI換臉”騙走2億港元專家支招如何防範

文心大模型推理性能提升了105倍推理成本降到原來的1%

人工智能發展駛入快車道任勇：技術創新、人才培養是關鍵

維海德(301318.SZ)澄清：多模態白平衡算法與多模態AI大模型存在本質區別公司不涉及文生視頻技術和產品

5連板維海德：不涉及文生視頻技術和產品近期亦沒有從事AI大模型業務的佈局

維海德：不涉及文生視頻技術和產品近期亦沒有從事AI大模型業務的佈局

微美全息盤中異動早盤急速拉昇5.31%報1.07美元