微軟亞研院：CV領域2019年重點論文推薦

點擊我愛計算機視覺標星，更快獲取CVML新技術

微軟亞洲研究院是國內頂級CV研究機構，衆多CV黑科技的誕生地，2020年始，亞研院盤點了2019年CV領域重點論文，大部分附有開源代碼，希望對大家有幫助。

1. Deep High-Resolution Representation Learning for Human Pose Estimation

該論文在提出了一個新的網絡High-Resolution Network (HRNet)，可以學到空間精度高語義強的高分辨率表。該網絡設計的不同於其他主流網絡的有兩大關鍵點：一直保持高分辨率表徵；並聯不同分辨率的卷積分支。在人體骨架點檢測以及目標檢測、圖像語義分割、人臉關鍵點檢測等視覺問題上取得了領先的結果，被同行廣泛接受和使用。該論文發表在CVPR 2019。

開源地址：https://github.com/HRNet

https://github.com/leoxiaobin/deep-high-resolution-net.pytorch

2. VL-BERT: Pre-training of Generic Visual-Linguistic Representations

該文發表於ICLR 2020，是最早提出圖像和文本聯合預訓練模型的論文之一。研究員提出了一種新的通用的多模態預訓練模型VL-BERT，該模型採用簡單而強大的Transformer模型作爲主幹網絡，並將其輸入擴展爲同時包含視覺與語言輸入的多模態形式，適用於絕大多數視覺語義下游任務。爲了讓VL-BERT模型利用更爲通用的特徵表示，研究員在大規模圖片描述生成數據集Conceptual Captions中進行VL-BERT的預訓練，實驗證明此預訓練過程可以顯著提高下游的視覺語義任務的效果，包含視覺常識推理、視覺問答與引用表達式理解等。

3. A Relation Network Based Approach to Curved Text Detection

該論文創新地提出了一套基於關係網絡（Relation Network）的新型文字檢測框架，有效提升了通用文本行檢測的準確率。該論文發表在ICDAR 2019會上。

4. An Anchor-free Region Proposal Network for Faster R-CNN-based Text Detection Approaches

該論文提出了一種稱爲anchor-free RPN的物體檢測算法來解決經典RPN算法無法有效預測任意方向文本框的問題。該算法不僅在單詞級別的文字檢測任務上取得很好的結果，而且類似思想在當前物體檢測領域也成爲主流。該論文發表在IJDAR期刊上。

5. Scalable Training of Deep Learning Machines by Incremental Block Training with Intra-Block Parallel Optimization and Blockwise Model-Update Filtering

該論文提出了一種通用分佈式優化算法，在增量式學習框架內引入逐塊模型更新濾波(BMUF)算法，在線性加速深度學習模型訓練的同時，保持模型的準確率。該論文發表在ICASSP 2016會上。

6. Compressing CNN-DBLSTM Models for OCR with Teacher-Student Learning and Tucker Decomposition

該論文提出了一種針對CNN-DBLSTM模型中運算代價最大的CNN部分進行壓縮加速的方法，即首先在LSTM部分的指導下，對CNN部分進行知識蒸餾，然後利用Tucker分解算法，對CNN進行進一步壓縮和加速，由此得到的模型運行時相比原始模型加速14倍，解決了部署難題。該論文發表在Pattern Recognition期刊上。

7. An Open Vocabulary OCR System with Hybrid Word-Subword Language Models

該論文提出了一種以詞與子詞爲基本語言單元的混合語言模型，來解決光學字符識別（OCR）中的集外詞（Out of Vocabulary, OOV）問題。該論文發表在ICDAR 2017 會上。

8. Relation Networks for Object Detection

在CVPR 2018上，該論文提出了一種即插即用的物體關係模塊，第一次實現了完全端到端的物體檢測器，該方法也是自注意力模型在視覺領域最早的應用之一。

9. Learning Region Features for Object Detection

在ECCV 2018上，該論文給出了區域特徵提取的通用表達式，並提出了一個完全可學習的區域特徵提取方法。

10. Local Relation Networks for Image Recognition

在ICCV 2019上，該論文提出了一種新的完全無需卷積的神經網絡，在ImageNet圖像分類基準數據集上取得了超越卷積神經網絡的準確率。

11. GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond

在ICCVW 2019上，該論文改變了學界對於流行的非局部網絡工作機制的認識，並提出了一個新的高效的全局關係網絡。

12. An Empirical Study of Spatial Attention Mechanisms in Deep Networks

在ICCV 2019上，研究員提出了一種關於空間注意力機制的通用表達形式，並分析了這一通用表達形式中不同的表達項在各種視覺任務上的表現，爲今後空間注意力機制的應用提供參考。

13. Deep Metric Transfer for Label Propagation with Limited Annotated Data

該論文提出了一種新的半監督學習/遷移學習/小樣本學習範式，該範式的核心是利用無監督預訓練方法來獲得初始圖像特徵，其在半監督學習上取得近20%（絕對值）的準確率提升，文章發表在ICCVW 2019上。

14. Deformable ConvNets v2: More Deformable, Better Results

在CVPR 2019上，該論文提出了更強的可變形卷積網絡，相比標準卷積其能廣泛且顯著提升各種視覺感知任務的準確率，包括圖像分類，物體檢測，語義分割，物體跟蹤等等，例如在COCO物體檢測基準測試中，相比相同條件下的標準卷積網絡能取得近7個點的提升。

15. RepPoints: Point Set Representation for Object Detection

邊界框是視覺物體表示的標準方法，在ICCV 2019上，該論文提出了一種基於點集來替代邊界框的物體表示新方法，這一新方法具有更強的表示能力和可解釋性。基於這一新的表示，得到了當時最好的無錨點檢測器。這一表示方法最近還被推廣到實例分割和人體姿態估計中。

16. A Twofold Siamese Network for Real-Time Object Tracking

該文章發表在CVPR 2018上，提出了雙路孿生網絡進行視覺物體跟蹤的方案，簡稱爲SA-Siam，其中S代表的是語義（Semantic）分支，而A則代表外觀（Appearance）分支。兩個分支既獨立又互補，取得了極佳的跟蹤效果。

17. SPM-Tracker: Series-Parallel Matching for Real-Time Visual Object Tracking

在CVPR 2019上，該文章提出了雙階段匹配和創新的串並聯結構實現物體的魯棒、精準跟蹤。SPM跟蹤器在粗匹配階段側重語義理解，在細匹配階段側重外觀表達，並通過不同訓練方式獲得了理想的平衡。

18. Unsupervised High-Resolution Depth Learning from Videos With Dual Networks

文章發表在ICCV 2019上，提出了基於雙網絡結構的深度估計學習架構，使用較深的網絡提取低分辨率輸入圖像中的全局特徵信息，使用較淺的網絡提取高分辨輸入圖像中的細節特徵信息，再將二者結合用來估計高分辨率的深度。與以往方法相比，該方法以更低的計算量獲取了更好的深度估計效果，特別是對於圖像的精細區域和遠距離區域等對分辨率敏感區域的深度估計結果提升顯著。

19. Moving Indoor: Unsupervised Video Depth Learning in Challenging Environments

在ICCV 2019上，該文章提出了更爲魯棒的光流重建監督信號，以解決難度更大的室內場景下的無監督深度估計。與傳統的圖像重建信號相比，針對紋理缺失嚴重的室內場景，利用稀疏到稠密的光流估計方法獲取穩定的光流估計，並將光流信息輸入相機估計網絡克服相機運動複雜的難題，從而實現了深度佈局更爲複雜多樣的室內場景下的穩定的深度估計。

20. Cross View Fusion for 3D Human Pose Estimation

文章發表在ICCV 2019上，提出了首個跨攝像頭的特徵融合網絡，通過將“容易”視角的特徵融合到“困難”視角，有效地解決了遮擋問題。在Benchmark數據集上顯著降低了三維姿態的估計誤差。

21. Optimizing Network Structure for 3D Human Pose Estimation

在ICCV 2019上，該文章提出了基於人體模型的網絡Locally Connected Network，該網絡參數量少，能夠有效緩解Over-fitting。

22. Online Dictionary Learning for Approximate Archetypal Analysis

該文章發表在ECCV 2018上，提出了人體姿態的低維表達方法，通過投影的方式保證姿態估計的正確性。

23. Part-Aligned Bilinear Representations for Person Re-identification

該文在作者前面的工作弱監督 Deeply-Learned Part-Aligned Representations（https://arxiv.org/pdf/1707.07256.pdf）基礎上，引進了人體姿態來幫助人體部件對齊，提升了行人重識別性能。該文發表在ECCV 2018。

24. Semantics-Aligned Representation Learning for Person Re-identification

本文即將發表在AAAI 2020上，提出了基於語義對齊的特徵學習網絡進行行人重識別。我們通過引入對人體空間語義對齊的全視圖的重建任務，實現了賦予網絡由單（視角）張圖像預測全視角人體外觀的能力，解決了行人重識別中圖像間空間語義不對齊的難題。

25. Uncertainty-aware Multi-shot Knowledge Distillation for Image-based Object Re-identification

將發表在AAAI 2020上，通過對同一目標的不同圖片的信息的聯合學習，獲取更全面的對該目標的特徵表達，並利用Teacher-Student網絡來針對性地將學到的更全面的信息傳遞給學生網絡(單張圖像爲輸入)，實現了測試階段僅需要單張圖片作爲輸入，但更全面和高判別力的特徵提取。