MASTER:全局上下文建模大幅提高文本識別精度
我愛計算機視覺 標星,更快獲取CVML新技術
今天跟大家分享一篇昨天新出的場景文本識別方法MASTER,其發明了一種Multi-Aspect 全局上下文建模方法,有效改進了文本識別精度,在多個數據集上取得了目前最好的精度,是最近最值得讀的文本識別方面的論文。
該文作者信息:
作者單位爲來自國內的平安產險視覺團隊和徐州醫科大學。
現實中出現的規則和不規則文本示例:
該文指出,目前基於注意力機制的自然場景文字識別方法在OCR領域取得了很大成果,成功的主要原因是在RNN的框架下,基於注意力的方法可以學習到一維或者二維特徵的內在表示。
但是這種基於這種局部注意力機制的方法卻存在注意力漂移的問題,並且在RNN架構下模型無法高效的並行計算。
作者正是想在文本識別中引入全局注意力機制。
爲了提高模型性能和緩解注意力混淆問題,本文作者(平安產險視覺團隊)等人提出了一個更高效和更魯棒的場景文本識別方法:MASTER。
MASTER包括兩個核心模塊:
(1)基於Multi-Aspect的全局上下文注意力機制的編碼器;
(2)基於Transformer的解碼器。
今年一種全局注意力模型GCNet被提出:
Y. Cao, J. Xu, S. Lin, F. Wei, and H. Hu, “GCNet: Non-local networks meet squeeze-excitation networks and beyond,” ArXiv, vol. abs/1904.11492, 2019.
其全局上下文建模模塊如下:
其主要分爲Context Modeling 和 Transform 兩大部分,並將原始特徵圖與Transform輸出結果融合。
該文將其用於場景文本識別的注意力建模,發現如果使用多個注意力函數,可以取得更好的結果:
其核心模塊如下:
可見,創新之處在於其含有h個Context Modeling。
在解碼器部分也有多處改進,主要有:
-
Scaled Multi-Head Dot-Product Attention
-
Masked Multi-Head Attention
-
Position-wise Feed-Forward Networn
-
Loss Function
MASTER架構圖:(請點擊查看大圖)
實驗結果
作者在常見評價數據集上與State-of-the-art方法進行了比較:
在 7 個數據集上有 4 個取得了當前最高的精度。
(另外3個是52CV曾經向大家重點介紹過的Mask TextSpotter:
華科白翔老師團隊ECCV2018 OCR論文:Mask TextSpotter )
下表是在 COCO-text test 數據集上的結果:
可見MASTER在不區分大小寫賽道取得了當前第一名的結果,並大幅超越第二名,在區分大小寫賽道取得準確率指標第四的好成績。
作者總結稱MASTER方法具有如下優勢:
( 1)模型能夠更好的學習輸入和輸出之間的對齊關係,並且能夠在編碼器內部學習特徵與特徵之間的依賴關係,在解碼器內部學習目標與目標之間的依賴關係,緩解了注意力混淆問題;
(2)模型在公開的基準數據集上取得了SOTA水平,尤其在不規則文本數據集上刷新了準確率,表明其對圖片的空間形變不敏感;
(3)訓練和預測階段使用了並行計算,更加高效。
目前還未發現該文有 開源代碼, 不過作者在論文中詳細 列出了 關鍵模塊的配置和 PyTorch 實現,應該比較容易復現。
論文地址:
https://arxiv.org/pdf/1910.02562.pdf
在我愛計算機視覺公衆號對話界面回覆“ MASTER ”(建議複製),即可收到論文下載。
OCR交流羣
OCR交流羣是52CV最活躍的技術交流羣之一,關注文本檢測、識別、風格化相關技術,聚集了大量學術界和產業界的朋友,掃碼添加CV君拉你入羣,(如已爲CV君其他賬號好友請直接私信)
( 請務必註明:OCR )
喜歡在QQ交流的童鞋,可以加52CV官方 QQ羣 : 805388940 。
(不會時時在線,如果沒能及時通過驗證還請見諒)
長按關注 我愛計算機視覺