我愛計算機視覺 標星,更快獲取CVML新技術

今天跟大家分享一篇昨天新出的場景文本識別方法MASTER,其發明了一種Multi-Aspect 全局上下文建模方法,有效改進了文本識別精度,在多個數據集上取得了目前最好的精度,是最近最值得讀的文本識別方面的論文。

該文作者信息:

作者單位爲來自國內的平安產險視覺團隊和徐州醫科大學。

現實中出現的規則和不規則文本示例:

該文指出,目前基於注意力機制的自然場景文字識別方法在OCR領域取得了很大成果,成功的主要原因是在RNN的框架下,基於注意力的方法可以學習到一維或者二維特徵的內在表示。

但是這種基於這種局部注意力機制的方法卻存在注意力漂移的問題,並且在RNN架構下模型無法高效的並行計算。

作者正是想在文本識別中引入全局注意力機制。

爲了提高模型性能和緩解注意力混淆問題,本文作者(平安產險視覺團隊)等人提出了一個更高效和更魯棒的場景文本識別方法:MASTER。

MASTER包括兩個核心模塊:

(1)基於Multi-Aspect的全局上下文注意力機制的編碼器;

(2)基於Transformer的解碼器。

今年一種全局注意力模型GCNet被提出:

Y. Cao, J. Xu, S. Lin, F. Wei, and H. Hu, “GCNet: Non-local networks meet squeeze-excitation networks and beyond,” ArXiv, vol. abs/1904.11492, 2019.

其全局上下文建模模塊如下:

其主要分爲Context Modeling 和 Transform 兩大部分,並將原始特徵圖與Transform輸出結果融合。

該文將其用於場景文本識別的注意力建模,發現如果使用多個注意力函數,可以取得更好的結果:

其核心模塊如下:

可見,創新之處在於其含有h個Context Modeling。

在解碼器部分也有多處改進,主要有:

  • Scaled Multi-Head Dot-Product Attention

  • Masked Multi-Head Attention

  • Position-wise Feed-Forward Networn

  • Loss Function

MASTER架構圖:(請點擊查看大圖)

實驗結果

作者在常見評價數據集上與State-of-the-art方法進行了比較:

在 7 個數據集上有 4 個取得了當前最高的精度。

(另外3個是52CV曾經向大家重點介紹過的Mask TextSpotter:

華科白翔老師團隊ECCV2018 OCR論文:Mask TextSpotter

下表是在 COCO-text test 數據集上的結果:

可見MASTER在不區分大小寫賽道取得了當前第一名的結果,並大幅超越第二名,在區分大小寫賽道取得準確率指標第四的好成績。

作者總結稱MASTER方法具有如下優勢:

1)模型能夠更好的學習輸入和輸出之間的對齊關係,並且能夠在編碼器內部學習特徵與特徵之間的依賴關係,在解碼器內部學習目標與目標之間的依賴關係,緩解了注意力混淆問題;

(2)模型在公開的基準數據集上取得了SOTA水平,尤其在不規則文本數據集上刷新了準確率,表明其對圖片的空間形變不敏感;

(3)訓練和預測階段使用了並行計算,更加高效。

目前還未發現該文有 開源代碼, 不過作者在論文中詳細 列出了 關鍵模塊的配置和 PyTorch 實現,應該比較容易復現。

論文地址:

https://arxiv.org/pdf/1910.02562.pdf

在我愛計算機視覺公衆號對話界面回覆“ MASTER ”(建議複製),即可收到論文下載。

OCR交流羣

OCR交流羣是52CV最活躍的技術交流羣之一,關注文本檢測、識別、風格化相關技術,聚集了大量學術界和產業界的朋友,掃碼添加CV君拉你入羣,(如已爲CV君其他賬號好友請直接私信)

請務必註明:OCR

喜歡在QQ交流的童鞋,可以加52CV官方 QQ羣805388940

(不會時時在線,如果沒能及時通過驗證還請見諒)

長按關注 我愛計算機視覺

相關文章