MASTER：全局上下文建模大幅提高文本識別精度

我愛計算機視覺標星，更快獲取CVML新技術

今天跟大家分享一篇昨天新出的場景文本識別方法MASTER，其發明了一種Multi-Aspect 全局上下文建模方法，有效改進了文本識別精度，在多個數據集上取得了目前最好的精度，是最近最值得讀的文本識別方面的論文。

該文作者信息：

作者單位爲來自國內的平安產險視覺團隊和徐州醫科大學。

現實中出現的規則和不規則文本示例：

該文指出，目前基於注意力機制的自然場景文字識別方法在OCR領域取得了很大成果，成功的主要原因是在RNN的框架下，基於注意力的方法可以學習到一維或者二維特徵的內在表示。

但是這種基於這種局部注意力機制的方法卻存在注意力漂移的問題，並且在RNN架構下模型無法高效的並行計算。

作者正是想在文本識別中引入全局注意力機制。

爲了提高模型性能和緩解注意力混淆問題，本文作者（平安產險視覺團隊）等人提出了一個更高效和更魯棒的場景文本識別方法：MASTER。

MASTER包括兩個核心模塊：

（1）基於Multi-Aspect的全局上下文注意力機制的編碼器；

（2）基於Transformer的解碼器。

今年一種全局注意力模型GCNet被提出：

Y. Cao, J. Xu, S. Lin, F. Wei, and H. Hu, “GCNet: Non-local networks meet squeeze-excitation networks and beyond,” ArXiv, vol. abs/1904.11492, 2019.

其全局上下文建模模塊如下：

其主要分爲Context Modeling 和 Transform 兩大部分，並將原始特徵圖與Transform輸出結果融合。

該文將其用於場景文本識別的注意力建模，發現如果使用多個注意力函數，可以取得更好的結果：

其核心模塊如下：

可見，創新之處在於其含有h個Context Modeling。

在解碼器部分也有多處改進，主要有：

Scaled Multi-Head Dot-Product Attention
Masked Multi-Head Attention
Position-wise Feed-Forward Networn
Loss Function

MASTER架構圖：（請點擊查看大圖）

實驗結果

作者在常見評價數據集上與State-of-the-art方法進行了比較：

在 7 個數據集上有 4 個取得了當前最高的精度。

（另外3個是52CV曾經向大家重點介紹過的Mask TextSpotter：

華科白翔老師團隊ECCV2018 OCR論文：Mask TextSpotter ）

下表是在 COCO-text test 數據集上的結果：

可見MASTER在不區分大小寫賽道取得了當前第一名的結果，並大幅超越第二名，在區分大小寫賽道取得準確率指標第四的好成績。

作者總結稱MASTER方法具有如下優勢：

（ 1）模型能夠更好的學習輸入和輸出之間的對齊關係，並且能夠在編碼器內部學習特徵與特徵之間的依賴關係，在解碼器內部學習目標與目標之間的依賴關係，緩解了注意力混淆問題；

（2）模型在公開的基準數據集上取得了SOTA水平，尤其在不規則文本數據集上刷新了準確率，表明其對圖片的空間形變不敏感；

（3）訓練和預測階段使用了並行計算，更加高效。

目前還未發現該文有開源代碼，不過作者在論文中詳細列出了關鍵模塊的配置和 PyTorch 實現，應該比較容易復現。

論文地址：

https://arxiv.org/pdf/1910.02562.pdf

在我愛計算機視覺公衆號對話界面回覆“ MASTER ”（建議複製），即可收到論文下載。

OCR交流羣

OCR交流羣是52CV最活躍的技術交流羣之一，關注文本檢測、識別、風格化相關技術，聚集了大量學術界和產業界的朋友，掃碼添加CV君拉你入羣，（如已爲CV君其他賬號好友請直接私信）

（請務必註明：OCR ）

喜歡在QQ交流的童鞋，可以加52CV官方 QQ羣 ： 805388940 。

（不會時時在線，如果沒能及時通過驗證還請見諒）

長按關注我愛計算機視覺

MASTER：全局上下文建模大幅提高文本識別精度

實驗結果

OCR交流羣

熱門新聞

週熱門

MASTER：全局上下文建模大幅提高文本識別精度

實驗結果

OCR交流羣

蹭上AI風口Palantir斬獲美軍4.8億美元大合同 聚焦“AI+計算機視覺”

麻理研究發現：僅23%工人可以被AI取代

國新文化(600636.SH)：子公司奧威亞在計算機視覺CV與自然語言處理NLP方向均有成熟產品

移爲通信(300590.SZ)：視頻車聯網智能終端融合了基於計算機視覺和多傳感器的人工智能識別算法，具有DMS功能

智洋創新(688191.SH)：正在開展有關聲紋監測相關技術的研究

“看100遍《泰坦尼克》”，華爲“天才少年”透露魔鬼訓練

計算機視覺領域“大牛”代季峯已加盟清華大學任副教授

特斯拉自動駕駛業務再受挫？核心技術高管宣佈離職

商湯盤中大漲6%，行業地位獲機構力挺

計算機頂會CVPR：中國投稿數第一，李飛飛獲黃煦濤紀念獎

曠視科技首席科學家孫劍因病逝世，他不僅僅是一家公司的技術領路人

即掃即識，微信“掃一掃”識物爲什麼可以這麼快？

視覺目標跟蹤漫談：從原理到應用

2020入坑圖像分割，我該從哪兒入手？

曠視首席孫劍：視覺計算前沿進展

熱門新聞

週熱門

蹭上AI風口Palantir斬獲美軍4.8億美元大合同聚焦“AI+計算機視覺”