第六屆中文語法錯誤診斷大賽，哈工大訊飛聯合實驗室再獲多項冠軍

近日，第六屆中文語法錯誤診斷大賽（CGED）研討會於AACL 2020大會“面向教育技術的自然語言處理（NLPTEA）”workshop中順利舉行。今年共有國內外14支隊伍參賽，提交了44個系統。訊飛、阿里、上交、南大、有道、外研社、新華社等團隊均有精彩表現。其中，哈工大訊飛聯合實驗室（下文簡稱HFL）團隊獲得綜合排名第一的成績，多項核心指標保持領先。

A.I.也能改作文，我們拿下多項冠軍！

中文語法錯誤診斷大賽官方網頁

曾經，語文老師批改作文的場景還歷歷在目——從文章裏找出贅餘、少詞、語序不當、語意不通的地方，然後一一改正。

最近，這場世界級比賽就把上述場景作爲考點——第6屆中文語法錯誤診斷大賽（CGED）。主辦方會挑選外國人寫作的中文句子作爲考題，參賽團隊需要利用A.I.算法技術對其中的語法語義錯誤進行識別，對部分類別錯誤進行修正，並進行系統性能評估。

可別小看了這場“語法批改大賽”，它所考驗的能力十分綜合。涉及到參賽隊伍的語病識別能力（識別句子是否有錯誤）、語病分類能力（識別具體的錯誤類型）、語病定位能力（識別錯誤的位置和類型）、語病修正能力（對於缺失和用詞不當，提供修正建議）等等。

語病錯誤類型舉例表

最終，在語病識別、語病分類、語病定位、語病修正四類核心指標中，HFL在兩項關鍵指標中獲取冠軍，另外獲得一項第二和一項第三。這也是繼上一屆大賽（CGED 2018）奪冠後，持續保持技術領先的又一份成績單。

CGED 2020 Identification-level指標情況

CGED 2020 Position-level指標情況

CGED 2020 Correction top1 指標情況

縱觀最近幾年的比賽成績，中文語法檢錯技術不斷進步，檢錯效果在不斷提升。背後付出了哪些努力？

原來，隨着深度學習相關技術的快速發展，越來越適合任務本身的模型被研究出來，並且隨着預訓練語言模型的發展，更多的外部知識被加入到模型中，使得模型的表徵能力越來越強。HFL就是以深度學習技術與預訓練語言模型爲基礎，結合集成學習相關技術，完成對語病的精準識別、定位與修正。

真題實戰，看看這位A.I.冠軍如何修煉

本次HFL參賽評測方案，主要分爲檢測和修正兩部分。在檢測任務中，我們提出了ResBERT檢測模型，這種模型可以幫助我們更好地檢測出語法的錯誤類型與位置信息等。

ResBERT模型結構圖

在修正任務中，我們針對缺失和用詞不當錯誤分別採用如下兩種方案進行修正：針對缺失錯誤，我們首先預測缺失位置、缺失字數，然後再使用語言模型生成候選修正結果，最後通過對多個候選修正結果的綜合比較來確定最終修正結果。針對用詞不當錯誤，我們綜合考慮字音、字形相似度以及語言模型打分來選出最終的修正結果。

例如“請座的小朋友把手放在膝蓋上”一句，我們根據檢測模型，可以判斷出“請座”中間缺少一個字，再根據修正方案確定在“請”與“座”中間需要加一個“在”字，即句子最終被修正爲“請在座的小朋友把手放在膝蓋上”。

當然，我們看到今年的比賽中語病修正的指標還很低，最高的F1值也未超過0.2，原因是什麼呢？我們分析評測數據來看，數據以單句形式給出，比如“那個時候我嚐嚐去美術館參觀畫。”語病修正的參考答案爲：將“嚐嚐”改爲“嘗試”，而合理的修正方法其實有很多種，比如也可以改成“常常”等。僅通過單句的信息，無法確定唯一的修正結果，需要更多的上下文信息才能確定作者所要表達的真實意圖。這給評測數據的構建也提出了不小的挑戰。

因此，要想提升語病修正的效果並在實際產品中應用，對於篇章級文本的診斷分析是非常有必要的，這也給未來的評測和技術提出了更高的要求。

技術落地應用，我們讓A.I.走得更遠

在堅持核心技術研究不斷創新進步的同時，我們也不斷讓A.I.賦能於應用，服務於生活的方方面面。

多種辦公場景下，人們長時間從事文字工作難免出錯。無論是撰寫文檔，還是在信息共享與儲存場景中，當前流行的辦公工具對中文文本校對未能提供很好支持，智能辦公亟待升級。

HFL基於長期以來的技術積累，早在2019年12月1日，便正式發佈了“飛鷹智能文本校對系統”

飛鷹校對涵蓋文本校對的別字糾錯、語法糾錯、標點糾錯及敏感詞檢測等不同校對模塊，並且可針對不同領域的文本校對需求，爲行業客戶提供定製化的解決方案，現已支持通用領域、司法領域和教育領域文本校對服務。

飛鷹智能文本校對系統

此外，中文語法錯誤診斷技術還被應用於作文自動批改中，包括錯別字修正、語法檢錯等功能，目前已在中小學作業、訊飛學習機等產品中應用落地，輔助減輕老師作文批改的工作負擔，也可以幫助學生在自主學習中及時獲得作文批改的反饋。

科大訊飛作文自動批改

未來，隨着技術的不斷進步，以中文語法錯誤診斷與修正技術爲核心的文本校對將在編輯出版、公文撰寫、作文批改以及廣大自媒體文稿寫作等場景中發揮越來越大的作用，應用前景廣闊。

佈局訊飛超腦，HFL讓機器能理解會思考

哈工大訊飛聯合實驗室（HFL）是科大訊飛針對“訊飛超腦”項目計劃，重點引進和佈局的核心研發團隊之一，成立於2014年，由哈爾濱工業大學社會計算與信息檢索研究中心(HIT-SCIR)與科大訊飛AI研究院共同創辦。

根據聯合實驗室建設規劃，雙方在語言認知計算領域進行長期、深入合作，具體開展閱讀理解、自動閱卷、類人答題、人機對話、語音識別後處理、社會輿情計算等前瞻課題的研究，支撐科大訊飛實現從“能聽會說”到“能理解會思考”的技術跨越，並圍繞教育、司法、人機交互等領域實現科研成果的規模化應用與落地。

2017年至2019年，哈工大訊飛聯合實驗室在國際權威機器閱讀理解評測SQuAD、SQuAD 2.0多次獲得冠軍。其中2019年3月，在SQuAD 2.0評測中全球首次超過人類平均水平併成爲里程碑事件。2018年獲得國際語義評測（SemEval 2018）閱讀理解賽道冠軍。2019年至2020年，在多步推理閱讀理解評測HotpotQA雙賽道均獲得冠軍。2020年，在國際權威通用自然語言理解評測GLUE中獲得冠軍。