科大訊飛的機器閱讀理解能力再次進化。11月16日,在新揭曉的SQuAD2.0排行榜上,哈工大訊飛聯合實驗室團隊(HFL)從谷歌(Google AI)、阿里達摩院(Alibaba DAMO)、微軟亞洲研究院(Microsoft Research Asia)等業界翹楚中脫穎而出,獲得今年的第10個世界冠軍。

SQuAD2.0最新榜單(截至2018.11.22)

從1.1到2.0:測試高度再升級

SQuAD(Stanford Question Answering Dataset)是認知智能行業內公認的機器閱讀理解領域的頂級水平測試,通過吸收來自維基百科的大量數據,SQuAD構建了一個包含十多萬問題的大規模機器閱讀理解數據集,這使得在這個數據集上訓練大規模複雜算法成爲可能。

本次參測的SQuAD2.0相比此前的SQuAD1.1,在基於篇章片段抽取的閱讀理解任務的基礎上進一步提高了解答難度,對機器閱讀理解模型提出了新的挑戰。其難度主要在於在新版本數據集中加入了“不可回答的問題”,即參賽團隊所提交的機器閱讀理解模型需要通過閱讀篇章和問題,判斷所提出的問題是否能夠通過篇章內容進行回答,如果可以回答,則根據篇章中的內容作出答案;如果不可回答,則需要對題目進行拒答。

認知智能新突破:科大訊飛再奪第一

2018年對於以機器閱讀理解爲核心的認知智能來說是不平凡的一年,從上半年哈工大訊飛聯合實驗室在語義評測SemEval-2018和CGEG中相繼奪冠到下半年Google提出的BERT模型在各類自然語言理解測試中頻頻刷榜,中西方智慧在交流中不斷助力全球認知智能領域研究邁上新臺階。

作爲全球範圍內較早啓動機器閱讀理解技術研究的團隊,哈工大訊飛聯合實驗室閱讀理解團隊(HFL-RC)此前已多次榮登SQuAD榜首。在本次提交的系統中,哈工大訊飛聯合實驗室在吸收業界最新前沿技術的同時又加入了已有的原創核心技術,不僅將評測中的兩項指標進一步提升到新的高度,還在各自單模型系統(Single Model)的對比中,以顯著優勢贏得勝利。

哈工大訊飛聯合實驗室參賽提交系統一覽

從具體指標來看,哈工大訊飛聯合實驗室所提交的模型在EM指標(Exact Match,精準匹配率,預測答案和真實答案完全匹配,即機器給出的答案需要和人一樣纔算正確)上達到82.374,F1指標(F1-score,模糊匹配率,即將答案短語切成詞,與人類答案共同計算迴歸率和準確性,如果機器模型的答案並沒有完全匹配也可以得分,用以表示評測模型的整體性能)上達到85.310,進一步縮小了機器與人類認知水平在該數據集上的效果差距(EM:86.831,F1:89.452)。

科大訊飛眼中的A.I.技術:技術+應用纔是硬道理

從去年開始,科大訊飛就已經從探索技術無人區的角度出發,開始嘗試在閱讀理解與問題拒答領域進行技術拓展,今年斯坦福大學將SQuAD評測推向2.0版本,進一步佐證了科大訊飛在自然語言處理等基礎研究上的前瞻性

基於此前研究的積累,目前科大訊飛已成功將機器閱讀理解技術融合於車載智能交互系統中,通過讓車機閱讀汽車說明書和其他介紹材料,車載系統就可以深度理解並掌握車型的具體情況,從而在用戶提出問題時,針對用戶問題做到及時、精確的反饋,並對說明書等材料中未涉及內容直接拒答,從而提高用戶獲取信息的速度,在未來技術進一步提升後,甚至還可以直接根據廠商所提供的資料,針對用戶的問題作出具體且準確的答覆。

科大訊飛執行總裁胡鬱在2017訊飛年度發佈會上介紹智能車載系統中閱讀技術的應用

CMRC:引領中文機器閱讀理解技術前行

不僅在覈心技術上持續深耕,積極參加SQuAD等國際性機器閱讀理解比賽,哈工大訊飛聯合實驗室也同樣持續關注和積極推動中文信息處理的研究發展。

在過去的2017年和2018年,哈工大訊飛聯合實驗室先後承辦了兩屆“訊飛杯”中文機器閱讀理解評測(CMRC),受到了業界的廣泛關注,吸引了衆多研究人員積極參加。在賽後,哈工大訊飛聯合實驗室還發布了相關中文數據集。

放眼即將到來的2019年,科大訊飛與哈工大雙方還將繼續攜手中國中文信息學會計算語言學專業委員會(CIPS-CL),承辦相關中文評測活動,爲研討和傳播最新學術和技術成果提供了高水平的平臺,以期進一步促進和推動中文機器閱讀理解研究。

哈工大訊飛聯合實驗室

哈工大訊飛聯合實驗室(HFL)是科大訊飛針對“訊飛超腦”項目計劃,重點引進和佈局的核心研發團隊之一,由科大訊飛AI研究院與哈爾濱工業大學社會計算與信息檢索研究中心(HIT-SCIR)共同創辦。

根據聯合實驗室建設規劃,雙方將在語言認知計算領域進行長期、深入合作,具體開展閱讀理解、自動閱卷、類人答題、人機對話、語音識別後處理、社會輿情計算等前瞻課題的研究。重點突破深層語義理解、邏輯推理決策、自主學習進化等認知智能關鍵技術,支撐科大訊飛實現從“能聽會說”到“能理解會思考”的技術跨越,並圍繞教育、司法、人機交互等領域實現科研成果的規模化應用。

查看原文 >>
相關文章