種一棵樹,最好的時間是十年前,其次是現在。——Dambisa Moyo

7 月 10 日,自然語言處理頂會 ACL 2020 落下帷幕。本次大會共收到 3429 篇論文投稿,其中 779 篇被接收,接收率爲 22.7%,與去年持平,低於近年來大部分年份的接收率。

在這 779 篇論文中,有 185 篇來自中國大陸,佔被接收論文總數的 23.7%,僅次於美國。此外,今年的最佳論文二作和最佳 demo 論文一作均爲華人學生。

然而,很多人可能不知道,2000 年 ACL 年會在中國香港舉辦時,只有微軟中國研究院的論文來自中國大陸;到了 2005 年,來自大陸的論文也只有三篇。

很多變化是過去十幾年發生的,尤其是過去的十年。在這十年裏,中國的 NLP 學界在 ACL 年會中的投稿數、被接收論文數逐年上升,同時,中國的 NLP 學者也實現了多個 “第一次” 的突破:

  • 2013 年,王海峯出任 ACL 五十年來首位華人主席;

  • 2014 年,吳華出任 ACL 程序委員會主席,成爲中國企業首位 ACL 程序委員會主席;

  • 2015 年,ACL 年會首次在中國舉辦;大會上,哈工大教育部語言語音重點實驗室主任李生教授獲得 ACL 終身成就獎,成爲首個獲得該獎項的華人;

  • 2016 年,趙世奇當選 ACL 祕書長,成爲首位當選該職位的亞洲人;

  • 2018 年,ACL 宣佈創建亞太區域分會(AACL)並計劃在 2020 年舉行首次會議,由王海峯擔任創始主席;

  • 2020 年,百度領銜組織了 ACL 大會上首場同聲傳譯研討會(The 1st Workshop on Automatic Simultaneous Translation);

  • ……

從這些突破中,我們可以看到中國科學家的快速成長,看到中國 NLP 學界在國際上不斷擴大的影響力,看到百度這家中國互聯網公司躋身世界科技巨頭的努力。

爲什麼一家中國互聯網公司能夠吸引衆多 NLP 領域的科學家,能夠成爲國際 NLP 頂會的重要參與者?我們也許可以從百度早期的戰略佈局中找到線索。

早在十年前,百度就已經在 ACL 大會上留下了中國互聯網企業的身影。彼時,第三次人工智能浪潮還沒有掀起太多波瀾,李世石和 AlphaGo 的里程碑式對弈還有六年纔會發生。

今年正值百度NLP 的第十個年頭,我們回顧一下過去十年的路程,看看以百度爲代表的中國企業如何憑藉對整個領域的洞察在 NLP 領先佈局、持續投入前沿技術研究及產業實踐,這對於當下提升科技競爭力以及如何在行業發展早期做好戰略佈局仍具有借鑑意義。

百度與 ACL 的十年交集

2010 年,百度進入創建之後的第二個十年,中國互聯網也進入了高速發展期。

當時,百度已經積累了大量的數據和用戶羣體,有着豐富的應用場景可以挖掘。對於需要大量真實數據並希望自己的成果服務廣大用戶的研究者來說,百度的這些特質有着強大的吸引力。於是,在這一年,百度迎來了 NLP 領域知名科學家——王海峯博士。

王海峯本碩博都畢業於哈工大,早在博士期間就做過將神經網絡引入機器翻譯的研究。進入百度之前,他曾先後就職於微軟中國研究院、東芝等,並與 ACL 結緣,2004 年開始在 ACL 上發表論文,2006 年曾有 5 篇論文被收錄。

除了海量的數據、豐富的應用場景之外,真正讓王海峯下定決心加盟百度的契機其實是 2009 年 8 月的“百度世界大會”。

與以往三屆不同,2009 年百度世界大會給人的感覺是格外具有技術味道。李彥宏在這屆大會上推出了全新計算平臺 “框計算”——用戶只要在”百度框”中輸入服務需求,系統就能明確識別這種需求,並將該需求分配給最優的內容資源或應用提供商處理,最終精準高效地返回給用戶相匹配的結果。

從這次大會中,王海峯看到了百度對 AI 技術的重視和謀劃。他敏銳地判斷出,如果百度沿着“框計算” 的思路進一步發展,就需要更強大的自然語言處理技術的支撐,尤其是語言分析、語義理解、知識圖譜等方向。

2010 年,進入百度之後,王海峯所做的第一件事就是成立了“自然語言處理部”。

在此之前,百度在 NLP 方面的研發工作一直在業務需求下進行,並沒有構成體系。NLP 部門的成立改變了這種 “指哪兒打哪兒” 的局面,對原有的工作進行了重新梳理與規劃,除分詞、專名識別、query 需求分析、query 改寫等傳統方向得到加強外,也逐步建設了機器翻譯、機器學習、語義理解、智能交互、深度問答、篇章理解等新的技術方向。

也是在這一年,王海峯敲定了百度在知識圖譜技術上的研發投入,而當時,知識圖譜還不是一個熱門的研究方向。

紮實的技術背景和豐富的行業經驗賦予了王海峯在 NLP 領域強大的背書能力。因此,他的加入進一步提升了百度的人才吸引力,幫助百度招攬了以吳華博士爲代表的一大批技術骨幹。

吳華博士在人工智能領域浸潤 20 餘年,專注於自然語言處理。據統計,她在機器翻譯及自然語言處理領域授權或公開的專利申請有 100 餘項,發表學術論文 60 餘篇。

隨着技術骨幹的加入,百度開始在 NLP 領域的國際頂會中嶄露頭角。2010 年,王海峯、吳華的一篇論文被 ACL 錄用,百度也成爲參加這個國際頂會的首箇中國互聯網企業。

在這之後的十年裏,百度幾乎每年都會在 ACL 上展示最新的研究成果,成爲這一國際大會的重要參與者。同時,在王海峯等人的不斷努力下,中國研究者在 ACL 上的影響力不斷擴大,開始擁有更多的話語權。

2013 年,王海峯出任 ACL 五十年來首位華人主席。

在王海峯等人的共同推動下,2015 年,ACL 首次在中國舉辦,體現了國際學界對中國自然語言處理研究的重視和認可。

2018 年,在第 56 屆 ACL 年會開幕式上,時任 ACL 主席 Marti Hearst 宣佈創建亞太區域分會(AACL)並計劃在 2020 年舉行首次會議。之後每兩年舉行一次會議,會議地點將設置在亞太地區,由王海峯擔任 AACL 創始主席。

2020 年,百度11 篇論文被 ACL 收錄,覆蓋了語義表示、情感分析、自動摘要、對話系統、機器翻譯、知識推理、AI 輔助臨牀診斷等諸多熱點與前沿研究方向。同時,百度聯合谷歌、Facebook、清華大學等全球頂尖機構共同舉辦了首屆同聲傳譯研討會,就 ERNIE 核心技術、開放域人機對話技術、智慧醫療、生物醫藥等業內關注的話題做了演講,展現了中國企業在 NLP 及 AI 領域的技術創新與產業實踐。

如果將十年前的百度NLP 比喻成一片苗圃,那麼,經過十年的澆灌,這片苗圃已然成林。王海峯等人的貢獻在於,他們很早就選到了優質的樹苗並悉心培育。

從今年百度被 ACL 接收的論文以及最近公佈的研究進展中,我們可以看到這種前瞻視野和佈局帶來的豐碩成果。

從 ACL、百度看 NLP 十年研究趨勢

如果仔細觀察近幾年的 ACL 接收論文和百度公佈的研究成果,我們不難發現 NLP 領域的幾個研究趨勢,包括 1)越來越多的研究者將知識融入到 NLP 模型中,以提高模型的理解和推理能力;2)多模態語義理解越來越受關注,同時在視頻網站、電商物流、自動駕駛等領域得到廣泛應用……

將知識融入 NLP 模型

語言和知識促進了人類文明的發展。人們從大量的數據和信息中獲取知識,語言是凝鍊和傳承知識的載體,進而又將知識應用於生產生活的方方面面。早在十年前,王海峯就敏銳地覺察到知識的重要性,開始佈局知識圖譜技術並逐漸加大研發投入。百度將多源異構的海量互聯網信息匯聚在一起,從中挖掘知識、構建大規模圖譜。而當時,知識圖譜對於大多數人來說還比較陌生。

2014 至 2017 年間,基於互聯網大數據和搜索應用,百度知識圖譜技術發展非常迅速。2016 年,百度構建了全球最大的知識圖譜,擁有數億實體、數千億事實。2017 年,基於知識圖譜技術突破和產業化應用,百度“知識圖譜技術及應用” 項目獲得“中國電子學會科技進步一等獎”。

此後,面向實際應用場景,百度系統地拓展了多源異構知識圖譜的研發與應用。針對不同的應用場景和知識形態,構建了關注點圖譜、事件圖譜、多媒體圖譜、行業知識圖譜等多種圖譜。從認知深度、信息寬度和領域廣度多維度對實體圖譜進行了系統性的拓展和升級。在領域廣度方面,則從通用領域拓展到涵蓋醫療、法律等行業在內的具有強知識性的專業領域。

特別地,在醫療領域,基於知識圖譜技術的輔助醫療決策等產品目前已在全國 300 多家醫院、1500 多家基層醫療機構規模化落地應用。相關產品榮獲 2019 年全國醫療人工智能應用創新獎。2019 年 7 月,在百度開發者大會上首次發佈了“行業知識圖譜平臺”,整合知識圖譜構建、存儲、問答、推理等技術能力,爲行業知識的獲取與應用提供一體化解決方案。

此外,早在 2011 年,百度就着手研究基於知識的語言解析。2012 年,百度研發了基於海量數據訓練的神經網絡深度語義匹配框架——SimNet。該框架率先將語義表示與匹配計算統一在一個端到端的神經網絡模型裏,並結合中文語言特性融合了多粒度知識,支持千億規模真實搜索點擊數據訓練。

去年,百度先後發佈了知識增強的語義表示模型 ERNIE 和持續學習語義理解模型 ERNIE 2.0。2019 年 12 月,ERNIE 在國際權威的通用語言理解評估基準GLUE 上首次突破 90 大關,超越人類三個點,獲得全球第一。今年 3 月,在全球最大規模的國際語義評測 SemEval 上,ERNIE 獲得 5 項世界冠軍 。在剛剛落下帷幕的世界人工智能大會,百度文心(ERNIE)知識增強語義理解技術與平臺獲得了大會最高榮譽獎項“卓越人工智能引領者”(SAIL)獎。

這些突破的取得,都離不開百度在相關方向上的前瞻佈局和持續投入。

多模態語義理解

多模態語義理解是解決複雜場景智能化應用的關鍵技術,近年來備受關注。

2010 年左右,科技產業處在迅速的變化之中,人們對信息媒介的需求已不僅僅侷限於文字,而是向語音、圖像等多個方向擴展。於是,幾乎在成立 NLP 部門的同一時期,王海峯就已開始着手佈局語音技術和視覺技術,牽頭組建了當時的“多媒體部”。

這一決定是非常具有前瞻性的。因爲當時,除了與搜索強相關的 NLP 業務,早期百度並沒有太多相關的智能技術需求。在多媒體部成立的初期,很多人也不知道這些技術有什麼用。

憑藉在語音、視覺、語言與知識等領域多年的技術積累與融合,2018 年百度發佈了以 “多模態深度語義理解” 爲核心的百度大腦 3.0。百度大腦是百度AI 核心技術引擎,包括視覺、語音、自然語言處理、知識圖譜、深度學習等 AI 核心技術和 AI 開放平臺。如今,百度大腦已經向所有開發者開放了 260 多項 AI 能力,其中包括機器同傳、拍照翻譯、文檔解析、圖文審覈、視頻分類、對話情緒識別、圖文轉視頻等融合文本與語音、視覺技術的能力。

今年,百度在多模態語義理解上取得新突破,提出了知識增強的視覺 - 語言預訓練模型 ERNIE-ViL 。ERNIE-ViL 首次將場景圖知識融入多模態預訓練, 刷新了 5 項多模態任務紀錄,並登頂權威榜單 VCR。

除了這些之外,近年來,百度NLP 還在語義計算、閱讀理解、多輪對話、機器翻譯、開放平臺與數據等方向取得了突破性進展,並實現了大規模產業化應用。

對比百度所取得的 NLP 技術成果和 ACL 十年來的研究趨勢,我們可以發現,這家公司對於 NLP 研究趨勢的把握是非常精準的,而這些都得益於王海峯等領軍人物對該領域的長期洞察。

正如非洲經濟學家 Dambisa Moyo 在一本書裏所提到的,“種一棵樹,最好的時間是十年前,其次是現在”。在 NLP 領域,百度既沒有錯過十年前的黃金 “種植期”,也沒有在十年的每一個“現在” 裏鬆懈。尊重技術的發展規律,敏銳把握產業需求變遷,持續、堅定的投入,百度當年種下的一棵棵 NLP“小樹”已經長成一片樹林,而且還在不斷生長出新的樹苗。

在王海峯、吳華等研究者的帶領下,我們有理由期待百度NLP 的下一個十年。

參考資料:《AI已來:讓中國AI走向世界的王海峯》

相關文章