總結｜復旦大學陳俊坤：自然語言處理中的多任務學習｜AI 研習社職播間第 6 期

AI 科技評論編者按：過去幾年，深度學習在自然語言處理中取得了很大的進展，但進展的幅度並不像其在計算機視覺中那麼顯著。其中一個重要的原因是數據規模問題。多任務學習是將多個任務一起學習，充分挖掘多個任務之間的相關性，來提高每個任務的模型準確率，從而可以減少每個任務對訓練數據量的需求。

分享嘉賓：

陳俊坤，復旦大學計算機系在讀碩士，導師是邱錫鵬副教授，主要研究方向爲自然語言處理，多任務學習等。其研究工作曾在 AAAI, IJCAI 上發表。

分享主題：自然語言處理中的多任務學習 & 復旦大學 NLP 實驗室介紹

分享提綱：

1、復旦大學 NLP 實驗室介紹

2、基於深度學習的自然語言處理

3、深度學習在自然語言處理中的困境

4、自然語言中的多任務學習

5、多任務基準平臺

雷鋒網 AI 研習社將其分享內容整理如下：

本次的分享主要有兩個目的：一是介紹一下復旦大學 NLP 實驗室的相關工作；二是讓願意攻讀研究生的同學對國內實驗室有更多的瞭解，從而在選擇攻讀研究生上更有目標性。

復旦大學 NLP 實驗室介紹

分享之前，先進行一下自我介紹，我目前在復旦大學 NLP 實驗室攻讀研三，師從邱錫鵬副教授，現在也是字節跳動 AI Lab 的實習生，研究方向主要是自然語言處理、多任務學習和遷移學習。今天的分享，我會重點講一下多任務學習。

另外介紹一下復旦大學 NLP 實驗室，它致力於利用機器技術，理解和處理人類語言，擁有國內領先的團隊，實驗室的老師都有非常豐富的經驗。我所在的研究組主要聚焦於深度學習和自然語言處理領域，包括語言表示學習、詞法/句法分析、文本推理、問答系統等方面，指導老師是邱錫鵬副教授，近幾年來，我們發表國際頂級會議/期刊 50 餘篇，還獲得了 ACL 2017 傑出論文；在 SQUAD 2.0 上獲得第二的成績，並在 SQUAD 1.1 上多次獲得第一；另外我們也開發開源自然語言處理系統，希望能幫助大衆解決更多問題，其中包括 FudanNLP（國內最早的開源 NLP 系統之一）、fastNLP（一個模塊化、自動化、可擴展的 NLP 系統）。

本次自然語言處理的報告綱要包括：

自然語言處理簡介

基於深度學習的自然語言處理

深度學習在自然語言處理中的困境

自然語言處理中的多任務學習

新的多任務基準平臺

自然語言處理簡介

首先簡單介紹一下自然語言語言處理這個概念。

我們知道圖靈測試是指，當一個人與機器對話時，他無法判斷對方是機器還是人，那機器就通過了圖靈測試。這就引出了自然語言處理的核心：讓機器去理解和生成自然語言。

那什麼是自然語言處理？我們可以大致將其理解爲人類語言，區別於程序語言等人工語言。自然語言處理任務包括語音識別、自然語言理解、自然語言生成、人機交互以及所涉及的中間階段，目前可以歸爲是人工智能和計算機科學的交叉子學科。

從技術上進行總結，可以分爲三個層面：基礎技術、核心技術和應用：

自然語言處理的難點在於歧義性，以下我以中文分詞爲例進行說明：

（關於自然語言處理的難點的具體講解，請回看視頻 00：05：35 處）

自然語言處理的發展歷程可以這樣總結：在 1990 年以前，多基於規則的方法進行自然語言處理；90 年代以後，逐漸引入一些統計學習的方法；目前，自 2012 年開始，隨着的深度學習的熱潮，開始基於深度學習神經網絡端到端的訓練進行自然語言處理。總之，自然語言處理就是一個理解語言（文本到機器）、生成（機器到文本）再到交互的過程。