專訪俞棟：多模態是邁向通用人工智能的重要方向

摘要：9 月 2 日，在騰訊 AI Lab 攜手 Nature Research（自然科研）及旗下《自然-機器智能》、《自然-生物醫學工程》兩本期刊聯合舉辦世界首屆「Nature Conference - AI 與機器人大會」上，語音識別領域的領頭人之一、騰訊 AI Lab 副主任、多模態虛擬人項目負責人俞棟博士更是基於其在多模態技術上的研究成果，帶來了《虛擬人中的多模態合成技術》的演講報告，以虛擬人項目爲載體，向大家介紹了多模態的技術優勢，並分享了騰訊 AI Lab 在這一方向上的研究和應用探索。據俞棟博士介紹，相較於傳統語音合成方法以及目前最新的端到端語音合成方法，應用多模態合成技術DurIAN 模型，無論是在自然度、魯棒性、可控性、泛化能力以及實時性等方面都取得了更好的效果。

雷鋒網 AI 科技評論按：隨着語音識別、自然語言處理、計算機視覺等人工智能技術日益成熟，並逐漸落地到實際場景中，如何實現大規模應用落地或者說如何通往通用人工智能，越來越成爲這些領域的研究者探索和思考的命題。

在這種探索和思考下，“多模態”成爲人工智能領域諸領軍式專家和學者重點談及的研究方向，例如，自然語言處理領域專家劉羣教授在此前與 AI 科技評論的對話中，就曾談及諾亞方舟語音語義實驗室目前的一大重點研究方向便是多模態；德國漢堡科學院院士張建偉認爲人機交互的未來是多模態共享模式；計算機視覺領域專家賈佳亞教授則在多場演講中提出「多模態是人工智能的未來」這一觀點。

而騰訊作爲業界關注這一研究方向的代表之一，自 2018 年 2 月就開始關注多模態方向的研究，並於 2018 年 11 月宣佈探索下一代人機交互方式：多模態智能。

9 月 2 日，在騰訊 AI Lab 攜手 Nature Research（自然科研）及旗下《自然-機器智能》、《自然-生物醫學工程》兩本期刊聯合舉辦世界首屆「Nature Conference - AI 與機器人大會」上，語音識別領域的領頭人之一、騰訊 AI Lab 副主任、多模態虛擬人項目負責人俞棟博士更是基於其在多模態技術上的研究成果，帶來了《虛擬人中的多模態合成技術》的演講報告，以虛擬人項目爲載體，向大家介紹了多模態的技術優勢，並分享了騰訊 AI Lab 在這一方向上的研究和應用探索。

會後，AI 科技評論還對俞棟博士進行了專訪，進一步探討了多模態的應用探索情況，其中，俞棟博士在將多模態這一研究方向視爲邁向通用人工智能的突破口的同時，也以更加冷靜的態度指出，多模態會是未來人工智能的一個非常重要的方向，但並不是全部。因爲人工智能是一個很廣泛的概念，我們目前對它可能只是略知皮毛，通往通用人工智能的這條路到底是怎麼樣的，大家都還處於一個探索狀態。

與此同時，AI 科技評論也藉此機會跟俞棟博士聊了聊他領先將深度學習技術應用到語音識別領域的歷史淵源、從微軟研究院到騰訊 AI Lab 的職業轉變經歷以及其對於語音識別領域未來發展的看法。

我們先來看俞棟博士在本次大會上都分享了什麼。

爲什麼多模態是人機交互的發展趨勢？

人機交互走過了鍵盤交互、觸摸交互等若干階段，目前許多設備採用語音交互的方式。而交互模式經歷每一次變化背後的驅動力，都是對人和機器之間交互的便利性、自然性以及準確性所提出的更高的要求。

爲了更好地滿足人機交互的這一需求，俞棟博士指出了一個非常重要的研究方向或者說發展趨勢，那就是多模態人機交互。與此同時，俞棟博士也解釋了爲什麼多模態是人機交互的發展趨勢的原因，主要有四點：

第一，多模態交互能夠讓人類在不同的場景下可以選擇不同的模態組合進行交互，進而從整體上提高人機交互的自然度；第二，在多模態技術下，一個模態可以補充另一個模態的弱點，從而能夠通過融合多個模態的信息，獲得更精確的用戶、情感、場景、和發聲人位置估計；第三，多模態交互具有「互爲監督」的優勢，即當機器無法獲得某個模態的明顯信息時，其他模態可以爲其提供弱監督信息，讓機器能夠持續做系統自適應調整；第四，多模態能夠讓人們在與機器的交互過程中擁有多維感覺，從而能夠從視覺、聽覺、觸覺等多方面體會機器的情感和表達的語義。而除了所具備的這些優勢外，俞棟博士認爲，多模態交互還能夠給業界帶來更多的想象空間，比如可以嘗試使用人機交互技術去做虛擬解說、虛擬前臺、虛擬陪伴等。

正是由於多模態交互所具備的這些優勢以及所帶來的這種想象空間，他也領導團隊開啓了虛擬人的研究項目。下面，俞棟博士也以虛擬人這項研究成果爲載體，對多模態交互技術進行了詳細介紹。

多模態交互技術詳解及應用成果分享

俞棟博士首先介紹了多模態交互的系統框架，主要包括三個部分：多模態輸入、中間的認知和決策控制環節以及最後的輸出。

進一步，俞棟博士向大家展示了多模態技術的階段性成果——虛擬人的合成技術流程：系統首先從文本中提取各種各樣的信息，包括動作、表情、情感、重音位置、和激動程度等；之後將這些信息輸入到動作表情模型生成動作和表情，同時輸入給多模態合成系統 DurIAN 同步生成語音以及口型和表情參數，進而合成真人或者卡通形象。

其中，同步合成語音和圖像的 DurIAN 模型作爲多模態合成技術的核心成果，則是俞棟博士本次要介紹的重點內容。

據俞棟博士介紹，相較於傳統語音合成方法以及目前最新的端到端語音合成方法，應用多模態合成技術DurIAN 模型，無論是在自然度、魯棒性、可控性、泛化能力以及實時性等方面都取得了更好的效果。

傳統語音合成方法 VS 端到端語音合成方法

在正式介紹 DurIAN 模型前，俞棟博士先介紹了傳統語音合成方法、端到端語音合成方法、以及這兩種方法各自的優缺點。

傳統語音合成方法主要基於 BLSTM+WORLD 模型，擁有穩定性和可控性較強的優點，同時也存在合成語音機械感太濃的缺點。不過由於該方法具備較強的穩定性和可控性，在工業界的實用系統中主要還是使用這種框架。

端到端的語音合成方法優點則在於自然度很高，缺點則是穩定性和可控性比較差，其中最常見的問題是漏字和重複。以從文獻中摘錄的結果爲例，該系統出現漏字或者重複錯誤的可能性爲 1%-5%。因而，該方法在實用系統裏沒有得到廣泛使用。不過近來，該方法取得了很大進展，例如谷歌於 2018 年提出的結合 WaveNet 的 Tacotron 模型。

相比於傳統語音合成方法，端到端語音合成模型 Tacotron 的優勢主要有四個改進部分：

第一，它使用了基於神經網絡的編碼器模型來替換人工設計的語言學特徵；第二，它直接預測含有豐富信息的頻率譜，而不是源過濾器聲學特徵；第三，它引入了自迴歸模型，解決了合成過程中的過度平滑問題；第四，它採用了基於注意力機制的端到端訓練方法。

不過，這種端到端的注意力機制也帶來了穩定性差的問題。俞棟博士團隊通過分析發現，注意力機制是模型出現漏詞、重複等問題的主要原因。下圖右邊有兩個合成案例，其中標藍的字是被漏掉的。

應用多模態技術的語音合成系統：DurIAN 模型

基於對端到端語音合成模型 Tacotron 出現漏詞、重複等問題的原因的發現，俞棟博士團隊在 DurIAN 模型中提出瞭解決方案，即保留 Tacotron 模型中對語音合成的自然度有益的部分，也就是上述提到的前三個改進部分，然後使用時長預測模型來替換端到端注意力機制。其基本做法是訓練一個音素時長預測模型，然後在給定時長的情況下，對模型進行端到端訓練。

這樣的話，DurIAN 模型在能夠保證不出現漏字、重複問題的情況下，既能保持端到端語音合成模型自然度高的優勢，又能解決系統的穩定性和可控性問題。

其中，在可控性方面，DurIAN 模型還能進一步實現精細的控制，基本思路是採用監督學習方法，不過不需要對訓練語料進行精細標註，比如只需要標註語音是否激動或者語速是快還是慢。在訓練時，讓每一個控制變量都學習一個指向性矢量；在合成過程中，則只需對相應的矢量做連續值的縮放，便可以實現精細化的風格控制。

除了穩定性和可控性，DurIAN 模型在魯棒性和泛化能力、實時化等方面都有較大的提升。

針對此前端到端語音合成系統存在魯棒性以及泛化能力弱的問題，DurIAN 模型引入了語言學信息，尤其是標點和韻律邊界，即通過充分利用中文語音裏的韻律結構來提高模型的泛化性能。具體做法是在 DurIAN 模型中採用 Skip Encoder 來替代 Tacotron 模型中的編碼器結構，從而有效引入中文語句裏的韻律結構。而Skip Encoder 的基本思想是，在輸入時用額外的幀顯式表達這些語言學信息，不過由於標點和韻律邊界本身是一個時間點而不是一個時間段，因而在編碼器輸出的地方放棄跳過額外增加的幀，這樣每一幀的編碼器輸出仍然與頻率譜的幀相對應。

在實時化問題上，此前谷歌曾提出了 waveRNN 模型，雖然在運算速度上比神經聲碼器一開始常用的 wavenet 快很多，經過仔細的工程優化也能夠實現實時，然而實時率不佳，且語音合成成本高。對此，俞棟博士團隊提出了多頻段同步式 waveRNN 技術，其基本做法是把語音信息分頻段，每一步用同一個聲碼器模型同時預測多個頻段的值，如果分成 4 個頻段，則每一步可以計算 4 個值，計算次數就是原來的四分之一。與此同時，在合成過程中，聲碼器預測多頻段的值後，通過上採樣和專門的濾波器設計就能保證恢復沒有失真的原始信號。

語音合成以外，俞棟博士還展示了 DurIAN 模型在同步合成多模態信息上的優勢，即該模型中的時長預測模型，可讓系統能夠同步合成語音、嘴型以及面部表情參數，最終生成卡通形象或者真人形象的虛擬人。

未來工作展望

儘管在自然度和魯棒性、風格可控、實時性以及同步合成語音、嘴型和麪部表情等方面，DurIAN 模型已經做得非常不錯，但俞棟博士也指出，該技術還有很多探索的空間，未來其團隊也還有很多工作要做，主要包括四個方向：

第一，在模型優化上，需要探索在 DurIAN 結構基礎上的端到端訓練方法，以更好地支持端到端優化；第二，在控制能力上，需要讓模型進一步擁有全方位的控制能力，即能夠在不同的場景、情感、音色、語氣信息下，合成對應的語音；第三，在訓練語料方面，需要能夠讓系統從低質量的語料中學習韻律，從高質量地語料中學習音質；第四，需要對模型的定製化進行進一步探索，從而在少量的語音語料（<15 分鐘）的情況下，也能夠訓練出新的音色。AI 科技評論專訪俞棟博士對話實錄：

多模態在虛擬人項目中的應用探索

問：本次您的報告主題是《虛擬人中的多模態合成》，您在演講中重點介紹了虛擬人這一最新成果以及多模態在虛擬人中的技術應用，那您一開始研究這個項目的契機是什麼？

俞棟：第一，我們越來越意識到單一技術能做的事情非常少，因而需要將很多的技術組合起來，這樣才能做出比較有影響力的成果。

第二，騰訊 AI Lab 創立之初就剛好設立了虛擬人所需要的各個研究方向，包括語音、自然語言處理、機器學習、計算機視覺等等，所以在虛擬人這個項目上，我們目前所具備的條件已經是比較成熟的。

第三，多模態交互是歷史發展的必然趨勢，我們預估這項技術在接下來的幾年時間裏會變得越來越重要。

問：目前虛擬人項目的進展如何？

俞棟：我們去年下半年開始規劃這個項目，今年年初算是真正開始有組織地做這個項目，經過八個月時間的研究，該項目也取得了一些進展。（相關進展見上述報告部分）

這個項目大概分爲三個核心的部分：第一個是虛擬人的輸出；第二個是虛擬人的輸入，包括看、聽、觸摸等感知方面的東西；第三個是認知和對話的模塊，這個模塊成熟度最低，但也是非常重要的模塊。對於認知模塊，業界研究了很久，目前還不知道正確的做法是什麼。我們現在對於這個部分能夠做到什麼程度也不是很清楚，不過，我們還是要組織力量往這個方向走。

問：現在人工智能領域，包括騰訊優圖實驗室負責人賈佳亞教授等研究者都在研究多模態這一技術，他還在近期的演講中提出了“多模態是人工智能發展的未來”的觀點，您怎樣看待這一觀點？

俞棟：我認爲應該說多模態是未來的一個重要方向。人工智能是一個很廣泛的概念，其實我們到目前爲止，可能也只是瞭解到它的一點皮毛，包括認知推理、因果推理到底是怎麼回事，機器的泛化能力爲什麼這麼弱等這類基礎性問題，我們現在都還沒有搞明白。

通往通用人工智能的這條路到底是怎麼樣的，大家都還處於一個探索狀態，所以強化學習、多模態交互等都是通往通用人工智能的一種重要的嘗試，但不是全部。

在若干年後，說不定大家還會發現另外某項技術纔是真正能夠實現通用人工智能的技術。

學術研究經歷

問：僅就學術而言，您的簡歷就已經非常豐富，是首次將深度學習技術應用在語音識別領域的研究領頭人之一，與 Geoffrey Hinton、鄧力等人都有過深度合作，無論是論文、專著還是研究成果方面，表現都非常突出，那您一開始是基於怎樣機緣選擇語音識別這一研究方向的呢？

俞棟：我小學的時候看過一本課外書，叫《奇異的機器狗》，現在裏面談到的很多東西都已經實現了，包括機器能夠聽懂人說的話，可以跟小朋友交互、幫他們解決學習問題，還能夠帶小朋友去玩，等等。因此實際上，我在小時候就對這些智能機器人產生了興趣。

而真正與語音識別這個方向接觸則是在大學本科期間。我本科在浙大念自動控制專業，當時就讀的班級是浙大設置的一個特殊的班級，叫做「混合班」，進入這一班級的都是當年入學新生中最好的一百個人。這個班的老師將我們這些學生當做將來專門的研究人員來培養，所以我們一入學就開始關心「科技國家隊」的概念。

大學三年級的時候，我們便進入課題組做研究，當時恰逢人工智能發展的小高峯期（1989 年~1991 年），其中主要有兩個比較熱門的方向，一個是專家系統，像我當時的學長吳朝暉（現任浙大校長）在這個方向上的研究工作比較多；另一個方向便是當時剛剛開始熱起來的神經網絡，我當時的一個方向便是神經網絡。

本科畢業後，我打算去中科院，因爲當時在大家的認知中，中科院就是科技國家隊。由於本科專業是自動控制，所以便去自動化所找導師，在此過程中發現了研究方向跟我的興趣比較一致的黃泰翼老師，他研究的是語音識別。比較巧的是，我在「混合班」的學長徐波（現爲自動化所所長），當時也在黃泰翼老師那裏念研究生。所以我最後就去黃泰翼老師那裏讀研，開始進入語音識別這個研究領域。

問：實際上在深度學習早期階段，這一方法實際上並不被看好，您是在怎樣的背景下開始研究深度學習的？

俞棟：正如我前面提到，我剛開始接觸神經網絡的時候，神經網絡是當時人工智能的一個熱門研究方向之一。

後來我到黃泰翼老師那裏讀研究生的時候，黃泰翼老師以及其實驗室的其他老師也採用神經網絡的方法來做語音識別，所以我在自動化所的碩士論文，便是採用神經網絡的方法做語音識別。這就爲我之後將深度學習引入語音識別任務的一系列工作奠定了基礎。

問：今年，Hinton 等深度學習三巨頭摘得 2018 圖靈獎，而深度學習給人工智能領域帶來的變革性影響早在前幾年就已經發生了，您是否認爲這是給深度學習的一份遲到的榮譽？另外您怎樣評價這三位研究者的工作？

俞棟：我認爲基本上是適時的。因爲科學發展中的很多進展，在當時剛出來的時候，該領域的人很難看清它們的影響到底有多大，一般都有一個認可延後期，有的可能只需要幾年，有的甚至要等到發明人去世後這項成果才能被認可。所以我認爲他們獲得這項榮譽，還算是比較適時的。

首先，他們很早就開始研究深度學習，我大學期間首次接觸到這項工作之前，他們就做了很多鋪墊性的工作；其次，他們在這個方向上堅持了很久，即使在低潮時期，他們依舊在堅持，這都是非常值得我們研究者學習的品質。

問：將深度學習技術應用於語音識別是否是您最具代表性的工作？之後在語音識別這一領域您有哪些主要的研究方向？

俞棟：我認爲這是一項比較有代表性的工作，當然我們在這個研究方向上做了一系列工作，因而對這個領域起到了一個比較大的推動作用，如果只是單項工作，推動作用也就沒有這麼大了。

目前我們比較關注的一個研究方向是多模態，這是一項涵蓋視覺、聲音、符號語言、嗅覺和觸覺等信息的技術，而語音部分相關的如語音識別、語音合成、語音增強、語義分離、聲紋識別等技術，在多模態中都有用到。

從微軟研究院到騰訊 AI Lab

問：學術以外，您在工業界的履歷也非常豐富，2017 年 5 月份，您離開微軟研究院加入騰訊 AI Lab，在工作內容以及承擔的角色方面，有怎樣的轉變？

俞棟：原來在微軟研究院任職的時候，相對來說會更加專注自己的研究方向和技術層面的東西。加入騰訊 AI Lab 後，我承擔的角色不再是純技術研究型的，除技術研究外，還需要扮演管理者的角色。

相對來說，剛開始比較難適應的難點有兩個：一是自己要花很多時間在管理方面，做技術的時間相對來說就少了，需要我找到更好的平衡；二是由於我負責的團隊在西雅圖，跟總部這邊由於時差等原因，晚上的很多時間需要和國內開會，晚上可自由支配的時間比在 MSR 時少了很多。爲了減少溝通問題，我增加了到中國實驗室的時間。

問：目前，國內科技巨頭其實都已經先後創建了人工智能相關的實驗室，您怎樣看待騰訊 AI Lab 在其中的位置？

俞棟：現在這些企業都成立了人工智能實驗室，招了很多很強的科學家，我認爲這是一個好的趨勢，對整個 AI 的發展會有很好的推動作用。

相較之下，騰訊 AI Lab 稍有不同的地方在於，我們的研究跟產品的緊密程度，可能沒有其他實驗室那麼高。其他公司的實驗室更像是一個工程院，偏向於將一些論文中的技術復現，然後落地到產品中。而我們則更注重是否能夠發展前沿技術，跟其他企業的實驗室的側重點不完全一樣。

問：您帶領的團隊對學術界在語音識別領域的進展的關注度如何？除了語音之外，您的團隊還關注其他哪些研究方向？

俞棟：我們對前沿技術非常關注。我個人每年都至少會參加一次語音相關的會議和一次自然語言處理的會議，同時我團隊中的其他成員也都會參加相關的會議，因此學術界主要的會議，我們基本上都有同事參加。

語音以外，我們比較關注的方向，還包括自然語言處理、計算機視覺、圖形圖像學以及機器學習和人工智能技術的基礎理論等。

語音識別領域的現狀和未來發展

問：在工業落地方面，相比人工智能其他領域，語音識別是跑在前頭的，但是目前暴露出的問題也很多，其中您認爲比較嚴重的問題有哪些?

俞棟：其實存在的問題，說到底還是魯棒性問題。現在基於深度學習的方法使系統魯棒性已經比之前好很多了，但是還達不到我們期望的效果。

現在我們的主要做法就是增加訓練語料，而訓練語料目前存在採集困難的問題，並且即使採集的語料很多，一旦機器在一個此前沒有見過的完全新的 mismatch 的環境中，也無法實現太好的效果。

比較典型的例子是，現在很多語音識別器的錯誤率能夠達到百分之六七，即便在相對比較嘈雜的環境下也能做得比較好，但是如果遇到兩個人同時說話的場景，錯誤率可能達到百分之五六十。另外如果說話人的口音比較重，語音識別器的效果也不會很好。

此前我們也嘗試了很多解決方案，包括提高模型的泛化能力，做模型的自適應，目前來看，這些方案還有很大的提升空間。

問：就您看來，語音識別領域的發展經歷了哪些階段，目前處於怎樣的階段，以及理想化的狀態應該是怎樣的？

俞棟：從難易程度來劃分，語音識別跟人工智能其他領域經歷的階段很相似：一開始做一些非常簡單的任務，比如說音素識別、單字識別；接着是連續語音識別的階段，隱馬科夫模型出來以後，連續語音識別就變得可行，後來到了大詞彙量連續語音識別；再之後是即時語音識別階段，要求機器能夠聽懂人自由聊天。

現在則是完全真實場景下的語音識別階段，比如目前很多研究者在嘗試研究雞尾酒會場景下的語音識別。這也是下一階段我們要突破的方向，真實場景下的語音識還包括在非常嘈雜的環境下或者說話人口音很重的場景下做語音識別。

我認爲，機器的理想化狀態應該是能夠比人識別率更高。計算機在未來某一天，應該是能夠在各個場景下的識別率都比人更高的。

問：未來三到五年，語音識別領域可以尋求突破的方向或者說技術有哪些？

俞棟：我認爲未來三到五年，語音識別領域可以突破的方向主要有三個：第一是多模態；第二個是具有更強、更快自適應能力的模型；第三，類似雞尾酒會場景下的語音識別也會是一個可以探索的方向。

（完）

最後附上 DurIAN 模型原論文下載鏈接：https://www.yanxishe.com/resourceDetail/999

本次大會上，騰訊 AI Lab 還正式發佈了《AI與機器人的42個大問題》，大家可前往 https://www.yanxishe.com/resourceDetail/988查看並免費下載。雷鋒網雷鋒網

專訪俞棟：多模態是邁向通用人工智能的重要方向

熱門新聞

週熱門

專訪俞棟：多模態是邁向通用人工智能的重要方向

國新文化(600636.SH)：子公司奧威亞在計算機視覺CV與自然語言處理NLP方向均有成熟產品

匯納科技(300609.SZ)：已開展ChatGPT相關技術在商業零售及政務等數字化領域進一步應用的研究和論證

百度首席技術官王海峯：AI已貫穿媒體行業全流程

AI如何通過機器學習算法和自然語言處理來革新商業智能

胡潤：中國人工智能專利數量已經是世界第一

專訪｜聲菲特：從1到N，積極構建音視頻智能生態圈

谷歌開放全新自然語言數據集：多元化場景更詳細標註，讓 AI 助手更懂人類

騰訊雲小微全雙工語音交互技術上車 接近人-人交互

單手輸入到智能語音輸入——OPPO K3的輸入法簡直把你寵上天

AI除了當客服，電商還在用它做些啥？｜智周報告核心版

錄音5分鐘，修改1小時，搜狗錄音筆值得買嗎？

「LSTM之父」Jürgen Schmidhuber訪談：暢想人類和AI共處的世界｜WAIC 2019

百度輸入法AI探索版 生於AI 爲AI而生 用了就回不去的輸入法

專訪先聲智能首席科學家：用語音對話系統教中國孩子說外語

會話AI：設計和構建上下文AI助手

熱門新聞

週熱門

騰訊雲小微全雙工語音交互技術上車接近人-人交互

百度輸入法AI探索版生於AI 爲AI而生用了就回不去的輸入法