演講實錄丨劉激揚：領域知識與深度學習相結合構建實用級產業智能應用

5月25日-26日，由中國人工智能學會主辦，南京市麒麟科技創新園管理委員會與京東雲共同承辦的2019全球人工智能技術大會（2019 GAITC）在南京紫金山莊成功舉行。

在第二天的產業智能化發展論壇上，北京國雙科技有限公司CTO劉激揚發表了主題爲《領域知識與深度學習相結合構建實用級產業智能應用》的精彩演講。

北京國雙科技有限公司CTO

國雙是一家技術公司，業務領域比較廣泛，有數字營銷、司法、工業互聯網等，在產業領域做了很多的工作。在所有的這些領域裏，我們的工作都用大數據和產業智能作爲主要的技術驅動力，來爲客戶提供服務。今天我想和大家分享的，在深度學習領域裏面的最佳實踐，是如何利用知識去增強深度學習在產業領域、在現實世界裏解決真正有價值的業務問題的能力。

深度學習在過去幾年裏產生了巨大的影響力，不管是在學術界還是在產業界， 2019 年幾位深度學習的創建人、創始人，他們獲得了圖靈獎；過去幾年裏，大家也聽到深度學習在圍棋、圖像識別、語音識別、機器翻譯等領域裏都取得了輝煌的成績，在很多方面超過了人類的能力和表現。但是會注意到，不管是圍棋、象棋，還是圖像識別、機器翻譯、語音識別這一類的問題，很多都是感知類的問題，這些問題有共同的特徵，這些特徵包括用來做決策判斷的，解決這些問題的數據和信息，是可以完備的獲取到的。這些問題本身也都有標準答案，到底這張圖片是一隻貓，還是一隻狗，機器翻譯給一段中文翻譯成英文是對是錯，這些都有標準的答案，都是可以預先確定的，因此結果都是可以預先確定的。同時在這些問題裏，可以獲取大量的數據樣本，試錯機會重組，標註成本低，可以不斷地讓人和機器下棋，可以建立一個深度學習的模型，成千上萬甚至上億的圖片讓它去識別，把算法做到最佳的效果，是這一類問題的特點。像類似這樣的問題，在產業、工業及現實世界裏，爲數不多，雖然這些領域無論對我們的工作、生活都可以起到很大的作用，但是要解決產業界、工業界的現實問題，會遇到另外一類情景。在這些問題裏可以看到，信息多元、多樣化、樣本很多時候非常少，獲取的代價非常高。過去的一段時間我們和一家著名的油氣領域的公司合作，解決油氣勘探、開採的問題。通常取樣需要到地下幾十公里深去採集數據，這樣採集數據的成本非常高，如果這時去試錯，成本就更高了。而且這些問題的思路和答案是沒有標準的，可能只有好的解決方法、好的答案和更好的答案，沒有最好的答案，或者是最佳的答案，這是我們面對的難題和挑戰。在這些問題前面，深度學習是不夠的，現在很少聽到誰做了深度學習的多少層網絡，就解決了油氣開採的問題，尤其勘探的問題；或者是可以自動判斷一段文章它表達的情感、情緒是什麼樣的；或者研發出了一個人工智能的法官，可以自動地根據我的輸入，做出合理合法公正的判決。這些問題不容易解決，不容易用一個深度學習的模型去解決。可是我們也希望能夠利用深度學習的能力，去試圖解決這些問題。過去幾年裏，國雙在這些領域裏多多少少取得了一些成績，我會用一些案例和大家分享我們是怎麼做的。

今天的主題是用知識和深度學習解決現實世界的問題，提出一系列的方法和實現實施的框架。我們總結出來的第一條經驗，就是把知識，特別是行業的知識、行業的經驗、領域的知識，以及深度學習的模型，當然還有很多其他的資源，把它認爲是在產業領域裏，去解決問題的不同的資源（見下圖）。可以看到在面對任何一個問題時，可能有不同的方法，用不同的資源，去解決這樣的問題。比較簡單的問題可以用知識去解決，比如要計算牛頓力學的問題，運用公式就可以了，這些知識已經成爲了理論進行使用；還有一些問題，像剛纔講的下棋、圖像識別等，完全可以用深度學習，只要有大量的數據、高質量的數據，可以不斷地試錯，不斷地優化你的算法。還有大量的問題是需要用知識和學習一起解決，形成解決方案的。所以解決產業領域問題的模式分成幾個步驟。第一步是分解這個問題，看看這個問題應該有些什麼樣的環節，把問題分解好了以後，在各個環節搭建方案，有的地方需要用知識，有的地方需要用深度學習，有的地方需要把這兩個資源甚至其他的資源組合起來，形成好的解決方案。有了模型解決方案以後，再投入到生產中嘗試、預測、驗證，然後得到新的數據，這些數據又會反饋回到這個系統中，既豐富了知識，又提升瞭解決問題的準確度，或者是它的性能。所以我們的解決方案是一個閉環，在這個閉環裏把知識和深度學習，以及其他的解決問題的資源充分融合在一起，形成最佳的解決方案。

在這個過程裏，有幾件事情非常重要。第一件事情剛纔提到的知識，人都是通過學習不斷的積累知識，對於計算機來講，它有很多方法去獲取知識，如果要讓 AI 具備知識，首先要做的就是怎麼讓它獲取知識，這是我們提出這個框架基礎的能力。

過去在知識獲取裏，做了很多的嘗試，總結的辦法是通過文本抽提，以及專業知識專家的協助，讓計算機，讓 AI 系統迅速地獲取知識。第二個方法如何讓各種不同的資源整合在一起，讓機器自動地去構建最適合這個問題的解決方案。有了它們以後，就可以形成面向不同行業、不同產業的應用問題解決方案，在不同的場景裏讓我們的技術和知識發揮作用。下圖展示出了國雙利用大數據和人工智能爲企業客戶提供服務完整的技術棧，可以從數據、從信息到最後爲一個企業、爲一個客戶提供有效的解決方案。其中最重要的幾個環節就是剛纔講到的，知識的提取、抽取、獲取，有效地利用所有的在你掌控之中的資源，人機配合有效地解決問題。問題解決完了以後，再通過這個迴路不斷地去豐富機器的知識，以及我們的算法模型。

怎麼利用自然語言的能力文本解析，以及專家的經驗和行業的知識迅速在文本里抽取知識，形成知識庫和知識圖譜？大家都知道要構建一個知識圖譜，首先需要在這個領域裏定義好的本體；有了本體以後，需要去提取它的實體，以及實體與實體之間的關係。所有的這些工作在過去的經驗裏，我們發現，如果你把機器的能力、自然語言處理能力和機器學習的能力，與行業專家的知識、經驗，以及他們知識體系和架構結合在一起，就可以迅速和有效地完成這一工作。比如，在司法領域要用AI 幫助法官判案，都是這個系統需要解決的問題。對於司法領域的 AI，有一類數據非常重要，就是裁判文書。現在每一個案子在法官宣判以後會留下一個文檔，這個文檔最高人民法院都要公佈到國家的裁判文書網上，大家可以對每一個案子進行搜索。一個案子對我們來講，在這個系統裏就是一個實體，要充分了解這個案件的實體就需要對它裏面的元素和法律上的要素進行解讀，讓機器自動地進行解讀。這時就可以用自然語言處理能力、通用知識，以及具有司法領域特徵的知識和司法專家的行業知識，抽取案件裏的相關要素，搭建針對裁判文書所設計的文本解析工具，迅速地分析。這樣才能夠處理幾千萬個文檔，否則需要很多人做很多年的工作，這樣的系統是沒有實際意義的。

還有另一類問題也是非常重要的，就是強化學習，這個關係我們也研發了，也用深度學習、機器學習結合知識，結合領域的知識，搭建了一個端到端的實體和關係的抽取系統。在這些方面公司不僅是利用這些技術的積累搭建我們的工程系統，同時我們也在努力地撰寫一些學術文章。有了這些能力以後就可以讓計算機高速、高效地提取文本文檔中的知識，形成知識庫和知識圖譜。有了知識和機器學習的模型、算法，以及在行業裏的一些專業知識，產業裏的機理模型、統計模型、統計數據和一些決策的工具，如何把這些資源有效地使用和組織起來，解決一些問題。這裏簡單介紹一下我們在司法領域裏，如何構建一個智能的 AI 法官和判案工具的方式。首先在解決判案的問題裏有多個任務，包括罪名的預測、法則的預測、刑期的預測，要把所有的任務都用知識和機器學習解決，同時也融合多個機器學習的模型，組成一個組合的系統，幫助我們針對問題的具體特徵來靈活的使用。用多元的特徵對提出的任務搭建相應的解決方案。知識圖譜裏包含了用來解決現實產業中的複雜問題，以及需要用到的所有資源的有效組合、存儲和應用方式。

下一步就是要利用這些資源建模。建模也是需要人、專家、數據科學家，以及計算機、AI 相互合作，搭建一個自動的模型建設和優化的系統。當遇到了一個新問題時，首先要做的是定義這個問題。比如，這個問題有什麼樣的數據，怎麼描述這些問題，這個問題的解決需要達到什麼目的、什麼目標。如果是情感判斷，我們拿到一句話以後要告訴你這是正面、負面，這是目標；法官判案，輸入案件信息要告訴我是什麼罪名、什麼罪刑，需要判多少年；油氣勘探裏要知道油在哪兒，這口井還有沒有潛力。當有了這些問題的回答以後就可以通過 AI 系統，根據經驗和這個領域的知識、以前解決的問題自動推薦一些模型、算法和資源，這時數據科學家或者業務專家也可以根據社會的推薦優化這些模型，最後用一個自動優化模型，把剛纔這個過程裏生成的模型，根據現實領域看到的數據去做嘗試和驗證，形成最後的解決方案，這就是人機結合自動建模的模式。

剛纔我介紹了在國雙怎樣把知識和深度學習、機器學習，以及這些領域的積累，用到構建產業問題智能解決方案的一些重要思路、方法論和元素。接下來通過這三個領域的應用，介紹一下我們在把知識、知識學習和人工智能相結合的過程裏幾種不同的使用方式——從簡單到複雜，從單一到多元。首先介紹的是如何利用行業知識、專業知識幫助機器學習找到它要學習的對象。例如，在我們數字營銷裏幫助一些汽車企業，或者是快銷企業、消費品服務企業去做他們的產品。企業的聲譽或者是危機的監測與分析，主要看社交媒體上的文章，或者電商平臺上用戶的反饋，對這些文本進行分析，同時做出細粒度的情感判斷。比如餐館性價比好不好；這輛車的外觀是不是好看，它的發動機是不是有力量，這樣的結果是我們的目標。這裏主要是利用知識，利用專家的知識幫助我們告訴機器學習系統看哪些信息，我們給這個機器學習搭建了標籤數，這裏舉的是汽車行業的例子，可以理解成是根據汽車行業對於產品和用戶、業務總結出來的本體上面對實體具體的描述。如對汽車安全裝備的描述，這時的機器學習就知道在文本里去捕捉哪些內容，進行怎樣的學習，利用專家知識構建知識體系、標籤體系，幫助深度學習建模，得到解決問題、細粒度情感分析的網絡。

我們把這個方法和裏面用到的深度學習的模型，用到了很多不同產業，剛纔我介紹了汽車行業，還有快銷行業、餐飲行業等，在這些領域裏都可以迅速搭建一個根據這個行業的文本，可以對它們進行有效的細粒度的情感分析。可以看到利用深度學習加知識模型的解決方法，不管是在準確率——正面的準確率還是負面的準確率，都可以得到比較簡單的規則，或者是傳統單純的深度學習系統，會有大幅度提升。而且可以迅速地把這個解決方案，從一個行業應用到另一個行業。

另一類的知識和機器學習、深度學習的結合，把它叫做知識嵌入模型，基於場景從知識庫獲取先驗知識，通過編碼嵌入模型提升效果。如何構建，剛纔已經簡單介紹了在司法領域的應用。我們經常看到的問題就是基於什麼案情，他觸犯了哪些法律法規，做出什麼判決，判刑多少年，賠償多少錢，是否可以緩刑，這裏的輸入是裁判文書、法律文書，以及法律法規，這個系統模型或者是判案系統要做的事情就是在這些文本文書裏抽取每一個案子的要素，基於司法行業的知識，構建深度學習的解決方案。我們模型裏用到了知識，針對盜竊罪的要素，根據對盜竊罪法律法規的理解，形成了知識圖譜，定義了盜竊罪的要素，包括定義罪的要素、量刑的要素，最後將模型和知識有效結合，回答這些問題，回答有沒有罪，犯了什麼罪，應該怎麼懲罰，道歉金額是多少，有沒有自首，這些特徵都可以嵌入到這些系統裏。同時還會有一些統計數據，模型把全國範圍內網上的幾千萬法律文書都已經學會和理解了，所以我們掌握了所有的判決信息。如果這是一個盜竊罪，可以知道這個盜竊罪它的判決統計數據，在全國各地不同的法院、不同的法官根據類似的案情是做出什麼樣的判決，這樣的信息都在系統裏，做出了像一個真正的法官一樣去做判決的系統。目前，在全國各地的法院都安裝了我們的系統。法律文書的解析、智能文書生成、定罪量刑輔助、智訟輔助辦案、智訟微訴平臺，包括可以在異地打官司，利用高科技，利用技術進行改革，改變傳統做業務的方式，我們的覆蓋率和效率很高，處理的速度也很快，同時準確率也相當高，2018 年的首屆中國“法研杯”司法人工智能挑戰賽，我們也組隊參加了比賽，獲得第一名。

最後我想給大家介紹的是知識融合型的模型，是用知識和機器學習高度融合的方式，解決非常複雜困難的問題——在油氣領域和石油勘探領域幫助石油公司判斷在哪兒有油這樣一個問題，這是一個非常重要的問題。不僅在五十年代這個問題非常重要，今天這個問題同樣非常重要。油氣層在什麼地方？這個油氣層可能含多少油？已經開採的油田或者油井，還有沒有潛力可挖？這是一個複雜的業務問題，需要很多的專業知識，如地質知識、油氣知識、地理知識等，所以解決問題的過程也非常複雜。我們總結並高度概括的框架有 10 個步驟，其中認爲最核心的步驟是路譜，從預處理的數據以後去抽取模型、建立模型，然後解釋這個模型。這就是工程師和科學家，他們埋頭苦幹做的工作，同時要走完這樣一個過程，需要幾個月到幾年的時間，所以這個問題才這麼重要、這麼困難。現在希望計算機、人工智能、大數據和數據科學幫助大慶油田解決這個問題。我們把專家的知識、行業的知識運用到解決問題的框架中，把這些知識融匯到搭建的智能系統裏。我們會做一些創新和改良。以前需要人手工採集數據，現在不用。現在除了人採集數據以外，還可以通過傳感器自動地去實時採集數據。現在數據量大了，也準確了，更完備了。即使是第一步也需要技術來幫助處理更大量、更準確、更實時的數據，有了這些數據以後，就可以用人工智能的系統模型來做特徵分析、建模和驗證這個模型是否有效。這個過程的週期比以前大大縮短，現在可以在很短的時間內做完一個模型。這個系統現在也投入了現場使用。

回顧一下，如果僅用深度學習，不管什麼樣的模型，以及它的網絡多深、多厚（且不說這裏面不太可能有大量的數據、大量的樣本），上述問題沒有辦法得到解決；傳統的做法，完全靠人，完全靠知識，也不能解決這些問題，因爲它不能利用計算機的優勢，以及 AI 的特徵、特點、能力。

所以最佳的實踐、最佳的解決方案，就是把行業的知識、領域的知識、經驗、專家，與人工智能的機器學習、深度學習，以及有關領域的知識能力高度結合，根據應用場景、不同的需要，靈活地把這兩類資源有效整合起來解決問題。在石油勘探領域我們的系統在發現新的油氣層，以及對現存的油田潛力挖掘都有非常有效的應用，可以做到更全面、更快速，以及更準確。

總之，要在產業裏面充分發揮智能的作用，需要把數據、算法，以及知識進行高度融合、高度的結合；同時如果要對產業賦能，還需要有平臺、工具和流程的自動化，這樣才能夠把我們的解決方案和我們的能力做到規模化。這個規模化不僅是在一個行業裏可以做深，而且可以把同樣的方法論，以及解決方案、方式推廣到不同的行業中，在這兩點上國雙在過去幾年都有很多體會，爲什麼一家千人的公司可以做這麼多的事情？就是因爲我們有一個共享的技術棧，它下面都是這些大數據和人工智能的組件技術，可能不一樣的地方就是在相應的服務領域裏都引進了行業專家——在數字營銷領域工作多年的技術專家，在司法領域聘請了多位法官、律師和我們一起工作，在油氣領域邀請了油氣行業裏從業幾十年到十幾年的行業專家；同時公司還在努力地搭建完善我們的產業智能平臺，爲各行各業賦能。

最後我想說一句，我們有一個理念，就是希望利用這些能力爲各行各業賦能。每個行業、每個企業都會生產一個產品或者提供一個服務，這個過程也有一個價值鏈，在這個價值鏈裏有很多環節，不管是設計產品、定義產品，還是生產這個產品、營銷這個產品，國雙具有的大數據和人工智能的能力都可以爲這些產品和企業提供相應的解決方案。

CAAI原創丨作者劉激揚

如需轉載合作請向學會或本人申請

轉發請註明轉自中國人工智能學會