機器之心報道

機器之心編輯部

基於文本生成知識圖譜的研究很常見,但是基於語音生成知識圖譜,這算是第一家。

在這個信息飛速發展的時代,數據呈爆炸式增長。而互聯網信息的多元性、異構性、結構鬆散等特點,給人們有效獲取信息和知識帶來了挑戰。

知識圖譜(Knowledge Graph) 憑藉強大的語義處理能力,爲互聯網時代的知識化組織和智能應用奠定了基礎,並被廣泛應用於智能搜索、知識問答、輿情分析等領域。

然而在現有的技術中,大部分研究集中在從文本轉化到圖譜的過程,卻忽略了從語音實時轉換到圖譜的研究。

本文將介紹一篇關於從語音到圖譜構建的論文,可以說是該領域的首個相關研究。這篇來自明略科學院知識工程實驗室的論文已被人工智能國際頂會 IJCAI 2020 Demonstrations Track 接收。

論文簡介

近年來語音接口受到極大歡迎。以智能音箱爲例,截至 2019 年,估計有 35%的美國家庭至少配備了一個智能音箱。目前儘管存在成熟的語音識別工具包和商業語音轉錄系統,但面對長篇大論的交談中,人們仍難以集中精力抓取其中的關鍵所在。而知識圖譜可以追溯到早期的專家系統研究和語義網絡,它提供了一種方法,這種方法可以可視化演講者的關鍵思想。

對於知識圖譜的概念有不同的定義。這篇論文遵循此定義:「知識圖譜作爲一種數據表示工具,是對實體、屬性、概念以及它們之間的關係進行建模」。爲了從語音中構造知識圖譜,有兩個關鍵組件是必須的「實體 - 關係 - 實體」三元組和「實體 - 屬性」對,如圖 1 所示。

在此論文中,來自明略科技的研究者們提出了 HAO 圖譜,它基於 HAO 智能,而 HAO 智能整合了人類智能(HI),人工智能(AI)和組織智能(OI),實現了中文文本和語音知識圖譜的實時生成和可視化,填補了本領域的空白。

圖 1:知識圖譜可視化示例

該論文主要有三大貢獻:

該系統是已知首個公開發布的從語音中構建知識圖譜的系統;

該系統設計並實現實時的語音圖譜架構,能夠根據演講者的主題在圖譜之間切換;

該系統還可以從開放的中文篇章中生成知識圖譜。

系統架構

HAO 圖譜系統到底是怎樣實現的?我們來看看它的技術架構。

圖 2:系統整體架構圖

語音轉文本三大模塊

首先,需要將語音轉換爲文本,這需要三大模塊。

Monitor:語音是根據 WebSocket 協議從前端 HTML 頁面傳輸的。該模塊通過端口實時監控前端頁面發送的二進制語音流信號數據,並將數據保存在緩衝池中。當緩衝池數據大於 16000 字節時,緩衝池中的二進制語音流數據傳輸到後續的「語音轉文本」模塊中。

ASR 模塊:該模塊將接收到的二進制語音流數據轉換爲無標點的文本,並以多線程的方式將其發送到前端,得到「語音轉文本」顯示結果。緩衝池中的無標點文本則根據上下文信息進行校對和更正,修正後的結果被傳遞給後續的「文本標點」模塊。

標點模塊:該模塊通過在中國日報語料庫上基於 BERT 訓練的模型,將接收到的無標點文本數據轉換爲帶有標點符號的文本數據,並將轉換結果保存在文本緩衝池中。此緩衝池用於緩存已加標點的文本,這是因爲只有在識別出完整的句子後,該句子纔會被髮送到後續的「知識圖譜構建」服務中,因此該模塊會將完整的句子發送到知識圖譜構建階段,最後一部分沒有標點符號的文本被緩存。如果帶標點的文本都是完整的句子,並且句號在文本的末尾,則緩衝池被清空。

知識圖譜構建階段

將語音轉換成文本後,現在進入知識圖譜構建階段。該論文介紹了基於文本構建知識圖譜所需的 5 個關鍵步驟:

預處理:這一步驟包括了去除提取文本中的特殊字符,利用基於 BERT 的序列標註模型進行中文分詞和詞性分析,通過基於中心語驅動的短語結構語法的神經網絡模型進行依存句法分析。這些模型均在 Penn Chinese Treebank 數據集上訓練得到。

分塊(Chunking):根據預處理階段詞性標註和依存關係的結果,按照規則對名詞詞性(如專有名詞 NR 和其他名詞 NN 等)進行分組組合。規則包括但不限於兩個連續的專有名詞(組)、專有名詞後接其他名詞、專有名詞用標點符號或連詞隔開。值得一提的是,該合併過程是遞歸執行的。例如,「人工智能,大數據,及物聯網技術」這個短語中包含了三個專有名詞、一個標點符號和一個連詞。在分塊步驟中,這些詞被遞歸地合併爲「人工智能,大數據及物聯網技術」,併產生最終的分塊結果。

指代消解:該模塊基於分塊得到的結果,將文本中待分析的代詞替換爲指代消解模型的結果(即將代詞替換爲所指的名詞)。

信息提取:在進行信息提取時,利用預處理步驟中解析的依存關係,將每個動詞短語作爲候選三元組的謂詞,並將其作爲根節點遍歷與其相關的名詞短語。然後使用基於規則的方法提取三元組。對於三元組的主客體,抽取規則包括但不限於:關係的主體(nsubj)作爲三元組主語,關係的主體(dobj)作爲三元組賓語。

後處理:最後,將上一步驟中獲得的三元組進行後處理操作,如刪除停用詞,將所有三元組集成起來並輸出。

主題切換

爲了實現生動的可視化,該研究設計了一個基於圖數據庫數據和上游模塊返回結果來檢測主題變化的模塊。如果當前內容與之前的內容屬於同一主題,則圖數據庫中與該主題相關的所有實體關係都將發送到前端進行顯示。如果當前內容和前面的內容不屬於同一主題,則只有當前內容的圖結果顯示在首頁上。

知識圖譜抽象化

在基於語音生成知識圖譜的過程中,語速快導致節點和邊的數量急劇增加。因此,從完整語音中生成可視化的知識圖譜變得非常複雜,這種情況甚至比原始文本更難理解。爲了解決上述問題,該研究通過以下三個步驟對知識圖譜進行抽象化處理:

關鍵集提取:首先,對於數據集 NLPCC 2017 corpus 中的所有文檔集合,通過選擇 TF-IDF 最高的詞語,基於完全的語音轉錄文本獲得一組關鍵詞。另外,將中心度較高的節點選入關鍵節點集中。

抽象過濾:其次,應用規則從語音系統中獲取抽象化的知識圖譜。使用關鍵詞和關鍵節點集合之間的交集對「實體關係三元組」和「實體屬性對」進行過濾。

組件選擇:最後,從知識圖譜中選出最大連通分量。這一步很關鍵,因爲小分量通常沒有明確的含義,如下圖 3 左上角所示。

圖 3:在執行「組件選擇」步驟之前,基於長語音構建的知識圖譜及其抽象(彩色部分)。

最後,作爲首個基於語音實時生成知識圖譜的系統,HAO 圖譜的效果如何呢?明略科技進行了滿意度調查。

在今年 1 月舉辦的 2000 人左右的會議上,該系 統實時地從兩小時的談話中提取知識圖譜。滿意度調查顯示,61.54% 的受訪者認爲 HAO 圖譜有助於更清楚地瞭解談話內容,41.76% 的受訪者認爲該系統可以緩解認知疲勞。超過 65% 的受訪者對該系統是否加強了溝通方面給予了 5/5 星級的評價。

相關文章