論文筆記整理:竇春柳,天津大學碩士,方向:自然語言處理

鏈接: https://arxiv.org/pdf/1503.00075.pdf

動機

由於長短期記憶網絡( LSTM )這種具有複雜單元的循環神經網絡具有良好的表示序列信息的能力,其在多種序列模型任務中都取得了非常好的結果。到目前爲止一直被使用的 LSTM 是一個線性結構。然而,自然語言表現一種將單詞組合在一起形成短語的句法結構。本文引入了 Tree-LSTM ,將 LSTM 推廣到樹狀的網絡拓撲結構。在兩個任務的 baseline 上, Tree-LSTMs 都要優於現有的系統:預測兩個句子的語義相關性和情感分類。

亮點

本文的亮點主要包括:

1 )將 LSTM 推廣到樹狀的網絡拓撲結構,並且它展示出比序列 LSTM 更好的性能。標準 LSTM 可以看作是 Tree-LSTM 的一種特殊情況。

2 )利用實驗驗證了 Tree-LSTM 作爲句子的表示模型,具有很好的效果。主要在兩個任務上去評估 Tree-LSTM 結構:句子對間的語義相關性的預測以及來自於電影影評的句子情感分類。

概念及模型

本文提出了由基本 LSTM 擴展出的兩種結構: Child-Sum Tree-LSTM N-ary Tree-LSTM 。這兩個變種均允許更豐富的網絡拓撲結構,其中每個 LSTM 單元能夠聯合來自多個子單元的信息。

  • Tree-LSTM 單元

正如標準的 LSTM 單元那樣, Tree-LSTM 單元(由 j 標識)都包含輸入輸出門i_j, o_j,一個記憶單元 c_j,以及隱藏狀態 h_j。其與標準 LSTM 單元的不同之處在於,門向量和記憶單元的更新依賴於許多子單元。另外,該單元並不只包含一個遺忘門, Tree-LSTM 單元對每一個子單元均包含一個遺忘門 f_jk。這有助於 Tree-LSTM 單元有選擇地聯合來自於每一個子單元的信息。

每一個 Tree-LSTM 單元都有一個輸入向量 x_j。在我們的應用當中,每一個 x_j 是一句話中一個單詞的向量表示。每一個節點的輸入單詞依賴於當前網絡的樹結構。

  • Child-Sum Tree-LSTMs

給定一棵樹,令 C(j) 爲節點 j 的所有子節點的集合。 Child-Sum Tree-LSTM 的轉移等式如下:

應用: Dependency Tree-LSTMs

由於 Child-Sum Tree-LSTM 單元根據子單元隱藏狀態 h_k 的總和調整其組件,因此適用於具有多分支或其子節點無序的樹。例如,它是依存樹的一個很好的選擇,其中頭的依存數目可以是高度可變的我們將應用於依存樹的 Child-Sum Tree-LSTM 稱爲 Dependency Tree-LSTM

  • N-ary Tree-LSTMs

N -ary Tree-LSTM 可用於樹結構,其中分支因子最多爲 N ,並且子項是有序的,即它們可以從 1 N 索引。對於任何節點 j ,分別將其第 k 個孩子節點的隱藏狀態和記憶細胞表示爲 h_jk 和 c_jk。 N -ary Tree-LSTM 的轉移等式如下:

爲每個孩子 k 引入單獨的參數矩陣允許 N-Tree Tree-LSTM 模型在單元上對孩子狀態學習比 Child Sum Tree-LSTM 更細粒度。例如,考慮一個選區樹應用程序,其中節點的左孩子節點對應於名詞短語,右孩子節點對應動詞短語。假設在這種情況下強調錶示中的動詞短語是有利的。

遺忘門參數化。在等式 10 中定義了第 k 個孩子的遺忘門 f_jk,其中包含了“非對角線”參數矩陣 U_kl^(f)。此參數化允許更靈活地控制從孩子到父節點的信息傳播。例如,這允許二叉樹中的左隱藏狀態對右孩子的遺忘門具有興奮或抑制效果。但是,對於較大的 N 值,這些附加參數是不切實際的,可以綁定或固定爲零。

應用: Constituency Tree-LSTMs

我們可以自然地將 Binary Tree-LSTM 單元應用於二值化選區樹,因爲區分了左右子節點。我們將 Binary Tree-LSTM 的這種應用稱爲 Constituency Tree-LSTM 。注意,在選區樹 -LSTM 中,節點 j 僅在它是葉節點時才接收輸入向量。

  • 模型

現在描述兩個應用是上面描述的 Tree-LSTM 架構的特定模型。

1.Tree-LSTM 分類

在此背景中,我們希望從樹的一些子節點的離散類 Y 中預測標籤。例如,解析樹中節點的標籤可以對應於該節點所跨越的短語的某些屬性。

在每個節點 j ,我們使用 softmax 分類器來預測標籤,給定在以 j 爲根的子樹中的節點處觀察到的輸入 {x}_j。分類器將節點處的隱藏狀態 h_j 作爲輸入:

代價函數是每個標記節點上正確類標籤 y^(k) 的負對數似然:

其中 m 是訓練集中標記節點的數量,上標 k 表示第 k 個標記節點,λ是 L2 正則化超參數。

2. 句子對的語義相關性

給定句子對,我們希望預測 [1,K] 在某個範圍內的實值相似度得分,其中是 K>1 整數。序列 {1,2,...,K} 是一些序數相似度,其中較高的分數表示較高的相似度。首先使用每個句子的解析樹上的 Tree-LSTM 模型爲對每個句子生成句子表示 h_L 和 h_R。給定這些句子表示,使用神經網絡預測的相似性得分,該神經網絡同時考慮 ( h_L , h_R ) 對之間的距離和角度:

其中 r^T = [1,2,3...K]。使用距離測量 h_x和 h_+ 是出於經驗:發現組合優於單獨使用任何一種測量。乘法度量 h_x 可以解釋爲輸入表示符號的元素比較。

本文希望給定模型參數 Theta 的預測分佈下的預期評級接近評級 。因此,定義了滿足 y=r^T p 的係數目標分佈:

代價函數是 p 和之間正則化的 KL- 發散:

其中 m 是訓練對的數量,上標 k 表示第 k 個句子對。

理論分析

實驗

1.Sentiment Classification

數據集採用 Stanford Sentiment Treebank(SST) ,任務主要是二分類和 fine-grained( 五分類 ) 。結果如下圖所示:

結果分析:在 fine-grained task 上,作者提出的 Constituency Tree-LSTM 獲得了最好的效果, Glove vectors tuned 指使用 Glove 詞向量初始化 embedding ,在訓練過程中不斷更新 embedding ;在二分類上,達到了 SOA 的結果,但是並沒有實現指標上的超越。

Constituency Tree-LSTM Dependency Tree-LSTM 表現好的原因可能在於前者使用了更多的 labeled 數據,因爲僅從二者樹結構對比來說,前者會比後者產生更多的 nodes(319K vs 150K).

2. Semantic Relatedness

數據集採用 Sentences Involving Compositional Knowledge (SICK) ,評價指標包括 Pearson 係數, Spearman 相關係數和 MSE 。結果如下圖所示:

結果分析:作者在這個數據集上分別跟 non-LSTM 模型、 RNN 模型、 LSTM 模型做了對比,均實現了指標上的超越。

總結

本文引入了 Tree-LSTM ,將 LSTM 推廣到樹狀的網絡拓撲結構。通過在兩個任務證明了 Tree-LSTM 的有效性:語義相關性和情感分類,兩者均優於現有系統。

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊 閱讀原文 ,進入 OpenKG 博客。

相關文章