WWW 2020 | 信息檢索中基於上下文的文本詞項權重生成

©PaperWeekly 原創 · 作者｜金金

單位｜阿里巴巴研究實習生

研究方向｜推薦系統

本文由卡耐基梅隆大學發表於 WWW 2020，介紹了 基於上下文的文本詞項權重生成方法 HDCT 。原有的搜索引擎在使用詞袋模型表示文本時，性能受限於基於詞頻（term frequence）的詞項權重，HDCT 可以生成基於上下文的詞項權重作爲優化方案，該研究對 BM25 等初步檢索（first stage）模型性能提升具有較大意義。

論文標題： Context-Aware Document Term Weighting for Ad-Hoc Search

論文來源： WWW 2020

論文鏈接： http://www.paperweekly.site/papers/3972

代碼鏈接： https://github.com/AdeDZY/DeepCT

算法

HDCT 算法首先通過 BERT 模型得到段落級詞項權重，然後聚合文本內各段落詞項權重，最後使用文本內容信號、相關性信號和僞相關反饋信號作爲標籤訓練模型，模型框架圖如下：

圖1. HDCT框架圖

段落級詞項權重

給定文本，作者首先將其劃分爲個段落，在此基礎上，作者將每個段落輸入BERT模型得到各詞項的 embedding，並使用迴歸層得到初步的權重分數：

此後作者將權重分數放縮到類似於term frequence的整數範圍，例如表示保持原分數的兩位小數精度：

由此我們可以得到類似於詞袋模型的段落向量表示如下：

文檔級詞項權重

根據以上步驟得到的段落級詞項權重表示，文檔級詞項權重可以通過段落級詞項權重的加權和表示：

具體來說，權重的選取有兩種方式：第一種方式認爲各段落的重要性相同，即；第二種方式考慮用戶閱讀的注意力隨文本的深入而下降，認爲各段落的權重隨位置前後逐步遞減，具體可設置爲。該步驟得到的文檔級詞項權重可直接應用 BM25 等初步檢索模型。

模型訓練

根據給定的 ground truth 權重分數，作者以最小化平均平方誤差作爲目標訓練模型，損失函數如下：

具體來說，作者提出了三種獲取 ground truth 的方法，分別基於文本內容（document content）、基於相關性信號（relevance）和基於僞相關反饋信號（Pseudo-Relevance Feedback）。

基於文本內容的方法考慮包含詞項的文本信息源（fields，例如標題、關鍵詞等）的比例。給定文本的段落集合和 field 集合，ground truth 分數計算方法如下：

基於相關性信號的方法考慮包含詞項的相關查詢的比例。給定文本的段落集合和相關查詢集合，ground truth 分數計算方法如下：

基於僞相關反饋信號的方法考慮包含詞項的相關查詢得到的僞相關反饋文本的比例。ground truth 分數計算方法如下：

實驗

本文實驗在 ClueWeb 數據集（包括 ClueWeb09-B/C，ClueWeb12-C）和 MS-MARCO Document Ranking 數據集上實現。作者在前者驗證了基於內容的訓練方法在初步檢索任務和重排序任務上的效果，在後者研究了不同訓練方法之間的效果差異。

ClueWeb數據集

作者首先在該數據集上對比了傳統的 term frequence 算法和 HDCT 得到的權重對 BM25 及相關算法的效果差異。作者分別使用文本的 title 和 inlink 訓練模型，發現兩種情況效果均優於傳統的 term frequence，而在不同的任務上兩者效果各有千秋，總體而言使用 inlink 效果略好。

在此基礎上，作者對比了該模型和目前較好的重排序模型的效果，和基於 BERT 的重排序模型 BERT-FirstP 相比，該模型在使用 title 作爲 query 時和 BM25 的結合取得了更好的效果，在使用 description 作爲 query 時同樣取得相當的效果。考慮到該模型的時間效率，表現的結果很滿足實際的應用需求。

MS-MARCO數據集

作者在該數據集上研究了不同訓練信號對模型性能的影響。作者分別使用 title 作爲 content-based 的訓練信號（HDCT-title），使用 out-domain 和 in-domain 的僞相關反饋文本作爲僞相關反饋信號（HDCT-PRFaol 和 HDCT-PRFmacro），使用訓練集查詢詞作爲相關性訓練信號（HDCT-supervised）。最終結果顯示，三者均優於傳統的 term frequence，而相關性訓練信號的效果最好。