©PaperWeekly 原創 · 作者|金金

單位|阿里巴巴研究實習生

研究方向|推薦系統

本文由卡耐基梅隆大學發表於 WWW 2020,介紹了 基於上下文的文本詞項權重生成方法 HDCT 。原有的搜索引擎在使用詞袋模型表示文本時,性能受限於基於詞頻(term frequence)的詞項權重,HDCT 可以生成基於上下文的詞項權重作爲優化方案,該研究對 BM25 等初步檢索(first stage)模型性能提升具有較大意義。

論文標題: Context-Aware Document Term Weighting for Ad-Hoc Search

論文來源: WWW 2020

論文鏈接: http://www.paperweekly.site/papers/3972

代碼鏈接: https://github.com/AdeDZY/DeepCT

算法

HDCT 算法首先通過 BERT 模型得到段落級詞項權重,然後聚合文本內各段落詞項權重,最後使用文本內容信號、相關性信號和僞相關反饋信號作爲標籤訓練模型,模型框架圖如下:

圖1. HDCT框架圖

段落級詞項權重

給定文本 ,作者首先將其劃分爲 個段落 ,在此基礎上,作者將每個段落輸入BERT模型得到各詞項的 embedding,並使用迴歸層得到初步的權重分數:

此後作者將權重分數放縮到類似於term frequence的整數範圍,例如 表示保持原分數的兩位小數精度:

由此我們可以得到類似於詞袋模型的段落向量表示如下:

文檔級詞項權重 

根據以上步驟得到的段落級詞項權重表示,文檔級詞項權重可以通過段落級詞項權重的加權和表示:

具體來說,權重的選取有兩種方式: 第一種方式認爲各段落的重要性相同,即 第二種方式考慮用戶閱讀的注意力隨文本的深入而下降,認爲各段落的權重隨位置前後逐步遞減,具體可設置爲 該步驟得到的文檔級詞項權重可直接應用 BM25 等初步檢索模型。

模型訓練

根據給定的 ground truth 權重分數 ,作者以最小化平均平方誤差作爲目標訓練模型,損失函數如下:

具體來說,作者提出了三種獲取 ground truth 的方法,分別基於文本內容(document content)、基於相關性信號(relevance)和基於僞相關反饋信號(Pseudo-Relevance Feedback)。

基於文本內容的方法考慮包含詞項的文本信息源(fields,例如標題、關鍵詞等)的比例。給定文本 的段落集合 和 field 集合 ,ground truth 分數計算方法如下:

基於相關性信號的方法考慮包含詞項的相關查詢的比例。 給定文本 的段落集合 和相關查詢集合 ,ground truth 分數計算方法如下:

基於僞相關反饋信號的方法考慮包含詞項的相關查詢得到的僞相關反饋文本的比例。ground truth 分數計算方法如下:

實驗

本文實驗在 ClueWeb 數據集(包括 ClueWeb09-B/C,ClueWeb12-C)和 MS-MARCO Document Ranking 數據集上實現。作者在前者驗證了基於內容的訓練方法在初步檢索任務和重排序任務上的效果,在後者研究了不同訓練方法之間的效果差異。 

ClueWeb數據集 

作者首先在該數據集上對比了傳統的 term frequence 算法和 HDCT 得到的權重對 BM25 及相關算法的效果差異。作者分別使用文本的 title 和 inlink 訓練模型,發現兩種情況效果均優於傳統的 term frequence,而在不同的任務上兩者效果各有千秋,總體而言使用 inlink 效果略好。

在此基礎上,作者對比了該模型和目前較好的重排序模型的效果,和基於 BERT 的重排序模型 BERT-FirstP 相比,該模型在使用 title 作爲 query 時和 BM25 的結合取得了更好的效果,在使用 description 作爲 query 時同樣取得相當的效果。考慮到該模型的時間效率,表現的結果很滿足實際的應用需求。

MS-MARCO數據集 

作者在該數據集上研究了不同訓練信號對模型性能的影響。作者分別使用 title 作爲 content-based 的訓練信號(HDCT-title),使用 out-domain 和 in-domain 的僞相關反饋文本作爲僞相關反饋信號(HDCT-PRFaol 和 HDCT-PRFmacro),使用訓練集查詢詞作爲相關性訓練信號(HDCT-supervised)。最終結果顯示,三者均優於傳統的 term frequence,而相關性訓練信號的效果最好。

總結

本文介紹了基於上下文的文本詞項權重生成方法 HDCT。在搜索引擎在使用詞袋模型表示文本時,HDCT 可以生成基於上下文的詞項權重,優化檢索性能,該研究對 BM25 等初步檢索(first stage)模型性能提升具有較大意義。

更多閱讀

# 投 稿 通 道 #

讓你的論文被更多人看到 

如何才能讓更多的優質內容以更短路徑到達讀者羣體,縮短讀者尋找優質內容的成本呢? 答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成爲一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是 最新論文解讀 ,也可以是 學習心得技術乾貨 。我們的目的只有一個,讓知識真正流動起來。

:memo:  來稿標準:

• 稿件確係個人 原創作品 ,來稿需註明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向) 

• 如果文章並非首發,請在投稿時提醒並附上所有已發佈鏈接 

• PaperWeekly 默認每篇文章都是首發,均會添加“原創”標誌

:mailbox_with_mail:  投稿郵箱:

• 投稿郵箱: [email protected] 

• 所有文章配圖,請單獨在附件中發送 

• 請留下即時聯繫方式(微信或手機),以便我們在編輯發佈時和作者溝通

:mag:

現在,在 「知乎」 也能找到我們了

進入知乎首頁搜索 「PaperWeekly」

點擊 「關注」 訂閱我們的專欄吧

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公衆號後臺點擊 「交流羣」 ,小助手將把你帶入 PaperWeekly 的交流羣裏。

相關文章