雪花新聞

推薦系統“體檢”:如何評估推薦系統的“健康”狀況?

摘要:在推薦系統中,AB測試也採用了類似的概念:將不同的算或者策略,在同一時間維度,分別在兩組或者多組組成成分相同的用戶羣體內進行線上測試,分析各組的用戶行爲指標,得到可以真正全流量上線的算法或者策略。推薦系統的評價指標除了上面提到的用戶角度和平臺角度之外,還有推薦系統自身的評估。

推薦系統從海量數據中挖掘用戶喜歡的內容,滿足用戶的需求。要想做到“千人千面”的同時,又能做到“精準推薦”,一個健康的推薦系統是必不可少的。

就像爲了自己的健康去體檢,推薦系統也有自己的健康指標,不同的業務、不同的場景、不同的階段都有不同的指標,所以選擇好的評估指標以及合適的評估方式,才能讓推薦系統更加“健康”。

推薦系統的常見指標

推薦系統的評價指標,要從解決實際問題的角度來思考,好的推薦系統,不僅要保證自身的“健康”,還要滿足服務平臺、用戶等多方面的需求。

圖1:推薦系統基礎流程

1. 用戶角度

用戶最重要的需求是更方便、更快速的發現自己喜歡的產品,爲了滿足用戶的需求,推薦系統可以從以下幾個方面評估。

2.平臺角度

平臺方給用戶提供物品或者信息,不同平臺獲取利潤的方式不同,有的通過會員盈利,有的通過商品盈利,大部分的平臺都會通過廣告賺錢。所以對於平臺方來說商業目標是最重要的目標之一,通常來說有兩類值得關注,一個是內容滿意度,一個是場景轉化率。

1) 內容滿意度 :業務場景不同,內容滿意度的指標也隨之變化,主要是通過用戶對產品的不同行爲了來衡量,下圖的例子分別說明了不同領域的內容滿意度的一些衡量指標。

圖2:內容滿意度評價指標

2) 場景轉化率 :轉化率是比較直觀的指標,給用戶進行推薦,是希望用戶對推薦的內容有所行動,比如常見的點擊行爲、點贊行爲等。

(注:pv:訪問頁面的次數;uv:訪問頁面的人數)

推薦系統的離線評估

推薦系統的評價指標除了上面提到的用戶角度和平臺角度之外,還有推薦系統自身的評估。推薦系統從接收數據到產生推薦結果,再根絕推薦結果的影響重新修正自身,所以本質上是一個閉環系統,在這個閉環中,離線部分的工作主要是通過學習訓練以及其他策略規則進行召回,主要的以下的評估指標。

圖3:推薦系統評價階段

1. 準確度

準確度的評估主要是評估推薦算法模型的好壞,爲選擇合適的模型提供決策支持。推薦系統也像其他機器學習一樣,把數據劃分爲訓練集和測試集,使用訓練集學習訓練模型,通過測試集來衡量誤差以及評估準確度。根據推薦系統的目的不同,準確度的衡量也有不同的指標。

2. 覆蓋率

覆蓋率描述的是推薦出的產品佔總產品的比例,除了產品之外,類目、標籤也可以用覆蓋率來評價。

3.   多樣性

用戶的興趣不是一成不變的,而且有些產品的用戶不止一個,同一用戶的興趣也會受到時間段、心情、節日等多種音速的影響,所以推薦時要儘量推薦多樣的產品。在具體的多樣性評價上,可以通過對產品聚類,在推薦列表中插入不同類別的產品來提高多樣性。

4. 時效性

不同產品的時效性是不同的,比如電商類需要的時效性不是很高,但是新聞、資訊、短視頻這類產品,就需要很高的時效性,所以針對不同產品甚至產品下不同的類目,設置不同的時效性,也是提高推薦質量的途徑之一。

推薦系統的在線評估

在線評估大致可以分爲兩個階段,一個是用戶觸發推薦服務,另一個是用戶產生行爲這兩個階段。

1.   觸發推薦服務

2. 產生行爲

這一階段主要是用過用戶產生行爲,通過收據分析用戶的行爲日誌進行相關指標的評價。這一階段更多的是考慮平臺角度,從商業化指標以及用戶行爲指標等方面進行評價。比如轉化率、購買率、點擊率等都是常見的行爲指標,一般用戶行爲符合漏斗模型(例如,推薦曝光-點擊-閱讀-分享),通過漏斗模型可以直觀的描述不同階段之間的轉化,提升用戶在不同階段之間的轉化。

圖4:用戶行爲漏斗模型

AB測試

在線評估通常會結合AB測試,當有新的算法或者策略上線時,通過AB測試,在同一指標下,對比新舊算法的差異,只有當新算法有明顯優勢時,纔會取代舊的算法。

圖5:AB測試流程

1.   什麼是AB測試

AB測試的本質是對照試驗,其來源於生物醫學的雙盲測試,通過給兩組病人不同的藥物,來確定藥物是否有效。在推薦系統中,AB測試也採用了類似的概念:將不同的算或者策略,在同一時間維度,分別在兩組或者多組組成成分相同的用戶羣體內進行線上測試,分析各組的用戶行爲指標,得到可以真正全流量上線的算法或者策略。

2.   AB測試的常見做法

AB測試應該怎樣進行呢?其中最重要的是“控制變量”、“分流測試”和“規則統一”。

相關文章