阿里妹導讀:有人的地方就有江湖。廣告作爲互聯網公司商業變現最爲直接快捷的途徑,廣告作弊已經形成了一個有完整鏈條的黑產行業。如何通過技術手段識別並防範廣告作弊?本文通過介紹常見的廣告計費模式和虛假流量的獲益形式和發生機制,分析廣告點擊反作弊的核心問題,分享相關的反作弊實踐經驗,詳解反作弊技術體系及核心算法。

本文作者:黎偉斌(德策),張紅春(樊遲),孟曉楠(瀟楠),周洋(賈讓)。

背景

世界廣告主聯盟WFA表示[1]“若不採取措施,2025 年虛假廣告花費將高達 500 億美元,僅次於毒品交易金額,成爲世界第二大非法營收”。

互聯網行業發展的幾十年來,已經滲透到生活的方方面面,各種互聯網公司層出不窮。互聯網公司的商業變現途徑已經發展出引流、電商、遊戲等多種流派,但是廣告變現作爲一種最快捷和直接的變現途徑,依然佔據着整個行業的大半壁江山。國際國內的各大互聯網公司如:Google、Facebook、百度、阿里、騰訊、字節跳動、各大門戶或視頻網站,廣告收入佔其總收入的比例都非常高。有人的地方就有江湖,有江湖的地方就有紛爭。互聯網廣告也引申出了作弊與反作弊的紛爭。互聯網廣告作弊已經成爲了一個有完整鏈條的行業,而反作弊部門也成爲了各大依靠廣告變現公司的標配。

一 常見廣告計費模式

4 CPT

英文全稱Cost Per Time。CPT是一種以時間來計費的廣告,國內很多的網站都是按照“一個月多少錢”這種固定收費模式來收費的,這種廣告形式很粗糙,無法保障客戶的利益。但是對網站來說CPT的確是一種很省心的廣告,能給網站帶來穩定的收入。

CPT是品牌廣告的報價方式,這種收費模式簡單易用,廣告主自主選擇的空間大。但是CPT沿用幾年,廣告主漸漸發現這種收費形式缺乏說服力。對客戶和網站都不公平,無法保障廣告客戶的利益。由於各大媒體尚未能實時地公佈其每天的不同頁面的日訪問量和日不重複訪客數,因此,廣告主在衡量廣告投放效果時只能根據媒體公佈的數據進行估算,這種評估方法難以體現互聯網廣告所應有的精確性和實時性,而只是根據經驗估算出廣告所能傳達到的用戶數量及相應所需付出的費用。同時一個越來越明顯的趨勢是隨着媒體頁面訪問量的不斷變化提高,媒體缺乏有力的第三方數據向廣告主證明這種頁面訪問量增長的準確可靠性,只能被動地每半年或每一年調整一次價格,以提高自己的收人。

電商網站主頁中間位置的鑽展和門戶網站的包月廣告都屬於這種CPT廣告。適合垂直行業平臺展示廣告位,類似地鐵廣告、電梯廣告等戶外廣告也是這種類型,通常按周、月進行銷售。

5 CPS

英文全稱Cost Per Sales。CPS是一種以實際銷售產品數量來計算廣告費用的廣告,這種廣告更多的適合購物類、導購類、網址導航類的網站,需要精準的流量才能帶來轉化。

這種模式的好處是相對容易得到廣告主的認同,只需要在完成一單訂單後纔會支付相應的廣告費用,不好的地方是在現有條件下,會導致廣告資源的浪費,例如一個網站投放了CPS廣告,10000個訪客中可能會有100個人對產品感興趣,而100個人中間只有10個人最後完成了購買的轉化,但另外9900個流浪其實就浪費了。所以大型媒體一般不會採用這種結算方式,採用此類方式的媒體一般處於長尾端利基產品進行廣告投放。因爲推廣效果能夠比較準確的計量與評估,對於廣告主而言,CPC、CPA、CPS方式比CPM、CPT模式更加有利。

6 CPI

英文全稱Cost per install。按每次裝機付費,是移動端APP推廣常用的計費模式。

二 虛假流量的獲益形式和發生機制

1 廣告投放流程

下圖是廣告投放流程[1]:

2 獲益方式

廣告作爲互聯網最主要的盈利模式,利益誘惑下部分流量提供方會有作弊動機。下圖[1]是幾種常用廣告計費模式對應的獲益方式。

3 發生機制

機器作弊[1]成本低,特徵集中,容易識別;人工作弊成本高,作弊者要想獲利也會表現會一定的集中性,需要深入分析數據挖掘異常特徵,從而識別作弊。

三 廣告點擊反作弊核心問題

世界廣告主聯盟WFA表示[1]“若不採取措施,2025 年虛假廣告花費將高達 500 億美元,僅次於毒品交易金額,成爲世界第二大非法營收”。

互聯網行業發展的幾十年來,已經滲透到生活的方方面面,各種互聯網公司層出不窮。互聯網公司的商業變現途徑已經發展出引流、電商、遊戲等多種流派,但是廣告變現作爲一種最快捷和直接的變現途徑,依然佔據着整個行業的大半壁江山。國際國內的各大互聯網公司如:Google、Facebook、百度、阿里、字節跳動、各大門戶或視頻網站,廣告收入佔其總收入的比例都非常高。有人的地方就有江湖,有江湖的地方就有紛爭。互聯網廣告也引申出了作弊與反作弊的紛爭。互聯網廣告作弊已經成爲了一個有完整鏈條的行業,而反作弊部門也成爲了各大依靠廣告變現公司的標配。

虛假流量的存在,讓數字廣告行業遭受前所未有的信任危機。具體危害主要表現在:

虛假流量的存在,讓廣告效果、品牌安全等方面都難以實現廣告主的投放初衷,會導致獲客成本的增加,直接造成了廣告主的經濟損失。

無效流量掩蓋了真實用戶。從結果上看,虛假流量提升了流量數據,虛增的曝光次數實際對廣告主並無價值,無法提升客戶與商機的數量、無法提升真實的用戶留存和真實的用戶活躍。

數字廣告行業遭受前所未有的信任危機。因爲不良的競爭及短期的利益驅使,加上廣告主對數字廣告營銷效果的困惑、混亂,造成廣告主對數據廣告的信譽危機。

下述探討按CPC計費的廣告點擊反作弊。

1 無效點擊定義

點擊反作弊的工作目標是把流量中存在的“無效點擊”過濾掉。對於“無效點擊”的定義,維基百科上的定義如下:

Click fraud occurs in pay per click online advertising when a person, automated script or computer program imitates a legitimate user of a web browser clicking on an ad, for the purpose of generating an improper charge per click.

簡單來說無效點擊是指在CPC計費的廣告系統中,以人工或者機器手段蓄意造成的非以轉化爲目的的廣告點擊行爲。

2 廣告點擊業務的運轉邏輯

下圖[3]是廣告投放過程涉及的4個角色,他們的基本功能和訴求如下:

廣告主:將自己產品的廣告觸達到用戶,通過廣告在受衆羣體或目標用戶中產生一定的品牌影響力,進一步使得用戶成爲其服務或產品的消費者。

廣告代理/銷售:比較專業的廣告推廣操盤手,幫廣告主管理賬號,提供專業的營銷服務。

廣告交易平臺:是一個連接互聯網媒體和廣告主的廣告系統平臺,不僅會給廣告主提供廣告營銷工具和廣告投放服務,而且會藉助互聯網媒體的流量實現廣告的商業價值。比如有大量用戶和流量的搜索引擎公司、電商公司、社交公司。

媒體:媒體一般爲互聯網網站或互聯網信息與服務的提供商。互聯網廣告投放的媒體通過用戶在其網站瀏覽信息或者使用服務的過程中完成廣告信息的傳播,媒體一般也叫聯盟。比如一些小網站,如博客。

用戶:在互聯網上瀏覽信息或使用服務的人,也是廣告主的潛在的廣告客戶。

下表介紹了上面5個角色的在廣告產業鏈中“提供的服務、利益訴求、作弊動機”。這些作弊者是黑產中的一部分,另外一些專業黑產爲上述作弊者提供專業的作弊服務(比如養的批量賬號,比如提供可以修改點擊者環境信息的作弊器),以收取服務費。

3 反作弊的意義

定性方面:業務發展和風險如同汽車的引擎和剎車,是有機的組成。引擎負責向前,剎車負責避免風險。

定量方面:業務如同放貸,而技術風險就是放貸的利率。利率高了,業務就跑不動了;利率低了,是要有泡沫破滅的大風險的。利率的高低是需要數據和藝術來平衡的。”

廣告點擊反作弊表面上是過濾了點擊,減少了營收。實際上是過濾廣告主認爲不該扣費的點擊,保障廣告主的正常投放廣告,提升廣告主對平臺的信任度,爲廣告業務的發展保駕護航。

正如CRO的使命中所說“反作弊的使命是讓消費者安心,讓業務方/商家與合作伙伴省心,讓監管單位放心,讓作惡者灰心”。

4 反作弊的難點

業務視角的難點

很贊同大家提的反作弊要儘量做到“上醫治未病”、“遏制劣幣驅逐良幣”以及反作弊要做到“水不驚魚不跳”、“沒有人知道我的存在就是我做得好的一個表現”。這是對平臺發展、買家和賣家體驗的義無反顧的責任,做得不好的時候別人很快就知道我的存在了,但是做到“風平浪靜”的時候怎麼證明是反作弊的貢獻呢?準確過濾的作弊量一定程度上反映問題。客戶的體驗和信任度也反應反作弊的價值。

技術視角的難點

道高一尺魔高一丈,作弊和反作弊都在不斷迭代升級,如果沒能過濾新型大規模攻擊將非常影響客戶體驗和對平臺的信任,怎麼持續做到“上醫治未病”、“防範於未然”,保障客戶體驗和避免平臺資損。後續我們會介紹事前我們的“主動發現作弊機制”,以及事後升級規則和模型。

缺少置信樣本,怎麼在保證召回作弊的情況下控制平臺的資損。後續“樣本工程”部分介紹我們的有監督模型是怎麼選樣本的。

用什麼指標衡量業務做得好?我們用準召率和召回率兩個指標,準確率分兩種,一種是新策略的準確率,計算邏輯爲“大盤點擊的轉化率/新策略單獨識別點擊的轉化率”;另一種是線上所有策略的準確率,計算邏輯爲“大盤點擊的轉化率/所有策略識別點擊的轉化率”。召回率指客戶賠付總次數和金額。

5 作弊動機

在整個行業中每個角色在整個鏈條中利益訴求不盡相同,其作弊動機也不一樣,接下來我們單獨分析每個角色的作弊動機及利益所在:

廣告主:雖然廣告主是最初的金主,但也存在作弊的強烈動機。比如在競價環境下希望儘快消耗競爭對手的廣告從而使自己容易拿到量,或者對自己作弊從而提升自己的點擊率。

廣告交易平臺:廣告交易平臺還有被動的作弊,因爲還有很多流量來自於其它媒體的引流,這些媒體參差不齊,廣告交易平臺和媒體之間的結算以點擊來結算,所以媒體也有足夠的動力作弊。而這些點擊完全不會有任何轉化。

6 作弊類型

機器作弊:使用機器或程序來模擬廣告行爲,或者通過木馬和肉雞模擬用戶的廣告行爲。爲了使點擊行爲不被規則類發現還會控制ip分佈和時間。機器作弊有如下的方法:模擬器、Proxy(網關,修改ISP,IP,UA,設備類型等)、爬蟲(各家搜索引擎大量爬取着整個網絡,依然會消耗巨大的廣告預算)。

人工作弊:僱人用真實的設備進行廣告的各種行爲操作,主要方式爲衆包。

7 評價反作弊效果的方法

以下對比我們與阿里媽媽、百度鳳巢的主要評價指標,主要評價指標均是準確和召回兩個視角。召回視角比較相似:都是客戶感知,客戶賠付次數和賠付金額。以下對比準確視角的指標。

我們評價過濾準確的方法

準確視角:新策略上線前,計算其近似準確率的邏輯爲“大盤點擊的轉化率/新策略單獨識別點擊的轉化率”大於 X,值越大越準確,具體閾值根據業務統計數據和人工評測確定

阿里媽媽評價過濾準確的方法

準確視角:藉助淘系閉環轉化效果,估算準確率置信區間。

百度鳳巢評價過濾準確的方法

準確視角:人工抽樣,可視化的評測各個維度的統計分佈特徵,然後計算準確率。

我們與阿里媽媽均是電商業務,有轉化數據,比較適合用轉化率指標。百度鳳巢代表的其他無轉化指標的廣告系統,適合人工評測。

另外關於轉化率可以根據業務定義,比如騰訊APP推廣反作弊系統會讓各個APP設定轉化指標,如留存、激以及電商場景的收藏、加購物車等。

四 反作弊技術體系

反作弊非常重要的一點是數據分析,本文暫不展開。下述技術已經應用到多個業務的廣告點擊反作弊中,下述技術不僅適用於按CPC計費的廣告點擊反作弊,多數技術也適用於其他計費模式(CPM/CPA/CPS/CPI)的反作弊。

1 技術體系大圖

數據層

線上系統使用了用戶歷史多天的站內全鏈路行爲數據,和最近的曝光、點擊數據。行爲反映用戶的意圖,在行爲序列模型TextCNN、BiLSTM、Bert和GraphSage裏都用到了用戶的歷史行爲序列。

算法層&應用層

如前面所述,作弊和反作弊都在不斷迭代升級。目前的算法主要集中在人工經驗規則、統計策略、機器學習和深度學習模型、圖模型。

下述簡單介紹算法迭代的過程,詳細介紹請參考後面核心算法部分。

業務剛開始的作弊主要是機器作弊,一些人機識別、爬蟲識別、黑名單即可識別大部分作弊。我們稱之爲單點反作弊。

隨後作弊者升級到人工作弊,比如大規模人工點擊(期間還不斷清除介質),或者只點沒有轉化的行爲序列異常,我們會升級到計數、比例、分佈等統計策略和行爲序列模型TextCNN、BiLSTM,已經能攔截大部分的個人作弊。我們稱之爲線上反作弊。

接着作弊者又會升級高級的人工作弊,模擬人的點擊,儘可能的各種特徵上不集中,但是畢竟作弊者要達到收益的話,需要有一定的作弊量,而他們不知道正常點擊的真實分佈,自然的會在一些維度上出現異常。我們反作弊算法升級到無監督相對熵模型,再後面有樣本了升級到有監督的GBDT和Wide&Deep,均是從多個維度和特徵上識別作弊。我們稱之爲面上反作弊。

再後面作弊難度更大了,他們會有衆包團伙作弊,我們也升級聯通圖、圖神經網絡GraphSage等模型,識別作弊團伙。我們稱之爲體反作弊。

架構層

廣告點擊涉及到錢,時效性要求高,所以必須有實時反作弊;但是實時策略只能看到當前點擊之前的數據,不能看到點擊之後的數據,可能存在少量判斷不準的情況。故我們增加了小時級別的離線模型,使用更多數據提升準確率和召回率。

運營平臺

投訴反饋是與廣告主反饋無效點擊的通道。

主動發現作弊是我們離線運行一些達不到上線準確率的策略,以在廣告主感知到之前主動發現作弊,提升客戶體驗。由於準確率達不到上線標準,故需要較多的人力分析挖掘的疑似作弊。在後面的主動發現作弊環境會詳細介紹思路。

數據沉澱包括兩方面,一是識別的無效點擊用於後續訓練有監督模型識別作弊,二是識別無效點擊,以便下游廣告算法等清洗數據。

2 規則與模型對比

新型作弊大規模出現時,非常影響客戶體驗,進而影響業務發展,規則適合解決這種緊急出現的大規模作弊;且規則容易實時部署;且規則可解釋性強,早期的反作弊中使用較多,正因爲這個原因,微軟的廣告反作弊系統2016年主要還是規則;再者反作弊場景天然缺少作弊樣本,也是規則受歡迎的一個原因。但由於規則過於依賴人的經驗,且維度單一,容易被作弊者繞過,在作弊退去時可能因爲準確率變低而誤過;另外一個規則解決一類作弊的話,後期會出現規則過多,維護成本高。另外統計規則爲了保證準確率段首較大。

當規則和人工經驗多了會積累作弊樣本,這時候將規則作爲模型的特徵訓練模型,讓模型自己學作弊的特點以召回作弊。由於模型使用特徵較多,準確率更高,且一定程度上解決規則的段首問題。

3 樣本工程

前面提到我們是電商場景,所以有轉化數據,而且前期有統計規則的過濾點擊,故可以用規則圈一些較準確的樣本(即轉化率較低的樣本)。

基於經驗構造樣本,也就是在其他場景的反作弊經驗的遷移應用。

使用SMOTE[4]生成樣本,我嘗試過SMOTE生成樣本的實驗,召回上略有提升。當作弊樣本較少,SMOTE相當於差值法,生成作弊樣本使得取值分佈更全面。

使用GAN[5]生成樣本,[6]用GAN生成欺詐樣本用於訓練有監督模型。下圖是GAN生成作弊樣本的思路。

4 特徵工程

一般來說,真實流量一般自然 (真實的流量在各個維度中表現一定是自然的)與多樣(網民的喜好各不相同,行爲一定也是多樣的)。而對於虛假流量,常表現出一定的目的性(虛假流量的產生一定和某個特定的目的有關)和規律性(特定的目的導致虛假流量一定有特殊的規律)。

由於虛假流量與真實流量在具體訪問行爲有較大差異,圍繞用戶行爲可從以下幾方面識別出虛假流量。

模型的特徵值或者規則是由下述的“維度*特徵*類型”組合而成的,其中類型是通用的,支持配置。

維度

常用維度:時間&地域維度、終端類型、操作系統、聯網方式、瀏覽器、設備介質、IP、廣告主賬號、refer、query集中等。

下面以時間維度&地域維度舉例:正常的流量訪問分佈在一天中的各個時段、地理分佈較爲均勻(區域性投放或者活動除外)、訪問趨勢較爲平緩。而虛假流量出現時間段特殊、來源區域集中、趨勢突增的情況。因此,通過流量產生的時間、地理位置、訪問趨勢變化都可以成爲判斷虛假流量的參考方式。

同理用戶的終端類型、操作系統、聯網方式、瀏覽器、設備介質、IP、廣告主賬號、refer、query集中等屬性,同樣可以成爲判斷虛假流量的參考標準。

特徵

1)產品參與度

具體包括平均訪問深度、平均訪問時長、用戶行爲路徑、鼠標點擊位置等。

平均訪問深度:訪問深度是用戶一次瀏覽網站、APP的深度,它是衡量網站服務效率的重要指標之一。以刷量爲目的的虛假流量,用戶訪問深度通常非常低,因爲他的目的是作弊,點完即走。當然造成用戶訪問深度不夠的原因有多種,如新投放的落地頁的失敗引導。因此我們在觀察此指標時,應率先排除產品較大改動造成的訪問深度不足等特殊情況,或者與其他渠道的流量數據綜合比較,進行科學評估。

平均訪問時長:平均訪問時長指標,主要用來衡量用戶與網站、APP 交互的深度。交互越深,相應停留的時長也越長。顯然虛假流量追求的是“量”,而非“時長”,因此平均訪問時長也可以配合幾個網站參與度指標一起分析。比如機器點擊的訪問時間會比較集中。

用戶行爲路徑:用戶在網站中的訪問行爲路徑,用戶路徑的分析模型可以將用戶行爲進行可視化展示。因此通常用戶通過渠道來到。網站後會有不同的行爲,他們一般會從落地頁開始進行分流,會訪問不同的頁面,並在不同的頁面結束對網站的訪問。顯然, 用戶行爲序列分佈是沒規律的,而對於虛假流量,雖然通過某些方式完成點擊,但也是預先設定,有跡可循的。後面的TextCNN和BiLSTM模型解決的就是行爲序列異常的作弊,有相應的作弊case,用戶基本只訪問homepage和detail,沒有訪問其他頁面。

鼠標點擊位置:虛假流量用戶的鼠標點擊位置通常是集中的,藉助熱力圖工具可以較爲容易地發現問題。

2)轉化情況

很多作弊流量可以模仿人類行爲,成功繞過平均訪問深度和停留時長這些宏觀指標,但是要模仿一個業務轉化就比較難了,如果宏觀指標表現很好,業務轉化很少的話,就需要提高警覺。當廣告主被惡意攻擊時,其點擊擊率會突然變高或者推廣時長突然變低。

類型

以下的策略類型均可配置“特徵”和“維度”。

計數:如策略“IP近1天點擊次數”,超過一定閾值是則是作弊。適用於過濾大規模攻擊。

比例:如策略“IP下平均訪問時長小於等於0秒的點擊數佔比爲Y”,Y過大也是作弊。適用於“可列特徵取值的某一個值佔比異常的情況”。

分佈:如下圖所示是作弊點擊和正常點擊在訪問時長的分佈。我們可以用相對熵或者卡方分佈計算其異常度。適用於“可列特徵取值是多個值”。

Distinct:如策略“ip維度設備介質的數目”,該例子解決換設備作弊。適用於維度對象去重後值較多,如cookie的個數,行業的個數,國家的個數等值較分散的場景。

集中度:比如策略“廣告主維度top K的ip的點擊佔比”,該例子解決特定ip攻擊廣告主的情況,適用於不可列特徵值的top K值較集中的場景。

子維度Distinct數目分佈:比如策略“廣告主主維度下的IP子維度下不同cookie數目的分佈”——該例子解決換cookie攻擊Memberid的。這裏廣告主是主維度,IP是子維度。適用於子維度換ip,換useragent,換設備介質等,子維度下某個特徵取值分佈於基準有差異。

計數分佈:比如策略“IP維度設備介質子維度點擊次數的分佈”,該例子解決機器均勻點擊作弊。適用於子維度點擊次數與基準差異,主要是多次點擊。

5 主動發現作弊

主動發現作弊是爲了在客戶申訴前發現並召回作弊,以提升客戶體驗,但其實也已經出現作弊了。

異常檢測。[7]和[8]分別是之前我整理的中文和英文版“從時間序列、統計、距離、線性方法、分佈、樹、圖、行爲序列、有監督機器學習和深度學習模型等多個角度的異常檢測方法”。我們用這些方法結合上述特徵工程環節的維度、特徵、類型,提前發現異常。比如“memberid的點擊率和推廣時長的變化,或者某些維度下的其他的廣告指標”。如果策略準確率達到上線要求則部署到線上,否則需要對挖掘的數據做進一步分析,針對發現的作弊調研策略。

運營人員去市場上調研作弊器。

自己構建各種作弊數據模擬攻擊反作弊系統,觀察其魯棒性。

蜜罐。收集作弊者的更多信息。

6 核心算法

識別機器作弊(點)

識別個人簡單作弊(線)

在作弊者升級到人工作弊後,我們會升級到計數、比例、分佈等統計策略和行爲序列模型。我們稱之爲線上反作弊。

下圖是我們發現的網站某行業出現的一類攻擊,作弊者只訪問A、B、C、G共4類頁面,因爲他的目的就是點廣告。正常用戶訪問頁面很豐富。還會訪問D、E、F、H等頁面,想諮詢買東西。

我們將用戶近7天在網站的訪問頁面序列作爲特徵,識別本次點擊是否是作弊點擊。先通過Word2Vec對每個頁面進行文本向量化編碼。然後模型預測向量序列是否是作弊點擊。

1)TextCNN

TextCNN[9]是利用卷積神經網絡對文本進行分類的算法,輸入是詞向量,最後一層full connected網絡輸出預測結果。

卷積神經網絡的核心思想是捕捉局部特徵,對於文本來說,局部特徵就是由若干單詞組成的滑動窗口。卷積神經網絡的優勢在於能夠自動地對特徵進行組合和篩選,獲得不同抽象層次的語義信息。如圖所示:

下圖的輸入是一個用預訓練好的詞向量(Word2Vec)方法得到的一個Embedding layer。詞向量的維度是固定的,相對於原來的One-Hot編碼要小,同時在新的詞向量空間語義上相近或者語法相近的單詞會更加接近。兩個維度,橫軸是單詞、縱軸是詞向量的維度(固定的)。我們的場景的模型結構圖如下:

2)BiLSTM+Attention

我們也嘗試了BiLSTM+Attention[10],即雙向LSTM挖掘行爲序列上下文關聯信息。LSTM依據之前時刻的時序信息來預測下一時刻的輸出,但在有些問題中,當前時刻的輸出不僅和之前的狀態有關,還可能和未來的狀態有關係。Bi-LSTM可以看成是兩層神經網絡,第一層從左邊作爲系列的起始輸入,在文本處理上可以理解成從句子的開頭開始輸入,而第二層則是從右邊作爲系列的起始輸入,在文本處理上可以理解成從句子的最後一個詞語作爲輸入,反向做與第一層一樣的處理處理。最後對得到的兩個結果進行處理。在我們的場景中即理解爲正常點擊的用戶行爲序列和作弊點擊的用戶行爲序列從左往右和從右往左都有較大的區分性。LSTM雖然能獲取歷史信息,但是不能突然重要信息,爲了更好的篩選歷史信息中的重要信息,增加了Attention。

3)Bert

BERT (Bidirectional Encoder Representations from Transformers)模型是谷歌提出的基於雙向Transformer[11]構建的語言模型。通過海量語料預訓練,得到序列當前最全面的局部和全局特徵表示。

BERT[12]網絡結構如上圖所示,Bert的內部結構是多個transformer 的encoder,從上圖可以看出Bert是雙向結構的,transformer 的encoder如下圖所示。encoder包含一個Multi-Head Attention層和一個前饋神經網絡,self-attention能幫助當前節點既關注當前的詞又能獲取到上下文的語義,Multi-Head Attention擴展了模型集中於不同位置的能力。

我們選擇BERT-Base,Uncased模型。在做文本分類項目時,只需要修改run_classifier.py文件的數據預處理類。

4)三者效果對比

TextCNN通過不同的滑動窗口可以獲取不同位置的上下文的特徵,在測試集上效果比BiLSTM+Attention好。

Bert的雙向結構和多頭機制可以從多個角度獲取上下文特徵,在測試集上效果比TextCNN好。

識別個人高級作弊(面)

在我們識別上述作弊後,接着作弊者又升級高級的人工作弊,模擬人的點擊,儘可能的各種特徵上不集中,但是畢竟作弊者要達到收益的話,需要有一定的作弊量,而他們不知道正常點擊的真實分佈,自然的會在一些維度上出現異常,故我們反作弊算法升級到無監督相對熵模型,再後面有樣本了升級到有監督的GBDT和Wide&Deep,均是從多個維度和特徵上識別作弊。我們稱之爲面上反作弊。

1)相對熵

下圖是正常點擊和疑似作弊點擊的訪問時長的分佈。在我們沒有其中的作弊點擊標籤時,我們使用相對熵識別作弊點擊。

我們先計算N個特徵的異常分,再計算M個維度的異常分,最後求和。

實際使用中,我們發現相對熵的一個缺點是新出現的作弊會帶偏基準,從而導致誤識別。由於相對熵模型是把線上策略識別爲正常點擊的做基準,當新型作弊出現時,我們不能及時識別,會將其當做基準,從而基準不準確。另外就是相對熵在識別時的候選樣本不能包含大規模機器攻擊,它們也會帶偏分佈。即使用時待識別樣本中需要剔除規則識別的特徵非常集中的點擊。

2)Wide&Deep

Wide&Deep[13]通過分別提取wide特徵和deep特徵,再將其融合在一起訓練,我們場景下模型結構如下圖所示。

wide是指高維特徵和特徵組合的LR。LR高效、容易規模化(scalable)、可解釋性強。出現的特徵組合如果被不斷加強,對模型的判斷起到記憶作用。但是相反的泛化性弱。deep則是利用神經網絡自由組合映射特徵,泛化性強。deep部分本質上挖掘一些樣本特徵的更通用的特點然後用於判斷,但是有過度泛化的風險。算法通過兩種特徵的組合去平衡記憶(memorization)和泛化( generalization)。爲了進一步提升高級人工作弊的召回率,減少統計規則的段首漏過,使用前面的一些規則和有監督模型挖掘的轉化率較低的比較準確的作弊樣本作爲訓練樣本,線上統計規則作爲模型的特徵,訓練Wide&Deep模型識別作弊。

我們的場景中的特徵有:ip、memberid、refer等維度的計數、比例、分佈、distinct等類型特徵。

識別團伙作弊(體)

我們也發現一些團伙攻擊廣告主,特徵表現爲先是一個cookie換不同ip,再是ip下換多個cookie和utdid。每個設備介質點擊次數較少,繞開了前面的統計策略,也有些點的多的段首漏識別了。而由於我們的CPC較高,客戶感知無效點擊較明顯。我們先是升級聯通圖解決同行攻擊和點自己的作弊,再升級圖神經網絡GraphSage等模型識別作弊團伙。我們稱之爲體反作弊。

圖神經網絡[14][15][16]GraphSage[17]的異構網絡適合我們的場景。下圖是GraphSage兩層從鄰居聚合特徵信息的示意圖:

在我們的場景中,ip、utdid、cookie等介質組成的異構圖神經網絡,下圖中紅色框的seller是爲了示意被一個團伙換介質攻擊,實際構圖中沒有seller。即將強/弱介質連接的團伙的特徵進行聚合。

頂點和邊特徵:介質近30天的作弊信息和站內行爲數據。

招聘

我們是ICBU算法團隊,負責阿里巴巴國際貿易平臺(www.alibaba.com )上搜索/推薦/買家增長/供應鏈相關產品的算法。ICBU業務已連續三年翻倍增長,今年疫情更是加速跨境貿易的線上化進程。來這裏,你將有機會深度接觸到業界領先的計算平臺和深度學習算法,解決全球化買賣家不同時區、不同語言如何高效溝通,如何處理B類複雜的定製需求表達,如何準確計算全球物流費用和跟進全球物流履約進展等問題,幫助平臺上買賣家快速達成生意。

團隊誠招P6/P7/P8算法同學,內推諮詢直達郵箱:[email protected]

附錄[1]神策數據:數字廣告投放中虛假流量的排查與判定[2]https://wiki.mbalib.com/wiki/%E5%B8%B8%E8%A7%81%E5%B9%BF%E5%91%8A%E6%94%B6%E8%B4%B9%E6%A8%A1%E5%BC%8F%E5%A4%A7%E5%85%A8[3]https://www.weiyangx.com/335277.html[4]Nitesh VC, Kevin WB, Lawrence OH, Kegelmeyer W. SMOTE: synthetic minority over-sampling technique. J Artif Intellig Res. 2002;16:321–57.[5]Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. In NeurIPS, 2014.[6]Fiore U , Santis A D , Perla F , et al. Using Generative Adversarial Networks for Improving Classification Effectiveness in Credit Card Fraud Detection[J]. Information Sciences, 2017:S0020025517311519.[7] https://mp.weixin.qq.com/s/w7SbAHxZsmHqFtTG8ZAXNg.異常檢測的N種方法,阿里工程師都盤出來了[8]https://www.alibabacloud.com/blog/alibaba-engineers-have-worked-out-loads-of-methods-to-detect-anomalies_595452.Alibaba Engineers Have Worked out Loads of Methods to Detect Anomalies By Li Weibin, Hu Yi, and Wang Hao.[9]Yoon Kim. Convolutional neural networks for sentence classification. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1746–1751, Doha, Qatar, Oct. 2014. Association for Computational Linguistics.[10]. Sepp Hochreiter and Jurgen Schmidhuber. 1997. Long short-term memory. Neural computation, 9(8):1735–1780.[11].Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.[12].Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.[13].Cheng H T, Koc L, Harmsen J, et al. Wide & Deep Learning for Recommender Systems, ACM Computing Surveys. 2016[14]. Jie Zhou, Ganqu Cui, Zhengyan Zhang, Cheng Yang, Zhiyuan Liu, and Maosong Sun. Graph neural networks: A review of methods and applications. CoRR, abs/1812.08434, 2018.[15]. Z. Wu, S. Pan, F. Chen, G. Long, C. Zhang, and P. S. Yu. A comprehensive survey on graph neural networks. arXiv preprint arXiv:1901.00596, 2019.[16]. Ziwei Zhang, Peng Cui, and Wenwu Zhu. 2018. Deep learning on graphs: A survey. arXiv preprint arXiv:1812.04202 (2018).[17]. Will Hamilton, Zhitao Ying, and Jure Leskovec. Inductive representation learning on large graphs. In Advances in Neural Information Processing Systems, pages 1025–1035, 2017.

雲開發體驗學習

新用戶專享優惠

有一臺雲服務器可以做什麼?阿里雲開發者成長計劃通過真實的雲環境、6大業務場景和專業指導,幫助開發者深入體驗學習雲開發技術,全面掌握雲上技能。新用戶還可優惠專享輕量應用服務器,1核2G 5M,內置WordPress等8種主流環境,輕鬆滿足學習需要!

相關文章