歡迎關注“創事記”微信訂閱號:sinachuangshiji

文/半佛仙人

來源:半佛仙人(ID:banfoSB)

1

自打人類進化中出現了商業的那一刻起,營銷,就成爲了人類鑽研的核心。

交易的本質是價值交換,但世界上不存在永遠對等的價值,所以交換中存在套利空間,這些套利空間,成就了商業的價值。

逐利是人的本性,這是刻在基因裏的。

如何把一件產品附加上額外的價值,賣給自己的同類,換回更多的金錢,成了最打動人心的事情,比世界和平還要打動人。

畢竟和平是所有人的,而金錢是少數人的。

越少越珍貴。

縱觀人類歷史的每一個時代,最先進的技術往往都是最先應用於軍事和貿易,而軍事,很多時候也都是爲貿易所服務的。

從古至今皆是如此,大數據年代也不例外。

在這個人人標籤化的數字年代,廣告業前所未有的深入到了我們生活的方方面面,影響了我們的各種決策。

你以爲你做出的購買決策是基於自身的意願,但現實並不一定如此。

作爲一個整日與數據標籤打交道的風控,反商業作弊也是我的日常工作,如果不懂商業廣告的底層邏輯,那麼是做不好風控的。

這篇文章將給大家科普大數據廣告的精準推送原理,我想爲大家展示一下數據在合理的策略裏可以完成多麼恐怖的事情,這是真正的改變世界,或者說是掌控世界。

這裏面有謠言,也有真相,更多的是真相與謠言參半。

甚至有時候真相比謠言更加魔幻。

2

讓人掏錢,不是一件簡單的事情,哪怕是有技術的支持。

數據廣告推送,本身是一個極爲複雜的工程,這裏面涉及數據採集,數據清洗,口徑對齊,數據關聯,模型訓練,策略迭代,場景驗證,流量分配,成本控制,渠道管理等一系列工作。

每家合格的數據驅動的營銷公司,都會有一隻數百到上千人的團隊專門做相關的工作,數百個聰明的腦袋996只爲做一件事。

讓你在不知不覺中心甘情願的掏錢。

靠一篇文章寫全這些,既不太現實,也沒必要,所以我決定圍繞一個關於大數據廣告非常經典的謠言,從闢謠開始,來一步步拆解數據廣告推送的基礎知識以及對我們生活的影響。

很多人在網上說自己的的手機被人監聽了,原因是自己剛和別人討論了某個話題,沒過多久,手機上就出現了類似信息的廣告。

例如自己口述了想喝奶茶,打開外賣軟件就出現了奶茶推送。

自己說想去歐洲旅遊,打開網頁就出現了旅遊廣告。

自己談到了某種商品,打開購物App就出現了類似商品的推送。

所以很多人覺得自己在被自己手上的App所監聽,然後這些監聽依據相關的關鍵詞拆解講話的意思,然後就推送給自己各種各樣的廣告,精準不精準不說,着實是嚇人一跳。

有段時間,整個互聯網都在盛傳某某App拿錄音權限就是爲了實時監控用戶,甚至某些App還在偷偷錄像用戶云云。

我得承認大家的想象力是很豐富的,在不懂網絡廣告推送機制的前提下,提出這些猜想某種程度上也是合理的,但這都是謠言。

互聯網公司不會用這種方式來做所謂的精準推送。

不是他們良心發現,而是這麼做沒有性價比。

商人逐利。

3

爲什麼不用錄音做推送?

從用戶角度思考方案,可能只考慮這件事是否能實現,監聽錄音從技術上可以實現;

但是作爲商業公司評估方案,除了需要考慮能不能實現這一點之外,還要綜合考慮成本,效率以及風險,馬虎不得。

商場如戰場。

利用錄音做信息收集,然後做廣告推送,在當下,是一件成本極高,效率極低,風險極高的事情。

不僅要投入大量成本,連毛都賺不回來,還要面臨侵犯用戶隱私的指控,腦子沒冒煙的公司都不會做這件事,即使是冒煙的公司,做到一半就會發現划不來,然後不做了。

錄音牽涉的主要問題如下:

1. 錄音功能會讓App消耗海量手機資源。

當一個App在後臺持續錄音的時候,不僅是App本身運轉會變得遲緩,更多的是會造成手機本身的耗電量和發熱大幅增加,一來二去,用戶直接就不使用了,因爲一用你的App手機就不好,市場上可選擇替代品又太多。

當年滴滴和快的大戰的時候,滴滴在關鍵時刻勝出靠的就是騰訊支持的1000臺服務器以及數百名頂尖工程師,比快的早半個月實現了用戶體驗的質的飛躍,後面的故事大家都知道了。

2.錄音文件本身是佔用手機存儲空間的,並且佔用極大。

大家可以自己錄一段30分鐘的錄音看看,這個音頻文件會有多大,一個App如果持續錄音,在用戶重度使用的情況下,可能幾天就把手機徹底塞滿了。

這會造成非常荒謬的後果。

3.錄音錄下來之後,無法及時處理這些錄音數據。

如果把錄音處理模型放在本地App裏,那麼一個是App安裝包臃腫,一個是會被競爭對手反編譯,商業機密直接透明,把核心能力包在App本地,是很愚蠢的事情,喫雞爲什麼外掛屢禁不止,就是因爲運算整體在本地文件,無法抵擋本地篡改,所以本地存儲方案不靠譜;

如果走實時上傳,那麼傳輸過程中需要流量,這造成用戶的流量損耗極爲恐怖,並且很容易就被識別出來上傳用戶信息;

這些數據屬於無用數據。

4.錄音分析來的數據價值低,且不準確。

如果手機App監聽錄音,那麼首先得保障他監聽到的是你本人講的話,因爲推薦是要對你本人進行操作的,但是在現實生活中,錄音沒法保證只錄某個人的聲音,要錄就是一起錄音,這就導致錄下來的聲音也不知道是誰的。

想想看,我在你身邊走過,衝着隔壁的人大喊一聲“杜蕾斯”。

然後你打開手機給你推薦杜蕾斯,這種沙雕推薦是不是非常魔幻?

這就是無差別錄音帶來的問題。

5.語義分析在目前依然面臨無法解決的語言本身的問題。

人類的語言是一門藝術,漢語更是高階藝術,而機器尚未破解這一藝術。

如果大家試過錄音轉文字,或者語音輸入法,就會發現,機器沒有辦法完整的識別有效的語言場景。

我們來做一個語義識別題:

領導:“你這是什麼意思?” 小明:“沒什麼意思,意思意思。” 領導:“你這就不夠意思了。” 小明:“小意思,小意思。” 領導:“你這人真有意思。” 小明:“其實也沒有別的意思。” 領導:“那我就不好意思了。” 小明:“是我不好意思。”

這裏面的每一個意思,都是什麼意思?

機器根本做不到識別這些內容。

甚至很多時候你只要講方言或者講話一快,機器就根本不知道你在說什麼了。

精準推送的前提是數據可靠且精準,錄音絕不在這種數據中。

6.錄音帶來的風險,要遠遠超過收益。

錄音這件事情,本身是非常敏感的,要是哪個App能被明確抓出來在偷偷錄音(目前所有的質疑都只是質疑,沒有明確的數據和代碼證據),第一個搞他們的不是網民,而是工信部。

這種侵犯隱私的行爲,正是抓緊去教育的好時機。

而公司只爲求財,不想求進監獄裏。

看到這裏,我想很多人對於錄音這種謠言已經足夠了解了,但是還是有疑惑自己身上發生的神奇的事情,沒關係,我們繼續講下去,看看真正的數據推送是怎麼做的。

我們如何通過巧妙的技術把我們自己困在廣告裏。

4

數據推送是如何實現的?

一套最最基礎解法是,X+N=Y,這是最簡單的公式。

X是指的用戶特徵變量(用戶畫像),N是指變量應用(算法,策略),Y是指推送效果(用戶是否購買)。

所有收集來的用戶數據,經過標準化ETL(數據處理),再經過特徵工程,形成有效的X。

有了X之後,N就是如何使用X,讓最終結果更接近於Y。

這裏可以利用算法,也可以使用策略包,目前的主流是使用策略包,因爲算法的效果隨機性比較大。

所謂的精準推送,本質上其實就是一個用X和N尋找接近Y的過程,所謂的訓練模型,只不過是在已知X和Y的情況下,找尋可以讓X更接近Y的算法,找出更好用的N。

單純這麼說比較抽象,我舉一個例子大家就明白了。

半佛是一個18歲的美少年,曾經在淘寶上買了很多XX品牌的跑鞋,並且經常搜索大體重跑鞋。

從廣告推送的角度,針對美少年半佛的推送會這麼做。

首先拆解半佛身上的標籤,做成X。

男性,18歲,XX省人,學歷XX,跑鞋,大體重,常用購物平臺,手機型號,App來源,手機入網時長,話費消費記錄等等,這些標籤都是X,來自於各種各樣的數據源。

然後通過過去的購買記錄,找到半佛曾經購買過的商品,就是各類跑鞋,做成Y。

一個簡單的用戶畫像就出來了:年輕男性,熱愛跑步,胖,樂意花錢,有品牌傾向性,喜歡在淘寶購物,多數購物來自於主動搜索。

那麼這時候就可以通過一定的策略,給半佛推薦大量的符合他歷史購買習慣的跑鞋(從品牌到型號到價格),如果成交了,就代表算法有效,進一步強化推送;

如果沒有成交,就弱化部分特徵,推送新一批跑鞋,只要成交,就依據成交結果修正算法。

最終半佛只是無聊刷淘寶,但是最終買了1000雙跑鞋回家,然後又掛到了閒魚上,創造了好幾次GMV。

當然實際應用中會比這個公式要複雜很多,各種變量間的衍生變量,不同用戶間的關係網絡變量,同一個用戶在不同場景中要匹配不同的Y,X作爲Y,Y作爲X,用戶消費心理勾畫,產品要素設計等等等等,廣告推送可以說是互聯網最複雜的應用,可能都沒有之一。

因爲人的購買慾是不穩定的。

上面舉的例子僅僅是複雜度爲1的情況,實際在應用中,數據和公式的複雜度基本是10086起。

考慮到本文是科普性質,所以我只拿最基本的東西來講,大家瞭解這個數據推送的邏輯就可以了,算法本身不是重點。

真正的重點在於精準數據的獲取,這纔是對我們生活影響最大的。

數據時代的我們,一切都可以量化。

5

很多人所謂的自己偶爾說了什麼,然後就收到了相關的廣告,所以懷疑自己被錄音。

我理解這種想法,但我要說實現這樣的效果,根本不需要錄音這麼麻煩,有的是更精準的方法來獲取你的X。

1.最基礎的就是你的主動搜索記錄。

包括你在搜索引擎上的搜索,你在購物網站的搜索,你在各種App(不一定要是購物)中的搜索,這些你主動搜索的信息,都是高權重的X。

如果是網頁端的搜索,那麼瀏覽器和搜索引擎都會留存你的cookie,即使你有定期清除瀏覽記錄的習慣或者知道每次上完網清cookie也沒用,現在雲計算的發展已經可以做到實時上傳,你清除也沒用。

2.除開搜索記錄和購物記錄外,最精準的數據之一就是你的手機App List以及註冊App列表。

就是你的手機曾經安裝過哪些App,當前手機安裝了什麼什麼App,以及每一個App的打開率,使用時長等等。

這個通過用戶授權直接讀取App列表以及通過短信驗證碼反推安裝註冊可以實現,即使是號稱IOS,也可以通過App跳轉撞庫的方式來撞出至少48個App。

每一個App都是代表了一大串的X,畢竟每個App都有自己的屬性和目標用戶,這些特徵都是很顯著的。

你安裝了拼多多,可能代表你是一個價格敏感型用戶,可以給你推送便宜貨;

你安裝了Bilibili,可能代表你是一個喜歡二次元的用戶,可以給你推薦動漫周邊;

你每天大量時間沉迷在短視頻,可能代表你是一個熱衷於Kill Time的人,當然廠商還會用你瀏覽記錄來更精細化的推薦各種二類電商產品;

你用什麼App,某種程度上在機器眼中你就是什麼人。

3.LBS地理位置是一個非常有用,但是很多人都會忽略的內容。

很多所謂的談到奶茶後,打開外賣App會彈出奶茶店鋪廣告的案例,其實都是因爲使用了LBS推送。

大家都知道App會實時獲取用戶的地理位置,生成與之相關的X,而外賣店鋪,本身也有自己的業務輻射範圍。

當你走入到這個外賣店鋪的輻射圈子的地理位置時,就給你推送相關的信息,讓你不得不看。

某著名網紅插,就經常喜歡對自己門店2公里內的外賣App用戶進行無差別推送,別管你喝不喝,來了就先看個廣告吧。

獲取LBS的途徑有很多,很多時候通過WIFI的固定連接點,也可以識別你是不是在那幢樓辦公或者生活,然後圍繞這一變量給你進行推送。

你在哪裏,你就是誰。

4.聊天記錄讀取,短信讀取,這種東西都太尋常了,我要說的是,輸入法。

只要你打字,你的輸入法是知道你鍵入了什麼內容的,這部分內容,都會被留存下來,然後作爲你特徵變量的一部分,這可比錄音要好多了,因爲百分百是你本人打的字,而且文字表達的含義也更加清晰。

某些輸入法,就在做着這樣的事情。

輸入法既然可以監控你的錄入,當然也可以直接讀取你的剪貼板,看到你曾經讀取過什麼。

甚至技術厲害一點的,可以直接監控你的鍵盤軌跡,連你曾經打出來但是又刪除掉的內容都拿到。

哦對了,關於錄音,有一點是真的,就是當你用輸入法的語音錄入功能的時候,他們確實是知道你的錄音的,只不過不是讀聲音,而是通過錄音轉錄文字後的關鍵詞,是讀文字。

輸入法對於用戶隱私的監控與泄露,是非常嚴重的,而且大多數人都無從感知。

你忘記的,輸入法都記得呢。

5.當然,手機本身,就是一個最大的隱私收集器,在系統廠商和硬件廠商眼中,大家其實都是裸奔的。

再講一個恐怖故事,這些從各種App,各類輸入法,各種手機中收集來的用戶數據,都是可以交易的,各家公司都在利用這些數據。

隨便舉一個例子。

用戶在頭條App中用百度輸入法輸入【尿不溼】,百度和頭條都知道用戶在頭條輸入了這個【尿不溼】,他們有了這個數據,這個數據並且是直接關聯用戶手機號的,就是說,大家知道是誰,在什麼時間,在哪個App裏,輸入了什麼。

而這條精準的用戶信息,是可以賣給淘寶或者京東的,淘寶獲取了這個信息後,就可以對這個手機號關聯的用戶去進行相關的推送。

這個市場的體量和交易額遠遠超出所有人的想象,但是知道的人卻寥寥無幾。

6

如果要窮舉各種App各種手機收集和利用用戶隱私的案例,可能講幾天幾夜也講不完。

我來給大家講一個基於數據採集的用戶畫像案例吧,看看我們的一生是如何被數據拆解的。

下面的文字部分爲正常生活描述,括號內爲獲取這些數據的途徑。

小明,在廣告公司上班(通過短信讀取公積金信息,或者支付寶綁定公積金)。

28歲,男性(身份證號拆解)。

本科學歷(學信網接口通過身份證號調用),外地人(身份證號前6位對比工作所在地)。

租房(租房App或者代繳水電費賬戶名字與本人不同)。

貸款買了一輛小車(貸款App數據,支付寶綁定行駛證,每月短信還款提醒)。

平時的消費愛好是買書和拼多多(支付類App付款記錄),以及打手遊(遊戲類App以及賬號體系)。

經常去XX網吧通宵(外賣收貨地址,網吧管理軟件用戶體系)。

住在XX小區(快遞收貨地址,手機LBS活躍圈,WIFI連接熱點)。

偶爾也去旅遊(車票酒店購買記錄,異地網紅店消費記錄)。

甚至喜歡看點小電影(瀏覽器記錄,購買付費記錄,轉發記錄)。

朋友很多(好友數,日常活躍好友數,通話記錄與通訊錄的交集),朋友們的消費水平也一般般。

收入一般般(短信讀取銀行到賬短信,手機話費餘額消費賬單)。

有一個女朋友小紅(聊天記錄,通訊錄,通話詳單),已經同居(購買大量女性生活用品)。

女朋友公司在XXX(基於小明除家裏以外的收貨地址,關聯一些女性物品交易記錄)。

快要結婚了(網上搜索大量與結婚有關的信息,下載了婚禮類App)。

最近可能要當父親了(查看嬰兒用品,網上搜索很多育兒經)。

最近手頭有點緊(下載了很多借款App,讀取短信可以知道有些下款了,外部可以採購到他的多頭負債情況)。

等等等等等等等(10086個等等)。

如果你是廣告商,你拿到了這些數據,你可以非常精準的在小明人生的每一個階段,都恰恰好推送一些恰恰好的廣告,很多人可能光看描述就已經在構思營銷方案了。

而且,這還只是小明一個人的數據,如果再加上小紅的數據,小明朋友的數據,小明父母的數據,最終就會成爲一張關係網。

例如當小紅在搜索孕婦裝的時候,其實就可以給小明推薦奶粉和嬰幼兒保險了。

例如小明在搜索各種片子的時候,其實就可以給小紅推薦一些情趣用品了。

這種關聯多如漫天繁星。

星空下是我們平凡的人生。

如戲一般的人生,劇本不在我們手中。

我們只是一顆棋子。

7

斯諾登的棱鏡事件大家都還記得吧,美國政府在全世界範圍搞監聽。

但要我說,棱鏡那個東西,在大數據多維交叉驗證面前,只是上個世紀的玩具。

通過數據挖掘和收集,我知道你的愛好,知道你的活動範圍,知道你的詳細信息,知道你的社交圈,知道你可能要做的事情,知道你的一切。

我比你還要懂你。

爲什麼我國政府近幾年特別重視個人隱私,對於各種濫用隱私行爲都是嚴厲的打擊,每年都有大量數據從業者被送進去?

因爲當企業知道用戶的一切的時候,某種程度上,就可以通過推送,來影響用戶的一切。

這個影響可以是精準推送賺錢,也可以是做的更多。

還記得美國大選的時候,FaceBook直接倒賣用戶數據來監控輿情,甚至通過精準推送來影響大選的結果?

這是一種超越國界的能力。

不僅僅是改變世界,甚至是掌控世界。

而回到我們自己。

我們的一切,在公司眼中,只是一個個數據標籤,是達到他們目的的必要生產資料而已。

他們做的就是把我們做成數據,然後向我們灌輸數據,從我們身上得到他們想要的東西。

我們一生的歡笑與淚水,開心與難過,認真的思考,謹慎的決策,最終都不過是一組數據,都是可以被拿來利用的。

他們甚至都不屑於支配我們,你會去衝着一堆數據使勁兒嗎?

他們只需要調整參數就可以達到目的。

現在巨頭們已經完成了數據的合圍,然後通過交易來壟斷這些數據。

我們的一切都透明瞭,再技術飛速進步的年代,錢和權力都無法阻止這一切發生,除了死亡外,人類在大數據面前也是平等的。

這一切都不是祕密,完全是公開的事情,甚至那些賣數據的公司都恨不得自己去打廣告找到更多的買家來買,因爲賣的人太多了,市場競爭過於激烈,數據量過於飽和。

這魔幻又現實。

數據像大白菜一樣擺在那裏交易,交易的是我們每個人的人生。

我們的一生的故事都在裏面,愛也在,恨也在。

大數據的發展確實給生活增加了便利,這無可否認。

但如何掌握數據採集和數據應用的度?這是一個很大的問題。

更大的問題在於,這種被設計好的生活,真的是我們想要的嗎?

我還沒有答案,你呢?

相關文章