友盟+ CDO李丹楓：日均千億數據，如何實現高效計算、應用？

有人說，大數據火了多久，數據相關性弱、數據質量不高、數據處理過程複雜等問題就存在了多久。人工智能時代的到來不僅加劇了已有問題，也引入了一些新的難題，一方面，當前人工智能仍重度依賴數據，如何讓大數據更好地服務於人工智能應用；另一方面，如何利用好人工智能這個工具讓大數據的處理變得更加高效？在友盟+主辦UBDC全域大數據峯會前期，InfoQ對【友盟+】CDO李丹楓進行了專訪，探討了在 AI 時代下，【友盟+】數據智能的生意經。

截止 2018 年Q1，【友盟+】服務 150 萬款 App，710 萬個網站，每天觸達設備達到 14 億。存量數據高達55PB，什麼概念呢？如果拿一張 A4 紙，正反兩面寫滿數字，把 A4 紙疊起來可以裝 15 萬輛卡車。

【友盟+】數據倉庫有19000 張數據表。對於數據的挖掘、分析和運算，每天的運算量需要2 萬個計算單元，相當於200個地球上的100億人24小時的不間斷的運算。如此龐大的數據量，一方面我們獲得了天然的數據體量優勢，另一方面，也給數據治理與整合、數據產品和數據團隊帶來了前所未有的挑戰。均億數據，如何實現高效計算？

Q：數據治理與整合，是如何實現的？

在數據整合方面，【友盟+】運用全域數據打通能力，將移動、PC、線下等跨終端、多場景數據打通，讓數據實現了全域融合。

數據處理方面：我們每天有幾十億個 ID 的數據回溯到數據訓練平臺上，這背後是巨大的計算量和計算資源的佔用，對於數據工程師來說最重要的是需要協助數據科學家搭建有效的數據生產環境，保證計算的穩定性。

因此，數據全量更新或按需更新的選擇直接決定了存儲和計算資源的消耗量，也就是成本。我們提出了“代碼健康度”的概念，讓數據團隊一定要用最高效的方法來實現計算。尤其在數據體量巨大的場景下，比如說 100 億個 ID，如果每個計算能提高 1%，能節省的資源是很大的。

在數據價值的挖掘工程中，我們也形成了一套高效的底層架構，例如數據清洗，打通後形成統一的寬表，建立 Universal User(device) Profile。絕大多數的數據挖掘和建模都基於這個 Profile。實現了和產品層面的隔離之後，產品的更新就不會影響後面的建模。我們還提供了完善的回溯功能，可以讓用戶的 Profile 回到歷史上的任意一天（當然，有一個最早的可回溯點），這對嚴格意義上的建模是非常有意義的，有些場景是必備的功能，如在我們的金融風控場景中，是否可以回溯決定了模型效果的可信度。

Q：在高數據體量下，如何定義和實現高效計算？數據質量如何把關？

對於大數據的高效計算包括存儲的高效，查找的高效和代碼的高效。剛剛提到我們的表有19000 張，55PB，顯然任何存儲的優化都會帶來巨大的經濟效益。例如，我們所做的標籤 ID 化，就可以在很多表上節約 70% 的空間。

高效的查找，是指對每一個生產表打標籤，建立數據地圖，這樣我們就可以快速定位到我們想要的表。

代碼的高效，主要是通過建立開發規範。這麼大的數據量爲避免數據重複開發和浪費，我們會對代碼和命名進行有效規範。還可以通過方法論，比如說如何數據分層、統一語言，索引條件優先等級劃分，都需要記錄在開發規範中。每一段代碼都會有健康度的評分，如果健康度低，運行程序的優先級就會降低。

Q：【友盟 +】數據體系架構設計經歷了哪幾個階段的演進？

1）數據採集、傳送和處理的整合，對我們的平臺、工具、協議和底層的數據進行統一。這是我們數據打通，從而進行進一步數據價值挖掘的基礎；

2）實時和離線計算的技術升級，在數據量激增的情況下保證服務的穩定性；

3）在數據的內容上進行整合，我們將不同端打通，內容連接，建立全域畫像；

4）是在業務驅動下對數據質量進行評估，發現和解決在數據採集和處理流程中可能存在的問題，好的數據質量是好的服務的前提。

業務數據化，數據業務化

Q：請介紹一下【友盟+】當前的業務體系？

【友盟+】的業務體系我們用 “三縱兩橫” 來闡述。

三縱中的第一部分是互聯網運營數據服務：Dplus，通過一站式 App/Web 數據採集，幫助開發者實現數字化運營和精細化分析；第二部分是新零售數據服務：Oplus，基於智能感知設備讓線下零售商實現線下數據可追蹤，同時將線上數據賦能線下，以消費者需求爲導向，提效降本、提升用戶體驗；第三部分是全媒體、全鏈路營銷服務系統 ADplus，幫助廣告主及代理商從觸達、認知及搜索到品牌在全網的影響、關注度進行宏觀監測。

兩橫則是：金融和手機兩個行業大數據解決方案。金融行業是去年才正式開始做的，在一年的時間裏取得了不錯的成績，我們從基於移動互聯網數據的風控產品開始，逐漸擴展到獲客營銷、二次營銷、貸中管理，今年還計劃開發貸後管理的產品。同時在今年，我們還推出了手機行業的大數據解決方案，以 7 億真實活躍用戶的全域數據爲能源，通過 15 萬顆運算核心與數據引擎助力手機廠商實現從市場感知、業務與產品規劃，到產品上市、上市後運營等業務流各環節的數字化轉型。

對於【友盟+】而言，最大的優勢是全域數據，以及數據智能的認知與能力。在全域數據方面，友盟 + 將 7 億真實活躍消費者的 App、PC、線下等跨終端、全場景的實時數據，通過全域數據打通技術進行聯結與融合，幫助企業 360 度洞察“人”，爲企業與消費者通過數據更好地理解與連接。

在數據智能方面，【友盟+】提出全域數據*技術算法*商業場景的理念，即通過全域數據作爲企業的新能源，以數據技術與算法模型作爲企業的引擎，將企業與用戶接觸的場景作爲賽道，幫助企業從數字化全面走向智能化，最終用數據智能幫助企業實現增長、增值和升級。

Q：在打通全域方面，【友盟+】遇到過哪些技術難題，是如何解決的？

我們的優勢是“全域”。“全域”的最大挑戰之一就是數據的打通。我們開發了自有的數據打通算法，同時借鑑阿里的數據經驗，基於全域數據能力，由於有了大量的高質量數據，模型可以達到約 80% 的 precision 和 80% 的 recall。

Q：您曾經說過“未來傳統企業是重要服務客戶羣”，能否談談傳統企業要應用好數據涉及哪些關鍵因素？

關於傳統企業應用好數據大家有許多共識，比如說打破數據孤島，管理層的支持，提倡數據驅動文化等，我在這就不一一贅述了。我想強調一點，就是打造“數據閉環”。也就是說在業務場景的每一個環節都可以收集到數據，從而可以真正實現數據驅動。舉一個簡單的例子，電商之所以做得這麼好，是因爲做電商的每一個環節都有數據支持，從而可以進行優化。再試想線下的場景，哪個貨架停留的客流多，哪個商品被拿起的次數多，這些數據對於商家來說，是一無所知的。沒有數據，就無法談優化。所以，對於傳統企業來講，一定要深入思考，怎樣纔可以形成“數據閉環”。“業務數據化，數據業務化”，就是說的這個道理。這個不容易，但一旦你做到了，你就會在競爭中處於優勢。

Q：從【友盟 +】的角度講，一款數據產品要取得成功，關鍵因素是什麼？

一個數據產品成功的關鍵因素其實很簡單，是不是可以解決問題。這裏有幾個層面：

第一，有沒有提高效率，或降低成本，或增加利潤。現在有許多數據產品是爲了使用數據而不是去真正地解決問題；

第二，你所使用的數據是不是能夠解決本質的問題。許多第三方數據公司把自己的數據包裝得無所不能，這是非常不切合實際的，第三方的數據往往起到的是輔助作用，在使用這類數據產品的時候，一定要問清數據的來源、數據的特徵屬性，一定要能夠找到數據本身和要解決問題的相關性。就像你無法用棉花造出飛機一樣，每一種數據都有適用和不適用的場景。

所謂“知之爲知之，不知爲不知，是爲知也”，對應到數據的應用“用之爲用之，不用爲不用，是爲用也”。

數據科學家要能從自己的金字塔中走出去

Q：【友盟 +】數據團隊規模和團隊成員構成？不同角色的崗位所分擔的工作或職責有哪些不同？

【友盟 +】數據團隊有 40 多人，包括數據科學家、數據分析師和數據研發。數據科學家主要的任務是建模和對數據價值的挖掘。數據分析師承擔很多 BI 的工作，同時也對數據質量進行監督，根據業務的需求，對數據進行深層的分析。數據研發負責數據的整合、加工和提取，生成底層表格、支持業務邏輯和分析建模的需求。

Q：在您看來，對於數據科學家和數據工程師來說，有哪些職業技能是不可或缺的？

首先是基本的數據提取、處理和分析的技能。從工具的角度來說，例如 SQL、Python 等；從基本的數學和統計方面包括，均值、方差、中值、correlation 等；從建模的角度來說如LR、GBDT、CNN等，還有對不同的模型怎樣評估，包括 precision and recall、false positive、ROC、KS 等指標。

在具備了這些基本的必備知識之後，我認爲作爲一個在工業界的數據科學家最重要的能力是去發現問題，建立數據和算法的直接聯繫，到進一步地去解決問題。大家都認同數據是巨大的財富，可以給我們解決很多的問題，但是我們仔細看一下，真正的大數據和算法能夠落地的場景還是非常有限的，特別是對於傳統企業來說。最近 IBM Waston 在美國醫院的受阻就是一個例子，雖然幫助醫院解決了一些問題，但代價是高額的成本。我在前面提到一個數據產品成功的關鍵是“提高效率，或降低成本，或增加利潤”。數據科學家也要有這種思路，要能夠從自己的金字塔中走出去，去了解和理解業務，這是我認爲在工業界的數據科學家的一個非常重要的能力。

數據 · 智能

Q：AI 火了之後，有人調侃原來做大數據的現在都說做 AI 了。您認爲近幾年 AI 的發展反過來給大數據領域帶來了什麼樣的影響？

這個影響是巨大的，在 AI 浪潮興起之前，大部分人理解的大數據應用（實際上也確實是這樣的）都是 BI（business intelligence）。BI，簡單講就是向過去看，統計過去所做的事情和造成的影響，統計報表出來之後，我們再根據歷史進行對未來的決策。注意，這裏的關鍵點是“我們”，這裏人是決策者。而 AI 是向未來看，機器取代了人做決策，機器人客服、人臉識別、到自動駕駛等等，都是這個場景。

AI 的三大要素是“數據”、“算法”和“算力”，而在這三大要素中，很多人（包括我）都認爲“數據”是最重要的因素。這是因爲現在的 AI 模型的結構都包含大量的參數，而要讓算法學出這些參數，就需要大量的數據。現在 AI 的普及，使得大家進一步認識到數據的重要性，這是最顯著的變化。對於技術來說，怎樣採集（如 IoT），存儲和處理（如 Hadoop、Spark、Flink），建模（如深度學習），甚至於 AI 芯片等大數據相關的技術都有了很大的發展。在應用方面，許多行業也開始進入（醫療，教育）或者更深度地介入（金融）大數據和 AI。

Q：【友盟 +】在公司內部以及對外提供給客戶的產品中，分別是如何應用人工智能技術的？

我們的數據是關於互聯網和移動互聯網的運營數據，所以主要工作是圍繞怎麼去建立設備行爲的模型，如果有業務場景需要設備行爲的信息，我們的模型就有可能得到應用。【友盟+】的反作弊應用就是非常好的例子，由於有了設備行爲偏好，我們就可以去衡量一個設備的質量，通過歸因算法、智能反作弊等技術，幫助客戶獲取真實流量。

Q：您認爲中美在大數據技術和應用兩個層面存在哪些不同之處？

在技術層面個人感覺美國還是有一些優勢的，他們有很多的公司會去做非常長期的底層的工作，學校和公司裏的研究院的資源比較豐富，也有不少可以安心做研究的人。

在應用層面，中國有非常大的優勢，我們有非常大的用戶羣體，大量的用戶帶來了大量的應用場景。

Q：您認爲大數據領域當前最有待突破的地方在哪裏？下一階段大數據的主要發展方向是什麼？

我認爲大數據領域最有待突破的是：模型的可解釋性。現在的人工智能都是所謂的“弱”人工智能，是利用大量的數據，訓練一個參數衆多的黑箱模型。這個模型是在建立輸入和輸出的“相關性”，而不是“因果性”。比如，你打着雨傘和你的鞋溼了，這兩個事件是“相關”的，也就是說經常會在一起發生。但是打傘並不是鞋溼的原因，下雨纔是鞋溼的原因，所以下雨和鞋溼纔是“因果”關係。爲什麼因果關係這麼重要呢？是因爲這是我們理解世界，從而進一步改變世界的方式。

我們知道了植物是怎樣生長的，纔有了萬畝良田；知道了電和磁的相互轉化，纔有了萬家燈火。同樣，真正的智能，是能夠幫助我們找到因果關係的模型，在很多的應用場景，可解釋性也是非常重要的，例如，金融場景中，我們要知道爲什麼可以給這個人貸款；在醫療場景中，我們要知道爲什麼會做這樣的診斷等等。

當然，模型的可解釋性可能需要相當長的時間。當下，我認爲大數據主要的發展方向是在更多的領域找到真正落地的場景。現在在互聯網，金融應用得不錯，在醫療、教育也有好的開端。我們希望可以在更多的領域可以找到大數據的解決方案，標準是“提高效率，或降低成本，或增加利潤”。

想了解DI·進化嗎?那麼別猶豫10月16日歡迎到友盟+主辦的UBDC全域大數據峯會共同探討最新數據智能的前沿思想！