爲什麼大數據無法徹底取代小數據呢?

曾記得2010年左右,當大數據(BigData)的概念橫空出世時,身處傳統市場研究公司的朋友們大都有些惶恐不安:大數據時代正撲面而來,做小數據研究的是不是要被淘汰了?

時至今日,大數據行業叱吒風雲已十餘載,回頭再看處於“數據鄙視鏈”底層的傳統市場研究公司並未完全消亡,新興的大數據公司並未能徹底“消滅”傳統的小數據公司。

相反的,我們還看到有些傳統的市場研究公司在積極擁抱大數據後,搖身一變爲“數據智能”服務商,找到了公司業務增長的新曲線,業務規模不減反增。人們不禁要問,爲什麼大數據無法徹底取代小數據呢?今天就來談一談小數據和大數據的關係。

一、大數據與小數據的基本概念

大數據的概念向來都是衆說紛紜、莫衷一是,近些年大家都開始比較務實了,不再糾結於大數據的概念,而是更加註重大數據的應用場景和價值了。爲了行文的需要,在這裏還是簡單提一下基本概念。

關於大數據的定義,有兩個相對權威的說法。其一,麥肯錫全球研究所給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力範圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特徵;其二,在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中指出,大數據是指不用隨機分析法(抽樣調查)這樣捷徑,而採用所有數據進行分析處理。此外,IBM提出的大數據的5V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性),也普遍被業內人士所認同。

什麼是小數據(Small Data)呢?在百度百科上採用的是互聯網研究員呂蘭濤給出以下定義:“小數據”是指需要新的應用方式才能體現出具有高價值的個體的、高效率的、個性化的信息資產。比如:通過智能家電、手機、平板電腦、穿戴式產品等能收集到個人的一舉一動,這些個人的信息資產就是富有個人色彩的小數據。

以上關於大數據和小數據的定義都有一定的道理。爲了方便比較和表述,本人將大數據定義爲:由結構化數據與非結構化數據組成的數據集合體,將小數據定義爲:面向特定用戶羣體的結構化數據。

二、大數據與小數據的差別比較

大數據與小數據到底有什麼樣的差別呢?下面從屬性層面和應用層面進行比較和辨析。

1、 屬性層面

數據獲取方式:大數據一般通過爬蟲、埋點、API等方式獲取數據,數據獲取幾乎全部交給機器來處理,自動化程度較高。小數據通常會依賴於人工的方式進行數據採集,比如:通過問卷調查、電話調查、街頭攔截調查等傳統的實證調查方式獲取數據,人工參與度高。

表現形態:大數據更多的是非結構化和半結構化數據,小數據則以結構化數據爲主;

數據量級:大數據至少是TB及其以上級別的數據量,而小數據通常爲MB級別的數據;

實時性:大數據中實時性數據所佔比例較高,而小數據一般有一定的滯後性;

數據質量:大數據大多處於雜亂無章的狀態,數據缺失、亂碼、異常值等情況比較普遍,而小數據一般都經過了較嚴格的標準化和統一化處理,數據質量相對較高;

數據處理技術:大數據經常會採用較複雜的數據處理技術,比如:爬蟲技術、埋點技術、分詞技術、可視化技術、機器學習算法等,數據處理技術的難度大、技術要求高,一般需要搭建大數據平臺來進行處理。小數據因其數據處理量較小,以結構化數據爲主,數據處理起來比較簡單,所以用到一些常用的數據分析工具就能輕鬆應對。

2、 應用層面

範圍與對象:大數據注重對全量用戶的分析,分析的內容往往側重於羣體性的行爲,即“面”上的數據分析,比如雙11網絡購物的大數據分析。小數據的對象通常爲抽樣用戶,往往更加註重對單體用戶的行爲分析,即“點”上的數據分析,個性化是小數據的特色之一;

知識發現過程:大數據重在預測,小數據重在決策。大數據的分析方式是自下而上的知識發現過程,從紛繁複雜的數據中發現規律,從不確定性中找到確定性。小數據的分析通常採用統計學的方法,先找到特定用戶羣的規律,然後再具體分析單體用戶的情況,分析方式是自上而下的;

數據分析深度:大數據擅長從整體上進行全局性的實時性感知與分析,比如:交通流量監測、輿情監測等應用。小數據因對象較明確,分析的更聚焦和有針對性,所以分析的內容更深刻、更精準。

分析導向性:大數據注重相關性分析,關注結果是什麼而不糾結於爲什麼,通過相關性來給出問題的解決方案,所以,大數據分析的結果往往可解釋性弱。小數據通常是結果導向的,注重因果關係分析,關注現象背後的內在機理和業務邏輯,因此,小數據的分析結果有較強的可解釋性。

三、大數據與小數據共生於全數據

過去的十餘年可謂是大數據與小數據的相愛相殺的一段時期,表面上大數據行業突飛猛進,小數據公司們日漸式微,實際上大數據行業的發展並非一帆風順,而小數據行業也從不甘心被淘汰。

大數據固然有其優勢,小數據也有其難以取代的特色。通過多年的實踐我們不難發現:大數據並非萬能的,小數據仍有其獨特價值,利用數據的最佳方式就是“大小通喫,並駕齊驅”。未來的時代仍將是大數據與小數據共生共存的全數據時代,而能同時駕馭大數據和小數據的公司則會更有競爭力。如何才能做到同時駕馭大數據和小數據呢?筆者認爲,至少有三種路徑:從大變小,從小變大和大小結合。

1、從大變小:利用大數據維度全、變量多的特點,可以進行全量用戶的行爲聚類分析,得到一些具有典型特徵的用戶分組,針對這些分組用戶可以再採用市場調研的方法進行深入研究和分析,這樣既能從“面”上了解全量用戶的全貌,也能從“線”上洞察分組用戶羣的情況,甚至能深入到具體“點”上單體用戶的特徵。另外,通過大數據對全量用戶進行聚類和分組後,還能更有效的指導用戶調研時的抽樣策略,減少樣本配額的偏差。

從大到小,就是從大數據中找到適合小數據的場景,用大數據的方法幫助小數據鎖定要聚焦的用戶,再用小數據的研究方法深入探究大數據分析結果出現的原因。

2、從小變大:小數據在用戶心理、態度和情感等方面的深入研究具有獨特的優勢,當我們針對少數用戶通過深入訪談、羣組座談會等方式進行深入分析後,可以得到一些典型用戶羣的畫像模型和特徵標籤。

比如:當我們需要面向更多的用戶羣進行定向廣告投放時,可以將這部分用戶視爲種子用戶,並在小數據方法所獲得的種子用戶標籤的基礎上,做相似人羣的規模放大,從而找到更多的符合要求的用戶羣。針對用這種lookalike方法獲得的新用戶羣,可進一步採取大數據的分析方法研究其行爲特徵、廣告投放後的響應等。

從小到大,一方面指的是研究對象從個體或小範圍擴大至更廣泛的用戶羣,提高產品或營銷的覆蓋面,另一方面還指分析的維度能在小數據的基礎上進一步擴充和豐富。

3、大小結合:大數據和小數據各有所長,又各有其短。大數據重分析,輕情感;小數據重態度,輕行爲。

大數據的挖掘靠電腦,小數據的挖掘則要靠個人能力。大數據彌補小數據實時性、維度較單一等方面的不足,而小數據不但能夠對大數據形成有力的補充,更能夠挖掘用戶行爲的深層動機。大數據與小數據可以深度融合,相輔相成。針對同類用戶羣,大數據負責行爲數據的全面分析,小數據負責心理和態度等方面的點線式分析,這樣就有利於更全面的進行用戶洞察。從大數據中得到規律,再用小數據去匹配個人,將會是一種更爲有效的數據運用方式。

總之,大數據時代的到來,並不意味着小數據時代的結束,大數據與小數據是對立的,但終將也是統一的。大數據與小數據不是顛覆與被顛覆,替代與被替代的敵對關係。相信不遠的將來,大數據與小數據的邊界終將模糊,大中有小,小中有大,大數據與小數據將會相逢和共生於全數據時代。數據也將完成從小數據到大數據,再到全數據的進化之路,全量用戶、全域數據的智能時代終將來臨。

-END-

相關文章