數據產品經理從零到一：數據產品能力模型構建

本文爲PMCAFF專欄作者田宇洲出品

筆者正在由電商產品經理轉型數據產品經理，爲了提升自己學習的效率，嘗試以這種輸出驅動輸入的模式，將自己學習的思路和學習內容分享給大家，也希望可以與其他數據產品經理多多交流。

本文嘗試憑藉筆者的理解構建一套數據產品經理能力模型，作爲自己未來學習的方向。本文共分四個部分，第一部分，從招聘市場需求入手，看市場上的招聘高級數據產品經理都需要掌握哪些硬實力；第二部分，結合一些數據產品經理的分享，梳理數據產品經理的朋友圈，因爲溝通者一定程度決定了需要掌握多少“共通語言”；第三部分，構建數據產品經理能力模型，第四部分，詳解一些數據產品常常接觸的概念和系統。

從招聘要求看能力要求

筆者在拉勾網和獵聘網上搜索數據產品經理和高級數據產品經理，將崗位職責彙總整理，招聘方對於數據產品經理的需求如下所示：

熟練使用MySQL，SQL、Hive等語言；
熟悉數據生產加工流程；
對主流大數據產品、BI產品；
對數據倉庫技術及理論有基本的瞭解，並對其發展趨勢有深入瞭解；
瞭解數據分析，數據建模和數據挖掘技術及理論；
能很好地掌握產品思路、技術方案、商務策略等，驅動各角色解決問題，具有良好的商業洞察與判斷，很強的邏輯思維能力、產品策劃、品牌包裝與宣傳能力，對數據和業務敏感，有一定技術背景優先考慮。

從上面的企業招聘需求可以看出，數據產品經理除了需要具備一些普通產品經理基礎能力外，對數據分析，商業智能，數據挖掘等技能有着非常高的專業門檻。雖然數據產品經理也細分出應用方向，大數挖掘方向，數據分析方向，但爲了更加有效的共同，還是有必要補全知識結構。數據產品經理多是數據分析師和數據開發通過內部轉崗完成的，筆者屬於電商產品轉應用方向數據產品，在發揮業務理解優勢的同時，需要快速補全數據分析相關知識，便於與對接同事高效協作。

數據產品經理的朋友圈

曾經分析過AI產品經理模型，也是從產品經理的朋友圈說起，因爲產品經理很多時候承擔着協調推進角色，也承擔了部分”翻譯官“的覺，將業務需求轉化成不同的語言表達，找老闆要資源，請開發寫代碼，敘述清楚頁面設計要求，這個時候就需要產品掌握不同分科中的一些”黑話“，讓對方感覺你是自己人，數據產品經理也是同樣的，我們來看看數據產品經理的朋友圈，也有助於進一步理解數據產品能力模型。

源於《阿里巴巴數據產品經理工作(總結篇)》

數據產品經理本質是互聯網產品經理的一個細分領域，其產品的用戶是公司內部，外部客戶等，其目標是通過數據分析和挖掘，輔助其發現問題，提高決策準確性，而爲了完成這類產品，我們不單要與傳統的開發，交互，設計，用研，客戶，測試同學打交道，還需要與數據分析師，數據科學家，AI工程師，數據倉庫管理員等同學溝通，爲了可以保證溝通中的效率，我們需要清楚溝通時可能會涉及到哪些專業名詞，技術實現邊界，行業發展情況，競品實現邏輯，筆者將嘗試在後續文章中梳理總結。

能力模型構建

數據產品經理是產品經理崗位的一個細分領域，其能力模型可以理解爲一般產品經理能力模型+專業能力補充模型。下圖是騰訊產品經理能力模型體系，清晰界定了不同等級產品經理19個能力側重方向，整體來看學習能力，執行力，溝通能力，市場/用戶調研與分析是最核心能力。

以上19個基礎能力模型中，數據產品經理在技術知識模塊和市場分析能力/前瞻性需要了解/熟悉/掌握如下知識和技能：

a. 計算機語言層面：熟練使用MySQL，SQL、Hive等語言；

b. 熟悉數據生產加工流程：數據採集，數據預處理，數據存儲，數據分析，數據挖掘，數據可視化，數據服務產品化；

c. 需要了解的各類技術理論及發展趨勢

瞭解主流大數據產品及分佈式大數據技術，如Hadoop(HDFS和MapReduce)，Hive等；
瞭解主流大數據編程語言，如python、R、mongodb等、
瞭解主流BI產品，如Tableau、saiku、kylin、BDP、growingIO、神策等、
瞭解數據倉庫技術及理論，並對其發展趨勢有深入瞭解；
瞭解數據分析，數據建模和數據挖掘技術及理論；

數據產品經理經常面對的基礎概念

a. 可能接觸到的英文縮寫

數據倉庫 Data Warehouse

數據集市 Data Mart

數據挖掘 Data Mining

DBMS：Database Management System數據庫管理系統

DBA: Database Administrator數據庫管理員

RDBMS：Relational Database Management System關係數據庫管理系統

OLAP:（On-Line Analytical Processing）聯機分析處理。OLAP是數據倉庫系統的主要應用，支持複雜的分析操作，側重決策支持，並且提供直觀易懂的查詢結果。

OLTP:（On-Line Transaction Processing）聯機事務處理。OLTP是傳統的關係型數據庫的主要應用，主要是基本的、日常的事務處理，例如銀行交易。

BI: Business Intelligence 商業智能

KDD：knowledge discovery in databases 數據庫知識發現

b. 數據分析，數據建模和數據挖掘的定義和區別

數據分析:Analysis of data is a process of inspecting, cleansing, transforming, and modeling data with the goal of discovering useful information, suggesting conclusions, and supporting decision-making.[源於wikipedia]可以看出，數據分析強調使用統計學方法，發現有用信息，支持決策，構造建設性結論。

數據挖掘：Data mining is the computational process of discovering patterns in large data sets involving methods at the intersection of artificial intelligence, machine learning, statistics, and database systems. It is an interdisciplinary subfield of computer science. The overall goal of the data mining process is to extract information from a data set and transform it into an understandable structure for further use.[源於wikipedia]數據挖掘與大數據關聯性更加密切，利用人工智能，機器學習，統計學等知識，對於大型數據集進行分析，發現規律，預測未來，輔助決策。

數據建模:Data modeling is a process used to define and analyze data requirements needed to support the business processes within the scope of corresponding information systems in organizations. Therefore, the process of data modeling involves professional data modelers working closely with business stakeholders, as well as potential users of the information system.[源於wikipedia]數據建模是對現實世界各類數據的抽象組織，確定數據庫需管轄的範圍、數據的組織形式等直至轉化成現實的數據庫。建模過程中的主要活動包括：確定數據及其相關過程；定義數據；確保數據的完整性；定義操作過程；選擇數據存儲技術。數據建模大致分爲三個階段，概念建模階段，邏輯建模階段和物理建模階段。其中概念建模和邏輯建模階段與數據庫廠商毫無關係，換言之，與MySQL，SQL Server，Oracle沒有關係。

數據分析和數據挖掘的關係：從數據量級來看，一般情況下，數據分析的數據量可能並不大，而數據挖掘的數據量極大。從建模條件來看，數據分析是從一個假設出發，需要自行建立方程或模型來與假設吻合，而數據挖掘不需要假設，可以自動建立方程。從分析對象來看，數據分析往往是針對數字化的數據，而數據挖掘能夠採用不同類型的數據。從結果來看，數據分析對結果進行解釋，呈現出有效信息，數據挖掘的結果不容易解釋，對信息進行價值評估，着眼於預測未來，並提出決策性建議。數據挖掘與數據分析兩者緊密相連，具有循環遞歸的關係。推薦閱讀《數據分析、數據挖掘、數據統計、OLAP 之間的差異是什麼？》

c. 數據庫，數據倉庫和數據集市的定義和區別

數據庫：數據庫是指長期存儲在計算機內有組織的、可共享的數據集合。數據庫中的數據按一定的數據模型組織、描述和存儲，具有較小的冗餘度、較高的數據獨立性和易擴展性，並可爲各種用戶共享。數據庫理論的研究主要集中於關係的規範化理論、關係數據理論等。近年來，隨着人工智能與數據庫理論的結合及並行計算機的發展，數據庫邏輯演繹和知識推理、並行算法等理論研究，以及演繹數據庫系統、知識庫系統和數據倉庫的研製都已成爲新的研究方向。

數據倉庫：數據倉庫(Data Warehouse) 是一個面向主題的(SubjectOri2ented) 、集成的( Integrate ) 、相對穩定的(Non -Volatile ) 、反映歷史變化( TimeVariant) 的數據集合用於支持管理決策。首先,數據倉庫用於支持決策,面向分析型數據處理,其次,數據倉庫是對多個異構的數據源有效集成,集成後按照主題進行了重組,幷包含歷史數據,而且存放在數據倉庫中的數據一般不再修改。

數據集市：爲最大限度地實現靈活性，集成的數據倉庫的數據應該存儲在標準RDBMS(關係數據庫管理系統Relational Database Management System) 中，並經過規範的數據庫設計，以及爲了提高性能而增加一些小結性信息和不規範設計。這種類型的數據倉庫設計被稱爲原子數據倉庫。原子數據倉庫的子集,又稱爲數據集市。

數據庫和數據倉庫的區別：數據庫是面向事務的設計，數據倉庫是面向主題設計的。數據庫一般存儲在線交易數據，數據倉庫存儲的一般是歷史數據。從時間屬性來看，數據庫保存信息的時候，並不強調一定有時間信息。數據倉庫則不同，出於決策的需要，數據倉庫中的數據都要標明時間屬性。

數據集市和數據倉庫的區別：建議閱讀文章《數據倉庫和數據集市的區別》

d. 商務智能與大數據的概念及發展概況

BI（Business Intelligence）即商務智能，它是一套完整的解決方案，用來將企業中現有的數據進行有效的整合，快速準確地提供報表並提出決策依據，幫助企業做出明智的業務經營決策。

商業智能的概念最早在1996年提出。當時將商業智能定義爲一類由數據倉庫（或數據集市）、查詢報表、數據分析、數據挖掘、數據備份和恢復等部分組成的、以幫助企業決策爲目的技術及其應用。而這些數據可能來自企業的CRM、SCM等業務系統。

主流商業智能產品：Tableau、saiku、kylin、BDP、growingIO、神策、阿里數加等。筆者正在閱讀阿里巴巴的《大數據之路》，後續將結合阿里數加產品整理閱讀心得。

大數據（big data），指無法在一定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合，是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。大數據的5V特點（IBM提出）：Volume（大量）、Velocity（高速）、Variety（多樣）、Value（低價值密度）、Veracity（真實性）。大數據包括結構化、半結構化和非結構化數據，非結構化數據越來越成爲數據的主要部分。

大數據的發展趨勢：數據資源化，大數據與雲計算深度結合，科學理論的突破，數據科學和數據聯盟的成立，數據泄露氾濫，數據管理成爲核心競爭力，數據質量是BI成功的關鍵，數據生態系統複合化程度加強。

e. 數據處理流程

需求分析，數據採集，數據預處理，數據服務產品化（模板化）。

數據產品需求分析：向業務部門進行調研，瞭解業務需要解決的問題，將業務問題映射成數據分析工作和任務，同時結合平臺已有能力，確定數據分析或挖掘方案。

數據採集：第一步需要定義數據源選擇，DBA可以基於數據分析需要，找到相關數據，建立一張數據寬表，將數據倉庫的數據引入到這張寬表當中，基於一定的邏輯關係進行彙總計算。這張寬表作爲數據分析的基礎，然後再依據數據分析需要衍生出一些不同的表單，爲數據分析提供乾淨全面的數據源；

數據預處理：需要完成數據類型選擇，缺失值處理和異常值檢測和處理，實現數據標準化；

數據服務產品化：將結合阿里巴巴產品做細緻分析。