進幾年A(人工智能)B(大數據)C(雲計算)發展火熱,由於筆者在一二線互聯網行業從事過大數據相關工作,因此決定在大數據領域對自己的所見所聞,來對該行業之外的人士所做一個講述,以及對想進入該行業的從業人員做個簡單的講述和分享。

一個大數據從業者的職業選擇分享

大數據首先重要的就是數據,數據從哪裏來,到哪裏去,這個是我們需要探討的。首先確定你數據量TB級別、PB級別 or EB級別。上圖講述了數據的來源從用戶的數據、購買數據,以及最終的去處:存儲、分析。因此可以看出大數據的核心其實是數據。

以筆者所在的電商平臺爲例(其他行業同樣如此),用戶在商城上購買商品,是基於在線交易系統的,稱作爲OLTP(聯機事務)。而由於商城上每天都會產生這些信息,我們就需要把這些交易數據抽取到大數據這邊,即:數據倉庫。數據倉庫是用來存儲所有的數據,包括用戶的所有信息,購買記錄、用戶基本信息等等。然後對數據倉庫中的數據做處理,構建數據集市,再對數據進行分析。根據商城上推出的活動,進行分析該活動是否有利於用戶增長等等,最終用來反饋商城相應的調整活動信息。稱之爲OATP(聯機分析)。

下面來講述一下,每個崗位所需要的技能,以及大家可以根據自己的需求進行調整。

大數據平臺運維:大數據平臺的搭建和維護。對應技能:運維的一些技能,以及hadoop,hive等等。

數據開發:主要涉及到數據的抽取、轉換、清洗,即:ETL。對應的技能:sql,hive,hadoop,shell,python(其他編程語言也行)、數據倉庫的理論;其中數據倉庫的理論尤爲重要,需要大量的實踐和學習才能建設良好的數據倉庫模型,否則數據一團亂麻,很難找到自己想要的數據,也會出現這樣的情況:天天疲於奔命,根據不同的需求,進行跑數據的操作。當然你如果想再接觸的更深入一些,可以瞭解一下離線數據和實時數據開發(離線數據倉庫、準實時數據倉庫)。

數據平臺開發:主要設計大數據平臺的開發,爲了數據開發的方便便捷自動化而存在的。對應的技能:java,scala,sql,大數據的一些開發平臺(MR,Spark,Hbase等等)。

數據分析:主要是對大數據進行跑數據,做報表,比較適合女生。對應技能:sql,excel,tableau,python,R等。數據分析崗位,我認識的很多女生從事該崗位,因爲該崗位對於要求或許稍微低一些或者說入門簡單一些。但是要想做好也不容易,如果做到自動化數據報表也是大家可以考慮的。

算法:主要是對算法模型進行應用,開發。對應的技能:算法基礎,sql,python、數學理論。當然現在很多的開發工具包以及平臺都提供很多算法,包括python,spark,因此需要我們掌握算法原理的情況和場景的情況下進行調用。

以上主要講述了大數據的常見崗位和對每個崗位所需要技能進行了分析。如果大家有志於在此行業進行發展,歡迎交流。

相關文章