編輯:小舟

「作爲數據科學家,我還有機會嗎?」不,你更應該成爲數據工程師。

數據無處不在,而且只會越來越多。在過去的 5-10 年內,數據科學已經吸引了越來越多的新人投身於此。

但如今數據科學的招聘狀況如何?亞馬遜 Alxea 團隊的機器學習科學家 Mihail Eric 收集了多家公司的招聘信息後,在個人博客中撰寫了一篇分析文章,闡述自己的思考。

數據勝於雄辯,他對自 2012 年以來 Y-Combinator 孵化的每家公司發佈的數據領域職位進行了分析,研究問題包括:

在數據領域,公司最常招聘的職位是什麼?

人們常討論的數據科學家的需求究竟有多大?

公司看重的這些技能是引發當今數據革命的技能嗎?

以下是博客文章的主要內容:

方法

我選擇對 YC 風投公司進行分析,這些公司聲稱將某種數據作爲其價值主張的一部分。

主要關注 YC 是因爲其提供了易於搜索(可抓取)的公司目錄。此外,作爲一個特別有遠見的孵化器,它已經爲全球衆多領域的公司提供投資長達十年之久,我覺得他們爲本次分析研究提供了一個具有代表性的市場樣本。但請注意,我沒有分析超大型科技公司。

我抓取了自 2012 年以來每家 YC 公司的首頁網址,建立起一個包含 1400 家公司的初始池。

爲什麼是從 2012 年開始呢?2012 年,AlexNet 在 ImageNet 競賽中獲獎,掀起了如今機器學習和數據建模的熱潮,最早的一批數據優先(data-first)公司由此誕生。

我對初始池執行了關鍵詞過濾,以減少需要瀏覽的公司量。具體而言,我只考慮了其網站至少包含以下術語之一的公司:AI、CV、NLP、自然語言處理、計算機視覺、人工智能、機器、ML、數據。同時不考慮那些網站鏈接故障的公司。

這樣的操作應該會產生大量錯誤的結果,我意識到將對各個網站進行更細粒度的手動檢查以瞭解相關角色,因此我儘可能地優先考慮高召回率。

在這個篩選過的資源池中,我遍歷了每個網站,找到了他們發佈招聘信息的位置,並記下了標題中包含數據、機器學習、NLP 或 CV 的所有職位。這讓我建立了一個來自大約 70 個不同公司的招聘職位的資源池。

也有點小失誤:其中我錯過了一些公司,有些網站雖然招聘信息很少,但是其實正在招聘。此外,有些公司沒有正式的招聘頁面,但而是要求應聘者直接通過電子郵件與他們聯繫。我忽略了這兩種類型的公司,它們不在本次分析研究中。

另一件事是,這項研究的大部分都是在 2020 年的最後幾個星期內完成的。隨着公司定期更新招聘頁面,開放的職位可能已經改變,但我認爲這對得出的結論影響不大。

數據從業者應該負責什麼?

在深入研究結果之前,值得花一些時間來搞清楚每種數據領域職位通常負責什麼。我將花時間介紹以下四個職位:

數據科學家負責在統計和機器學習中使用各種技術來處理和分析數據,通常負責構建模型以探究從某些數據源中能夠學到的內容,但模型通常是原型級別而非生產級別;

數據工程師負責開發一套強大且可擴展的數據處理工具 / 平臺,必須熟悉 SQL / NoSQL 數據庫的整理和構建 / 維護 ETL 流水線;

機器學習(ML)工程師通常既負責訓練模型,又負責生產模型,他們需要熟悉一些高級 ML 框架,還必須能夠輕鬆構建模型的可擴展訓練,推理和部署流水線;

機器學習(ML)科學家致力於前沿研究,他們通常負責探索可以在學術會議上發表的新想法。在移交給 ML 工程師進行生產之前,機器學習科學家通常只需要對新的 SOTA 模型進行原型製作。

值得一提的是,與傳統數據科學家相比,開放數據工程師的職位增加了不少,在這種情況下,在公司僱用的原始量上,數據工程師比數據科學家多了大約 55%,而機器學習工程師的數量與數據科學家的數量大致相同。但如果查看各個職位的名稱,就會發現似乎有些重複。

我只通過合併職位來提供粗略的分類即在不同職位角色負責的內容大致相同的情況下將其合併爲一個名稱。其中包括以下等價關係集:

NLP 工程師≈CV 工程師≈ML 工程師≈深度學習工程師(儘管領域可能不同,但職責大致相同)

ML 科學家≈深度學習≈ML 實習生

數據工程師≈數據架構師≈數據主管≈數據平臺工程師

按百分比描述的話是:

總體而言,合併會使差異更加明顯。開放數據工程師比數據科學家多大約 70%。此外,開放 ML 工程師比數據科學家多大約 40%。機器學習科學家的數量也只有數據科學家的大約 30%。

結論

與其他數據驅動型職位相比,數據工程師的需求越來越高。從某種意義上說,這代表了該方向正朝着更廣闊的領域發展。

5 到 8 年前,機器學習變得炙手可熱,各個公司需要的是能夠對數據進行分類的人才。但是之後 Tensorflow 和 PyTorch 等框架發展得很好,使得着手開始進行深度學習和機器學習的能力大衆化,隨之而來的是數據建模技能商品化。如今,發展瓶頸在於幫助公司獲得有關生產級別數據問題的機器學習和建模的意見。比如要考慮以下問題:

如何註釋數據?

如何處理和清理數據?

如何將其從 A 移到 B?

如何儘快完成這些任務?

所有的這些都意味着,職位要求具有良好的工程技能,偏向於數據的傳統軟件工程可能是我們目前真正需要的。但是否意味着您不應該學習數據科學?並不是。而是意味着競爭將更加艱難。對於正準備訓練成爲數據科學人才的初學者來說,可用的職位將會越來越少。當然,有效地分析數據並從數據中提取可行見解的人一直需要,但這些見解必須是優秀的。

很明顯,公司經常需要混合型數據從業者,即可以構建和部署模型的人。或者更簡潔地說,可以使用 Tensorflow,但也可以從源代碼構建它的人。

本研究的另一個發現是 ML 研究職位非常少。機器學習研究傾向於獲得相當大的資源支持,因爲這是頂尖級的研究,例如 AlphaGo 和 GPT-3。但是對於許多公司,尤其是早期公司而言,頂尖的 SOTA 技術可能不再是必需的。達到最佳模型性能的 90%,同時擴展到 1000 個以上的用戶,通常對他們來說更有價值。

但你可能會在工業界的研究實驗室裏找到很多這樣的角色,他們可以在很長一段時間裏承受資本密集型賭注,而不是在種子輪就開始做產業 demo 準備接 A 輪融資。

如果沒有其他問題,我認爲最重要的是讓新來者對數據字段的期望合理並經過校準。我們必須承認,數據科學現在已經今非昔比,只有當我們知道自己身處何處時,我們才知道要去到哪裏。

相關文章