杉數科技趙珂珍：大數據分析工程師的求職分享—從大廠到初創企業的決策之路 AI 研習社職播間第 5 期

　　隨着互聯網的興起，人工智能和大數據成爲了熱門領域，越來越多的企業開始通過對數據的挖掘分析來爲商業決策提供建議，在國內市場，人工智能和大數據領域人才出現巨大的缺口。而數據分析師入行需要的技術能力較易，轉行/自學性價比極高，成爲大數據領域的熱門職業。

　　近日，在雷鋒網 AI 研習社第 5 期職播間上，杉數科技算法工程師趙珂珍進行了「從大廠到初創企業的決策之路」的求職分享，並進行了招聘宣講。公開課回放視頻網址：http://www.mooc.ai/open/course/567?=zhaokezhen

　　趙珂珍：杉數科技算法工程師，本科畢業於天津大學建築工程學院，研究生畢業於斯坦福大學工學院，從傳統工程學科跨領域成爲算法工程師，曾在國內頭部大廠擔任數據分析師，現就職於杉數科技，從事與大數據相關的工作。

　　分享主題：大數據分析工程師的求職分享—從大廠到初創企業的決策之路

　　分享提綱：

　　1. 個人經歷及爲何選擇杉數科技；

　　2. 大數據分析工程師職業內容；

　　3. 大數據分析工業場景應用實例；

　　4. 大數據分析/挖掘的自學建議；

　　5. 杉數科技招聘內容及內推通道。

　　雷鋒網 AI 研習社將其分享內容整理如下：

　　大家好，歡迎來到 AI 研習社職播間，我是分享嘉賓趙珂珍，這次的分享內容更針對初入職場或者有志於跨領域轉入大數據分析相關崗位的求職者。本次分享包括：

　　第一，簡單介紹個人經歷以及最終選擇杉數科技公司的原因；

　　第二，簡單介紹大數據分析師是做什麼的，在行業內有怎樣的分類，以及工作中具體需要用到哪些技能等等；

　　第三，結合我在大廠和杉數科技的經驗，根據具體的工業場景應用實例，讓大家瞭解大數據分析師的工作內容；

　　第四，結合自己求學、求職和工作的經驗，爲大家提供一些大數據分析師所需要的學習建議和資源（其中包括我在斯坦福學習的優質課程資源）；

　　第五，詳細介紹一下杉數科技的業務和公司情況，爲大家講解算法工程師類的招聘需求，並提供簡歷投放通道。

　　個人經歷及爲何選擇杉數科技

　　首先，做一個簡單的自我介紹。我本科畢業於天津大學工學院，主要學習建築工程的水利工程，它和土木工程比較類似。在校期間，我學習了大量力學和數學相關知識，並在南開大學獲得金融雙學位，主要學習數學、經濟學和金融學相關的基本理論。研究生畢業於斯坦福工學院，專業是環境流體力學，這個專業要求很紮實的線性代數知識和編程技能。另外，因爲研究生採用自由選課制度，跟本科差別不大，學生可以選修學院的其他課程，因此我修完本專業學分後，還選修了一些熱門課程，例如吳恩達的機器學習課程 CS229，李飛飛的深度學習與圖像識別 CS231n。

　　後來在課程學習過程中，我有了跨行業就業的想法。當時考慮到目前業內大多數博士生在做 AI 設計，而研究生階段的課程和數據挖掘的銜接更爲自然，因此我開始找數據相關的實習。研一暑假，我在國內頭部大廠總部新成立的大數據分析部擔任數據分析工程師，兩個多月後拿到了 return offer。研二第一學期，我又接觸到斯坦福校友組建的創業公司——杉數科技，並且拿到 offer 回國入職。目前我正式在杉數科技工作，擔任算法工程師，主攻機器學習方向。

　　結合我個人的經歷來看，我今天的分享主要回答三個問題：爲什麼選擇跨專業進入大數據領域？爲什麼選擇回國就業？大廠和初創企業有什麼差異，爲什麼我最終選擇了創業公司？這三個問題也是大多數求職者或多或少會面臨的問題。

　　第一個是職業方向的選擇。比起我本專業的方向，大數據領域有着顯而易見的幾點優勢：人才缺口非常大，薪資的相對水平比較高，成長速度比較快。

　　從互聯網開始普及，我們每天都會產生大量的數據，並且數據存儲技術也在進一步發展，所以大數據背後的價值越來越被大家所重視。實際上，銀行、電商等領域中，數據分析已經有完整的職業生態了，但是信息技術的發展，給數據分析帶來了更多的應用場景，目前單電商領域的發展就帶來了採銷、倉儲、運送等環節的數據應用，甚至傳統工業也都對數據挖掘提出要求，而在未來幾十年裏，這個需求都不會衰退，大數據的用人缺口極大。

　　目前，高校針對大數據分析和人工智能領域設置的對口專業非常少，很多專業人才都是計算機、金融或者統計出身，而用人市場又存在極大的需求，因而工資也水漲船高。

　　至於成長速度，一方面，大數據面對的工業場景在不斷更新和擴展，目前比較熱門的可能是互聯網電商行業，而很多傳統工業也在嘗試用大數據做決策優化；另一方面，很多數據挖掘理論也在與時俱進，因此數據挖掘算法相關從業者需要保持項目的實踐推進能力，並持續進行理論學習，這類從業者的淘汰率大，壓力也大，不過成長速度也快。

　　第二個問題是爲什麼回國。一個原因是根據自身情況所做出的選擇，在這裏不多說，有借鑑意義的是中美在大數據行業的差異性。

　　美國作爲一個發達國家，很多應用場景下的數據採集、管理分析流程已經比較成熟了。除了前沿的技術研究進展，從工業應用領域來看，中美大體差異不大，甚至中國在未來的發展空間還更廣闊，但是涉及到一些傳統工業或電商、物流這類的新型產業，中國整體的大數據應用水平還是比較遲滯的。

　　中國在數據這一領域的發展空間會給大家更多的機會，因此在大數據行業發光發熱，其實是一個非常好的選擇。現在進入這一行業的人，在某種程度上會成爲第一批接觸並且解決該行業問題的人才。

　　第三個問題是創業公司和大廠有哪些區別。實際上，二者有各自的優勢。大廠具有穩定、體系分明、接觸業務層面較深、細分領域深耕、晉升通道明確等優勢，而初創公司的優勢表現在：管理扁平、任人唯能、接觸項目廣泛、直接對接客戶，並對業界的不同領域均能涉獵，成長曲線陡峭。

　　在劣勢上，大廠可能存在視野過窄、不跳槽難以晉升、工作內容及模式固定化、成爲一顆「螺絲釘」等問題。而初創公司相對來說比較不穩定，並且團隊靠譜與否會影響上述優勢能否保證。

　　我個人傾向去創業公司或者大廠剛剛成立的重點部門，因爲二者都具備一個特質，就是都能接觸到大量工作和項目，而不是在一些細分的領域做「螺絲釘」。在我看來，入行初期比較重要的是行業視野——大面看得全，才能夠在深耕領域做出最優的選擇。因此我的第一份正式工作就選擇了創業公司。另外我實習大廠的大數據部門，也有同樣優勢，它剛剛成立，能夠很快對接到業務層面，並且其內部也是採取扁平化的管理方式，能給我很多的鍛鍊機會。

　　其他原因還包括團隊和成長機會。我曾在硅谷機緣巧合地接觸到了杉數科技的 CTO 王子卓老師，便立志加入杉數團隊。由於杉數科技目前還在成長階段，能夠讓我接觸大量項目，而每一個項目就是行業或工業的解決方案。此外，除了技術和理論研究實力非常強大的創始人團隊，杉數科技更有一批行業非常頂尖的科學家，這些都是行業內的超優質資源。因此對個人而言，杉數科技的工作不僅僅意味着能與這些優秀科學家共事，大量的項目也非常鍛鍊人。

　　杉數科技是一家基於大數據的諮詢公司，主要客戶是中國工業界的大中型企業，其基於大數據的精細化運算和行業解決方案，能夠幫助企業提高決策水平。

　　之所以說杉數科技的前景非常好，一方面是因爲大環境下越來越多的工業企業開始重視數據，但它們未必有足夠的資金像 BAT 一樣去養數據團隊，並且即便是 BAT 這樣的大型企業，針對特定的、非常態的複雜問題也需要搞外包服務，這也是杉數科技存在的價值。另一方面，杉數科技創始人團隊都是斯坦福高學歷人才，並且配備豐富的行業經驗和學術經驗，併兼有強勁的技術實力和前沿的理論研究實力，曾爲 Google、IBM、波音、美國能源部、中國電網等機構解決運營決策優化問題。

　　大數據分析工程師職業內容

　　下面我講一下大數據分析師的工作內容，公司的崗位需求以及職業發展路徑。

　　數據分析這個概念，其實大家都不陌生，基本上就是針對一些數據源，去探索它們的特點，得出相應的結論或者追溯一些商業現象的原因。不同於傳統的數據分析，大數據分析不僅僅是基於自身的數據統計，有時也需要考慮一些外部因素，對其他需要的數據源進行採集、整理和合並，並且它的數據規模比較大，從業人員需要掌握一定的運行並行工具和算法，而不僅侷限於基於統計學的分析。

　　但是就我的從業經歷來看，大部分數據分析師的末端工作內容還是基於一些常用的統計學理論和傳統的數據分析方法，只是在這一步前增加了很多大型數據集整理、合併和運算的過程，而這些過程需要一些新的技能和理論。

　　從一個維度來說，目前大數據分析有兩個大體的方向：

　　一個是偏業務方向，這個方向要求從業者對業務有着比較深的理解，並且有比較強的統計學理論知識，能夠對大型數據集做簡單的處理，然後得到所需維度的數據，而最重要的一項能力是，要能夠結合商用市場和業務提出的要求，去定位問題和發現結論。一般來說，工作中所需外部數據源越少，前期的物理邏輯就越簡單，也越接近傳統的商業分析。

　　比如拿到某個企業某個部門這一季度的所有訂單後，需要對訂單的來源去向分區域、分時段進行統計，然後要輸出結果、監控異常、定位來源，並根據數據表現提出解決方案，這一整個過程就是商業分析。而當數據量達到一定的規模，沒有辦法用 Excel 這些工具直接進行分析的時候，就需要使用一些大數據平臺對數據進行預處理和預運算，比如維度擴大到整個企業某季度的所有訂單。其中，當我們在分析產品類型、客戶類型等多個維度的結果輸出的時候，涉及到的就是某些初級大數據分析師的工作內容，一直到這一步，相關的數據分析都是跟業務結合得非常緊密的。

　　目前很多領域的大數據分析師的基本工作內容，就是在大數據平臺用 SQL 等工具來整理和取數，做一些初步運算，然後再用 Excel 進行分析和操作。而精細到不同場景，這個崗位會有一些不同的發展方向：有做數據產品的，需要具備一定的需求把控能力和項目管理能力；有做決策支持的，需要一些商業敏感度—在一些業務開展之前，要能夠利用市場數據的各個維度進行分析，以確定某項業務是否要開展，有哪些方案，以及哪些方案能最大程度地爭取利潤和減少風險等等；有做數據運營的，包括客戶運營和產品增長運營等，要結合一些歷史數據和數據規律，找到其增長點，推行並迭代數據。

　　我們可以從這些工作內容看到，其實偏業務方向的大數據分析師結合市場、產品或者運營，可以有多種發展方向，他們可以緊貼着業務、運營和產品等跟市場結合比較緊密的部分不斷成長，直到進入決策層，前景十分光明。

　　這種業務型大數據分析師的崗位需求，在技能方面的門檻不是非常高。基本上學會用 SQL 取數，可以使用大數據平臺對一些數據進行處理，會用 Excel 的高端操作進行數據分析、彙報撰寫以及擁有基本的可視化技術，就可以嘗試找這方面的工作了。另外，這個崗位的核心能力在於你的商業敏感度以及對業務的瞭解深度，而這些都是需要在實際工作中積累的軟實力。

　　另一個是偏技術方向，其基礎仍然是做數據分析，但是工作的側重點有所變化。除了監控數據、鎖定異常、查找原因等工作內容，數據挖掘方向的大數據分析師面臨多一層的需求——給定解決方案。比如某個網站想要將廣告投放收入最大化，你要考慮怎樣根據網站的流量分佈採取適當的投放方案和收費方案，甚至針對不同客戶進行定向投放等，這其中就涉及一些推薦問題。一套合理的投放模型，向上要考慮廣告投放方案的利潤最大化，向下要考慮向客戶推薦廣告能夠最大化地帶來真實流量，這一系列的邏輯，不僅要基於大量的數據採集來分析結論，也要基於業務邏輯、算法理論和基於經驗的假設提出解決方案—實際上到這個階段，大數據分析師已經進階爲大數據工程師和科學家。同時，這個過程中還會用到一些基於大數據工具下的數據挖掘算法、傳統機器算法，甚至深度學習算法知識。嚴格意義上講，這已經是算法工程師的工作了。

　　不過實際上在很多應用場景下，大數據分析師不需要解決這樣系統、龐大的類如推薦、識別等問題，而只需要在具體工作場景下針對一些小的問題，建立簡單的機器學習模型，比如隨機迴歸、邏輯分類器等。以一個小的應用場景爲例，在給定了客戶數據後，需要訓練一個分類器能夠最大程度地識別傾向於某個產品子類的客戶，從而對這個客戶進行篩選，然後提供針對性的服務。這是一個比較簡單的分類問題，需要根據不同的情況採用不同的方法進行建模。

　　總之，偏技術這個方向的大數據分析師，無論是利用傳統機器學習方法還是深度學習方法，都需要採用一定的數據挖掘算法，去嘗試建立模型解決問題，迭代、更新數據以及不斷調整參數，這一整套過程就是大多數數據挖掘師的工作邏輯。

　　這個方向下也細分出很多不同的發展方向，比如定價、推薦、語音識別、NLP 等等，但這個方向因爲門檻比較高，要求掌握紮實的數學、線性代數、計算機算法理論基礎，以及較強的代碼能力。另外，機器學習和深度學習算法還在不斷更新中，基本上會隨着論文更新出現新的算法，因此這個方面需要大家不斷學習，保持閱讀論文，隨時更新個人知識。

　　在工業界，偏技術方向的人一般會沿着技術專家、數據科學家的路線發展，或者在積累經驗後產學結合進行算法方面的革新等等。對於想要跨專業往這個領域發展的求職者，我建議大家先進入一些技能較低的大數據分析崗位，在工業界積累一定問題處理能力後，再在特定領域通過深造努力向數據挖掘方向靠攏。

　　目前，大數據分析師和數據挖掘師的行業主要集中在數據採集和管理比較成熟和體系化的金融、政務等領域，其中，金融行業的大數據分析師會相對偏量化一點，並且側重商業分析，要求較高的金融理論知識。不過，互聯網企業可能會是未來大數據人才缺口最大的行業，比如電商、物流行業的整個鏈條的智能管理和決策優化都要基於一定大數據算法實現；而政務領域往往是基於互聯網+平臺，並且採取一些外包的方式實現智能化管理。此外，像今日頭條這類資訊型的互聯網公司也會有廣告推薦、用戶增長等大數據分析相關的熱門崗位。

　　除了本身搭載移動互聯網信息化的成熟企業，工業界企業對大數據應用上的訴求基本上集中在倉配優化、成本控制、定量預測等很多細分領域。大數據比較成熟的企業，比較重視在深耕領域的精細化模型的搭建，比如我們前面提到的推薦算法等等，但是對於大數據初具規模的企業和傳統企業來說，基於成本控制和利潤提升的簡單算法的全局性優化方案是更爲重要的。

　　數據分析和數據科學也是有差異的。基本上，數據分析的技術棧有三個：數據庫處理、腳本細處理（有一些公司會對這個技能有一定要求）、維度分析+可視化。而數據科學是基於數據分析的技能，要求比較強的編程能力、數學能力和算法能力，門檻相對較高。

　　大數據分析工業場景應用實例

　　簡單舉個實例來介紹一下我在工業界中所做的與大數據分析相關的工作。由於大多數數據分析崗位也要求一定的基本建模能力，所以我把涉及到數據分析的工作內容簡單歸類爲三個大場景：

　　第一個，數據監控。這一類場景下基本是固定取數邏輯，只需根據業務市場或數據模型的需求，從數據庫中提取元代數據，再通過邏輯合併和運算處理輸出結果。數據監控工作具有重複性的特點，需要週期性生成固定口徑的數據，以及監控一段時間內的數據分佈，鎖定數據異常，並且發現異常時，還需要在數據庫中結合業務進行診斷，最後生成分析報告。我一般會用 SQL 取數、Excel 統計，最後做 PPT 進行彙報。

　　第二個，數據分析。這個場景跟數據監控相似，不同的是，它是不固定取數邏輯，可能會涉及多次取數以及不同的分析方法，因爲其最終目的是在數據層面找到一些現象的原因、結論，而在分析之前，我們很難從成百上千個工業維度的數據直接定位到造成某個影響的維度。另外這一場景最終的呈現形式也是彙報，需要用到一些前端知識和便利的可視化軟件。

　　第三個，數據建模。這個場景需要在分析的基礎上，根據業務需求抽象模型方案並進行數據集探索，建模完成相應需求。

　　除了這三個場景，還有一些其他場景，它們不屬於大數據分析師的崗位，但需要密切依靠大數據的相關工作，例如工業定價、工業銷量預測、倉儲管理、供應鏈優化等，這些工作都需結合運籌學和其他算法知識進行數據挖掘、建模及優化工作。

　　下面是我的一個具體工作案例，讓大家瞭解這三個場景在實際工作中的具體應用。這是我們公司做的一個定價項目下的子環節：

　　（關於該定價項目的具體工作案例講解，請請回看視頻 00：26：30 處，http://www.mooc.ai/open/course/567?=zhaokezhen）

　　大數據分析/挖掘的自學建議

　　針對大數據分析和初步數據挖掘自學，我會提供一些建議，也會給大家提供一些資料。

　　現在，大數據分析崗位所需的技能包括：

　　第一個，數據獲取的技能，需要處理哪些數據/哪些維度/如何界定待分析等問題，大部分公司要求使用 SQL+R/Python 等軟件進行預處理。

　　第二個，數據處理的技能，需要掌握 R/Python 等工具，能幫助大家比較靈活地進行數據清洗工作。不過針對數據量比較小的數據，可以直接使用 Excel 處理，這就需要掌握 Excel 高端技能。

　　第三個，數據分析的技能，其中的軟技能包括商業敏銳度、業務理解以及統計學知識。

　　第四個，數據展示的技能，要求大傢俱備優秀的可視化和良好的表達能力。

　　標配就是 SQL+Excel，依靠這些能力基本上就能幫助你找到一些工作或者實習機會。

　　針對 SQL，我建議大家去菜鳥教程上進行學習，主要掌握比較簡單的應用型語法，可以一邊操作一邊學習，遇到不懂的則要學會使用搜索引擎進行查詢。另外，我建議直接上 Leecode 網站，刷一下數據結構這幾道題，網站上按照從易到難的順序會有不同的解法，大家可以嘗試用不同方法去解決一個問題。掌握 SQL，基本上可以應付工業界的取數任務了。

　　Excel 方面，基礎操作無法滿足要求，要求至少熟練使用常用的統計工具，如簡單的表格數據處理、查詢、排序等，vlookup 等高級函數，多維引用數值公式，可視化圖表（需要掌握圖表展示、美化、高級圖表、圖標插件等）以及非常常用的數據透視。另外，有的數據處理也涉及 VBA 開發，大家如果對這方面有興趣也可以自學一下。

　　大家如果掌握了 SQL+ Excel+PPT 這三個工具，基本上就可以嘗試去找大數據相關的工作，之後可以根據個人發展方向和崗位需求確定自己的技能加強方向。

　　另外，針對想要學習一些腳本語言的同學，我比較推薦 Python，這款軟件比較好用，且容易入門。大家可以上廖雪峯的官網上了解一下基本的 Python 語法、數據存儲方式等內容。關於數據處理的學習，則可以直接看 pandas 手冊（http://pandas.pydata.org/pandas-docs/stable/pandas.pdf）——從 500 頁開始基本上都在介紹常用的語法指令。目前數據處理方面的工作，一般都是使用 SQL+pandas 指令完成的。

　　如果需要掌握結構化處理，大家可以學習一下 numpy 這個數據包，並在在工作中邊學邊用。在機器學習和深度學習中，該數據包的應用比較多。

　　基於數據分析的數據挖掘，則要求自學者有較好的線性代數基礎，並進行機器學習和深度學習相關的學習。關於傳統的機器學習理論，比較完備的課程是吳恩達的 CS229，工業界中常見的分類和迴歸問題所涉及到的，比如隨機分離以及樸素貝葉斯等理論，CS229 基本都涵蓋到了，不過這門課程偏理論一點，因此對數學理論的要求非常高。大家之後在工作中可能遇到各種「疑難雜症」，可以去閱讀相關論文或者技術博客（尋找相應的解決方法和思路）。而實用性較強的課程中，我比較推薦 Stanford CS246 這門課程，包括基於 Spark 平臺去操作完成一些簡單的推薦算法、直線聚類等與工業界結合非常緊密的實踐和課程。

　　此外，針對一些數據挖掘細分領域的偏理論的課程，我在資料（http://sendanywhe.re/900QEJJZ）中附上了著名的黃皮書，大家可以參考。

　　傳統機器學習相關工作，將這些理論掌握就可以說是做好比較充分的準備了。需要注意的是，工業界跟學術界存在的一個比較顯著的差別就是，工業界的工業數據是非常「髒」的，當遇到很多棘手的問題，我們無法獲得理想數據進行模型訓練，比如分類中常見的分類不平衡等問題，這就需要我們結合工業場景嘗試不同的算法和工業應用理解去找到合適解決方法。另外，不同公司的數據分析崗位的具體工作內容會有區別。因此，我認爲行業經驗以及學習和理解能力非常重要。

　　杉數科技招聘內容及內推通道

　　接下來介紹一下杉數科技，並給大家講一些崗位的招聘需求。

　　杉數科技於 2016 年 7 月份成立，總部在北京東城區，並在上海楊浦區設立有子公司——上海杉數網絡科技有限公司。創立的同年 8 月，杉數科技便獲得真格基金與北極光創投的聯合投資，天使輪融資高達 210 萬美金，創下 2016 年中國大數據領域天使輪融資額度新高。2017 年 7 月，杉數科技完成 A 輪融資，融資額約 4000 萬元，由高達投資（Pagoda Investment）領投，將門創投、聯想創投跟投。

　　公司由五位斯坦福的教授及博士聯合創立，匯聚了海內外一流科學家團隊，目標是希望利用優秀的人工智能決策技術，讓中國每個企業都擁有定製最優化決策的能力，並通過創新地結合一些機器學習和深度學習技術以及運籌優化技術，爲企業服務。目前的合作方包括京東、順豐、德邦、萬達、滴滴、永輝等各個行業的巨頭企業。

　　下面是我們公司最初的幾個創始人：

　　杉數科技創立以來也獲得了大大小小數十個獎項，比如「國家高新技術企業」、「中關村技術企業」、黑馬新零售 Top 50 等。相比於傳統的諮詢公司，我們公司有一些優勢：較強的優化求解技術、從數據到決策的閉環服務能力、頂尖的數據決策科學家團隊等等。除此之外，我們還有許多與大企業的合作經驗，目前仍與大企業保持深度合作。

　　我們的業務項目包括爲電商、零售等行業提供智能預測、庫存優化、倉儲自動化、收益管理、智慧選址等一系列的解決方案。

　　其中，我介紹一下智能選址、倉儲管理等杉數科技的成功案例，而在這些項目的實施過程中，我們也可以看到杉數科技需要哪些方面的人才。

　　案例一：智能選址。在零售行業相關項目中，我們做了門店選址項目。傳統的選址一般會根據行業經驗粗略地劃一片目標區域，派遣人員進行實地走訪並最終確認。而在這個項目中，我們顛覆了傳統的選址方式，將選址問題變成了一個優化問題，這個問題主要目的是：增加營收，進行品牌營銷，以及提高人口覆蓋率、便利程度。

　　營收方面，已知大量門店的流水數據，再結合一定業務經驗，我們挖掘了店面營收相關的若干個大特徵（大範圍內共享的特徵，比如人口覆蓋、最近地鐵站的距離等）和小特徵（更精細的特徵，包括店面的臺階高度，門前是否有欄杆等），對特徵進行量化後，採取了多種預測模型，最終使得每月的營收準確度高達 90% 以上。覆蓋率方面，我們將上海的大特徵打到各個網格中，以找到全局營收和人口覆蓋最優的函數爲選址目標，通過整數規劃獲得最優網格後，再結合業務人員的實地考察，找到符合營收最高的小特徵的地址，並確定下來。這個過程中，要求數據分析師對業務有較深理解。

　　其中，在店面的特徵對營收造成影響上，我們將現實問題抽象成一個模型，並採用目標、約束以及機器學習預測相關的方法。這就要求需要大數據分析師有很強的數據搜索、處理能力以及邏輯思維、取數、建模能力等。

　　案例二：智能倉儲管理。這個項目中，我們將整個倉儲問題分解爲很多子問題，從問題流程的角度將其劃分爲補貨問題、擺放問題、訂單波次問題以及揀貨路徑問題，這四個問題的聯合最優解纔是補貨和揀貨成本最低的最優方案。

　　補貨問題是一個經典的倉儲問題。我們首先將庫存 SKU 按照銷量熱度分組，對於高銷量的產品，我們的策略是單獨爲其開闢空間，這種產品一般處於促銷狀態；而低銷量的產品的存放量則會比較少，這些數量可以應付一段時間的需求。

　　擺放問題同樣涉及產品銷量熱度問題，此外還需要考慮產品間的關聯度。首先，熱銷產品要擺放在距離揀貨出發點最近的位置（如果出發點與終點分開，則需要離終點最近）。關聯度上，一個訂單同時出現兩款產品的可能性越高，產品的關聯度也就越高，揀貨員需要儘可能減少揀貨距離。另外，由於同一種貨物可能出現在不同的貨架上，這使得擺放問題的複雜性也更高。

　　訂單波次生成問題，是指一個揀貨員在單個揀貨路徑上可能進行多個揀貨任務，多次生成是爲了在將同一個路徑上的揀貨任務生成到一個任務單上。倉儲管理中出現的多個訂單，會進入訂單池，之後訂單池中的訂單會實現最優的訂單合併。這個問題中，我們也會考慮時效性來保證訂單波次的可靠性，例如合作態度比較低的訂單、訂單合併效果一般但是進入訂單池很久的訂單要求及時打撈。

　　揀貨路徑規劃問題，不是簡單最短路徑算法就能夠解決的問題，同一個 SKU 可能會擺放在不同貨架上，因此只有確定任務單上所有 SKU 的貨架位置，才能進一步進行路徑規劃。上面所說情況比較複雜，但仍屬於傳統倉儲管理的範疇。

　　此外，我們還有無人倉調度管理方法。相比傳統的倉儲調度，我們的規模更大，實施性也更好。

　　由於我們公司的項目往往會分解成很多子項目，因此我們需要的人才是綜合能力比較強、思維比較活躍，能迅速深入理解業務的本質，並在數據挖掘、運籌方面有一定想法的人。

　　另外，我總結了杉數科技的一些大項目所存在的共同點：

　　第一個是基於項目的預測引擎，這是很多項目的前置工作，我們需要識別、挖掘數據的特徵，以防止過擬合，並對突發事件進行比較精準的預測等。而這些數據的維度比較高，往往存在缺失、噪音、原始信息的表達比較困難等常見問題。

　　第二個是全渠道的預測補貨方案，其基於庫存管理對當前的補貨進行優化，從而提高庫存管理的準確度。

　　第三個是數據驅動的定價問題。我們會基於企業自有數據特有的類型和特點，結合外源數據，根據不同的定價驅動因素，來自動輸入定價、利潤等關鍵指標的變動趨勢，此外還會結合不同目標靈活地調整定價策略，來解決動態定價、促銷定價、大客戶定價、捆綁定價等問題。

　　除此之外，對於多維度、多場景的智能配送物流運輸的規劃解決方案，在考慮多種業務的約束條件的同時，還要統籌規劃所有的資源，這是非常難的。此外，我們還需要在保證服務水平的前提下，儘可能減少運輸成本，並提升資源利用率，提高物流響應速度。這個過程中，需要比較強的算法來支持。而我們的車輛調度優化算法能顯著提高運輸效率，解決裝箱問題、資源匹配不合理、城市分區等現實中存在的業務約束問題，從而解放手工調度的人力成本。

　　在基於業務場景的選址方案方面，我們前面所舉的例子商超零售商業選址是基於全局的選址方案中的一種，我們會結合機器學習、深度學習以及運籌規劃的模型，去賦予新零售、新餐飲下的企業挖掘商圈和商機的機會，讓它們迅速科學地佈局店鋪。此外我們還積累了很多城市數據等外源數據，這些數據可以用來刻畫區域特點和激活商圈活力。

　　很多製造業也有相對應地解決方案，例如基於業務的工業排程、生產週期排班方案以及用戶分析、風險控制、產品設計等等。

　　除了這些項目產品，我們從中將項目經驗沉澱下來，轉化爲杉數的無形資產，打造杉數智慧鏈。例如：

　　我們第一個產品 PonyPlus，也叫小馬駕駕，是一個運輸優化系統，通過特有的車輛調度優化算法，在考慮時間窗、門店優先級等多種業務約束條件的同時，統籌規劃所有資源，確保滿足客戶的服務要求，提供配送的最優路徑、裝卸時間窗、司機排班以及箱內裝載等等業務的智能優化解決方案，進而減少企業的用車數量、行駛距離和配送時間，從而降低總體運輸成本。目前，小馬駕駕還支持多種提送模式，涵蓋多種車輛的限行約束政策，支持運輸途中路線的實時再優化，實用性很廣。

　　第二個是 StockGo，它是一個庫存管理系統，也是我們從項目中沉澱下來的一個比較好的產品。考慮全維度的數據，比如流量、轉化數據、庫存數據、採購數據、訂單數據、促銷數據等等，基本會考慮到商業場景中的所有落地信息，並採取多種預測算法，比如時間序列分析、機器學習預測、循環神經網絡預測等等，能夠預測企業真實的動態銷量，從而針對不同的流量渠道和複雜的業務場景來提出智能、精準的庫存決策建議。

　　此外，我們還有一些實時定價系統。

　　這是我們公司之前合作過以及現在依舊保持合作的大型企業。創業兩年以來，杉數已積累了來自多個國內行業的標杆企業背書。

　　下面是公司對員工提供的福利：

　　下面是我們公司正在招聘的一些崗位：

　　其中算法工程師分爲運籌優化和機器學習兩個方向，今天我們分享的涉及大數據層面的基本上屬於機器學習這個方向。另外一些開發崗位，我們也有一些人才需求的缺口。

　　大家可以通過我們的公衆號瞭解更多相關信息，另外，通過郵箱 [email protected] 可投遞簡歷。

　　大家有問題也可以整理好發到我的郵箱 [email protected]，我都會爲大家解答。

　　趙珂珍老師分享結束後還對同學們提出的問題進行了回答，大家可以移步社區（http://ai.yanxishe.com/page/questionDetail/9077）進行詳細瞭解。

　　以上就是本期嘉賓的全部分享內容。更多公開課視頻請到雷鋒網 AI 研習社社區觀看。關注微信公衆號：AI 研習社（okweiwu），可獲取最新公開課直播時間預告。

　　問答部分：

　　1. 請問招應屆生嗎？

　　招應屆生。雖然我們的招聘要求上寫着要求 2 年以上工作經驗，但我們也鼓勵碩士、博士應屆生加入，我們這邊也有很多員工本科階段過來實習，最後留在公司。我們實習崗位，比正式員工要求也低一些。基於我的求職經驗，我建議大家嘗試找一些實習，因爲實習能讓你瞭解到這個行業大概做什麼內容，並且有機會接觸到工業界的大數據，這些都會對正式求職加分不少。

　　2. 老師在斯坦福讀的什麼專業？

　　我讀的是環境流體力學。

　　3. 請問工業界積存的原始數據來源收集方法。

　　這個要結合工業界的具體場景來說，目前一些數據部分來自於爬蟲，所以公司也會有一個跟爬蟲相關的崗位。

　　4. 數據分析實習職位只會 SQL 和 Python 能申請嗎，還需要其他的技能嗎？我是純理工生，老師講的業務不太懂。

　　如果你會 SQL 和 Python，有很多加分，但也要求較強的 Excel 技能，因爲在工作中需要將數據調到 Excel 中進行數據維度的處理。另外，業務方面的知識，對現在掌握多少沒有太大要求，但是你在具體工業場景中要有對業務的理解和學習能力，如果有必要的話，可以到業務一線去實習一段時間。

　　現在很多大公司都有這類崗位的培訓機制。大家掌握一些技能就可以大膽去找工作，並在工作中不斷進行業務層面的積累和沉澱。

　　5. 數據怎麼來的？

　　很多工業數據都是自己建立數據庫，再進行不斷維護更新。現在之所以說工業界處於擴寬的階段，就是因爲很多數據不是那麼完備，在維護上還有很多缺口，處理的任務會非常繁重。

　　而互聯網上的數據，需要使用數據搜索能力，使用爬蟲技術來獲得外部數據源。大型互聯網公司相關崗位的工作，會基於內部的大數據平臺取數，並基於 spark 這樣的平臺存儲數據，按照具體場景取數使用。

　　6.CS229 是啥？

　　CS229 是斯坦福的一門機器學習課程，非常有名，其涵蓋了傳統機器學習的大多數內容。大家可以搜索一下課程課號，網上有詳細的介紹，公開學習平臺都有這些課程，但可能有一些刪減，大家可以參考一下我提供的資料（http://sendanywhe.re/900QEJJZ）。

查看原文 >>

杉數科技趙珂珍：大數據分析工程師的求職分享—從大廠到初創企業的決策之路 AI 研習社職播間第 5 期

熱門新聞

週熱門

杉數科技趙珂珍：大數據分析工程師的求職分享—從大廠到初創企業的決策之路 AI 研習社職播間第 5 期

生豬週報（5.30-6.5）

突發！80後實控人 協助調查！

千方科技：推出數智時空優化城市交通擁堵治理方法及核心產品，並探索低空飛行領域的相關技術和產品

依米康：擬3800.43萬元轉讓川西數據30%股權

福建首個2000P算力集羣浮出水面 國企民企聯手趕潮“港數閩算”

【玻璃大數據】玻璃供應環比略有下滑但仍在高位

每日豬訊5.22

算力概念股走強，多隻算力ETF集體反彈

五大數據掃描地產股，政策面基本面技術面齊向好

每日豬訊5.13

東吳證券：智駕算法步入深水區，頭部玩家有望持續領跑

四川：將人工智能作爲一號創新工程，發力智算芯片、算法模型等重點領域

生成式人工智能爲勞動力市場帶來哪些變化

萬集科技(300552.SZ)：公司自動駕駛具備感知、定位、規劃、控制算法全棧自研能力

數字水印概念盤中跳水，視覺中國跌1.25%

熱門新聞

週熱門

突發！80後實控人協助調查！

福建首個2000P算力集羣浮出水面國企民企聯手趕潮“港數閩算”