摘要:\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E 頂尖的數據科學家懂得面對不同背景、不同目標的人採用不同的溝通方式,因爲各種因素都會造成對數據科學的不同預期。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E 隨着越來越多的數據科學工作流程正在被全新的軟件框架所替代,紮實的軟件開發技能也成爲了數據科學家們的必備技能之一。

"\u003Cdiv\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002Ff7dc704db7ea423fb382fa60c7ba8859\" img_width=\"640\" img_height=\"86\" alt=\"是什麼讓數據科學家從優秀變得偉大?\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-justify\"\u003E作者:Amadeus Magrabi\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E翻譯:陳振東\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E校對:吳金笛\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E本文約\u003Cstrong\u003E2400字\u003C\u002Fstrong\u003E,建議閱讀6分鐘。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E本文從目前數據科學行業發展角度出發,總結了頂級數據科學家必備的幾項技能。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002Fd4370803c9d04d999da6739662e5f58c\" img_width=\"554\" img_height=\"415\" alt=\"是什麼讓數據科學家從優秀變得偉大?\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E數據科學領域的勞動力市場正發生着快速的變化。曾經,能夠搭建機器學習模型被認爲是隻有少數頂尖的數據科學家才能掌握的尖端技能,但如今,有一點基本編程經驗的人就能根據教程完成Scikit-learn或者keras的模型訓練。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E頂着“本世紀最性感的職位”,行業內的招聘人員不得不面對大量的數據科學相關的求職申請,而這樣火熱的程度目前看不到降溫的趨勢,同時越來越多的數據科學相關的開發工具也變得更加易用。人們對數據科學家能給我們帶來什麼的期望已經改變,越來越多的公司逐漸認識到,訓練機器學習模型只是在數據科學領域取得成功所需的很小一部分工作。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E \u003Cstrong\u003E這裏,我們列舉了四項成爲偉大的數據科學家最有價值的品質:\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E \u003Cstrong\u003E一、重點關注業務影響\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E 對於數據科學家而言,最常見的驅動力之一源自對於發現數據模式的好奇心:潛心於探索數據特徵的探索、利用最新技術進行實驗、系統性的測試並最終得到新的發現,這些工作都讓數據科學家們感到興奮。這種科學動機是數據科學家應該具備的。但如果它是唯一的動力,那也成了一個問題。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E 如果僅停留在數據層面,思路就會變的侷限,最終迷失在數據統計的細節之中,忽略了具體應用場景和更大的公司業務背景。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E 頂尖的數據科學家懂得如何將他們的成果融入到公司整體的業務之中,並最終將其轉化成商業價值。如果存在簡單適用的技術,他們不會花費過多的時間去追求複雜的技術實現方式;在真正制定方案之前,他們會明確項目的意義並直擊問題所在;他們會關注行動或者方案對整個團隊的影響,並提前與相關人員進行溝通;他們會對新的項目和計劃提供層出不窮的思路,並不介意自己在別人眼中是否過於“腦洞大開”;他們會對自己的方案幫助到更多的人感到自豪,而不是使用了更先進的技術。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E 數據科學目前仍是一個不規範的行業,學術教育與產業需求間存在着很大的代溝。頂尖的數據科學家無懼於走出“舒適區”,去面對更棘手的問題並最大限度地發揮其作用。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E \u003Cstrong\u003E二、紮實的軟件工程技能\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E 當設想數據科學家的理想形象時,浮現在人們腦海中常常是在工作在頂級大學中的著名的AI學科教授。在企業需要提升模型準確率去面對更激烈的競爭時,納入這樣的人才無疑是明智的。因爲爲了提高傳統方法準確率最後剩餘的幾個百分點,必須去關注數學方法的細節,驗證複雜的方案,甚至爲了特定問題去定製化的研發統計學技術。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002F03b1db644a264c1e84d99b584405073d\" img_width=\"366\" img_height=\"274\" alt=\"是什麼讓數據科學家從優秀變得偉大?\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E但在實際工作中,這種場景太少見了。對於大部分企業而言,標準模型的準確率已經足夠,再投入大量時間和人力去把模型優化成最好、最先進的模型並不那麼具備性價比。更重要的是儘早建立精度尚可的模型並建立模型與業務系統的回饋循環,可以讓你能開始迭代並快速找到模型的最佳使用場景。糾結於準確率的細微差別通常並非一個數據科學項目成敗的關鍵點,這也是在實際業務開發中,工程技能比科學技能更重要的原因。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E 通常,一個數據團隊的運作流程是這樣的:首先數據科學家建立解決方案的原型,並提供試錯和意麪式的代碼(覆蓋功能點但沒有系統化的代碼);如果結果看起來還不錯,代碼就會交付給軟件工程師,由軟件工程師將這些草稿改寫成可擴展的、高效的、可維護的代碼。數據科學家並不要求像軟件工程師那樣提交產品級的代碼,但如果數據科學家對軟件工程更加熟悉,並且對可能發生的架構問題有所瞭解的話,整個工程會變的更加順暢和高效。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E 隨着越來越多的數據科學工作流程正在被全新的軟件框架所替代,紮實的軟件開發技能也成爲了數據科學家們的必備技能之一。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E \u003Cstrong\u003E三、謹慎的期望管理\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E 站在領域外的角度看,數據科學是一個邊界模糊並且令人難以捉摸的領域。這是炒作還是世界正在經歷革命性的變革?是否所有的數據科學項目都是機器學習項目?這些人的身份是科學家、工程師還是統計學家?他們是做什麼的,軟件產品還是可視化的儀表盤?爲什麼模型給我的結果是錯的,有誰能修復這個bug麼?他們現在只給了這麼幾行代碼,過去的幾個月他們都做了什麼?\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E 面對數據科學,很多事情都顯得那麼不清楚,而同一個企業中的不同的人於數據科學家的期待也不一樣。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E \u003Cstrong\u003E對於數據科學家很重要的一點是:主動並持續與工作相關的人員進行溝通交流,明確工作預期,儘早消除誤解,並讓大家的認知達成一致。\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E 頂尖的數據科學家懂得面對不同背景、不同目標的人採用不同的溝通方式,因爲各種因素都會造成對數據科學的不同預期。頂尖的數據科學家要能通過一種簡單易懂的方式給零技術基礎的人講清楚複雜的數據處理方法,以便達成工作目標;他們知道什麼時候去消除過於樂觀的預期,什麼時候該說服過於悲觀的同事。最重要的是,他們強調數據科學固有的實驗性質,當一個項目的成功仍不明朗時,他們不會過度承諾。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E \u003Cstrong\u003E四、熟悉雲服務\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E 雲計算是數據科學工具的核心部分。在很多情況下,在本地服務器上運行Jupyter Notebook達到硬件資源極限後仍不足以完成任務。當需要在計算能力強大的GPU上訓練機器學習模型、在分佈式集羣上並行化數據預處理、部署REST API來發布機器學習模型、管理和共享數據集或查詢數據庫以進行大規模分析時,雲服務尤其重要。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E \u003Cstrong\u003E目前,最大的雲服務提供商包括亞馬遜雲服務(AWS),微軟的Azure和谷歌雲平臺(GCP)。\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E\u003Cstrong\u003E \u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002F4306b7a6440a46a08bb55416e92ba788\" img_width=\"554\" img_height=\"353\" alt=\"是什麼讓數據科學家從優秀變得偉大?\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E考慮到大量的服務和平臺之間的差異,雲服務提供商提供的服務並不能勝任數據科學的全部方面。但重要的是要對雲計算有一個基本的瞭解,以便在你需要他們的時候能夠通過瀏覽文檔來了解他們是如何工作的。至少,這可以讓你提出更好的問題,併爲友好的社區數據工程師制定更具體的要求。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cstrong\u003E結語\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E好了,對於那些希望從零開始組建數據科學團隊的公司,我推薦他們去尋找那些務實的問題解決者,他們具有強大的工程技能和敏銳的業務價值洞察力。統計學技能的優勢可以帶來很多價值,但在很多應用場景中,它並非像以前那麼重要,尤其對於創建初期的數據科學團隊。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E 但目前而言,大多數公司更傾向於僱傭具有強大學術背景的數據科學家,比如數學或物理學博士。考慮到數據科學行業近年來的發展趨勢,未來是否會有更大比例的軟件工程師或技術產品經理轉變爲數據科學角色,將是一個有趣的問題。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E 原文標題:\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E\u003Cstrong\u003EWhat Separates Good from Great DataScientists?\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E原文鏈接:\u003C\u002Fp\u003E\u003Cblockquote\u003Ehttps:\u002F\u002Ftowardsdatascience.com\u002Fwhat-separates-good-from-great-data-scientists-2906431455fd\u003C\u002Fblockquote\u003E\u003Cp class=\"ql-align-right\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E\u003Cstrong\u003E譯者簡介\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002F18d4c0692a59415ca41542925528aaef\" img_width=\"1080\" img_height=\"1440\" alt=\"是什麼讓數據科學家從優秀變得偉大?\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-justify\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E\u003Cstrong\u003E陳振東\u003C\u002Fstrong\u003E,工資不高、想法不少,目前工作於北京銀行軟件開發部,負責核心系統的建設,主要方向包括客戶信息(CIF)模型、三方支付交易等,並作爲主要成員參與銀行分佈式與雲計算平臺的搭建。熱衷於對金融數據架構與統計分析方法的研究,希望通過更多的交流拓寬工作和學習的思路。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cstrong\u003E— 完 —\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E關注清華-青島數據科學研究院官方微信公衆平臺“\u003Cstrong\u003ETHU數據派\u003C\u002Fstrong\u003E”及姊妹號“\u003Cstrong\u003E數據派THU\u003C\u002Fstrong\u003E”獲取更多講座福利及優質內容。\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E"'.slice(6, -6), groupId: '6719045536248234504
相關文章