“老司機”劃重點！搞定這120個真實面試問題，殺進數據科學圈

直到今天，在各類媒體口中，數據科學家依然是“21世紀最性感的職業”。但事實上，希望進入這個行業的初級數據科學家已經供過於求。

可以預見的是，各種高校相關專業的畢業生，在完成coursera或者fast.ai的課程後，都希望得到一份跟“數據”相關的崗位。據統計，部分職位的供求比已經達到了1:200。

那麼，如何能在這條獨木橋上殺出重圍、脫引而出呢？

金三銀四求職季，江湖傳言在三月份和四月份找工作和跳槽成功的概率最大。不同於程序員這樣的純技術工種，求職成爲一名數據科學家似乎需要“上知天文，下知地理”。

畢竟，數據科學領域集成了多種不同元素，包括信號處理，數學，概率模型技術和理論，機器學習，計算機編程，統計學，數據工程，模式識別和學習，可視化，不確定性建模，數據倉庫，以及從數據中析取規律和產品的高性能計算。

今天文摘菌會給大家推薦一份數據科學麪試資料，資料收集了來自頂級技術公司的訪調員和數據科學家。從淺入深的囊括了溝通、數據分析、模型預測、編程、概率、產品指標等7個部分的共120個面試問題。

根據官方網站，這份資源由Max、Carl、Henry以及William四位合作編寫，這四位好基友都有數學科學以及數據分析的背景，也非常互補，也因此讓這份資料變得彌足珍貴。

這份資料，在官方網站上需要付19美元可以獲取完整版（包括問題和答案）。

先放上資料官網，非常需要的讀者請購買支持正版哦👇

https://www.datasciencequestions.com/

當然，如果你只是想了解這份資料的大概內容，或者測試一下自己是否掌握了數據科學家需要的知識，文摘菌在github上也找到了這份資料的縮略問題版，少部分概念以及定義性的問題有答案，對於開放性的問題，歡迎大家在留言區給出你的答案哦。

文摘菌精選了這份資料中的部分問題和答案，完整版戳下邊鏈接自取。

github地址：

https://github.com/kojino/120-Data-Science-Interview-Questions

溝通

1.向我解釋一個與你正在面試的角色相關的技術概念。

2.向我介紹你所熱愛的事情。

3.你會如何向沒有統計背景的工程師解釋A/B測試，線性迴歸呢？

A/B測試，也就是多變量測試，通過測試用戶的不同體驗，來確定哪種改變有助於企業更加有效地實現其目標（如增加轉換等）。它可以是網站上的文本信息，按鈕的顏色，不同的用戶界面，不同的電子郵件主題行，號召性用語，優惠等。

4.你會如何向沒有統計背景的工程師解釋置信區間以及95％的置信度的意思？

參考鏈接：https://www.quora.com/What-is-a-confidence-interval-in-laymans-terms

5.你會如何向一組高級管理人員解釋爲什麼數據很重要？

數據分析

1.給定一個數據集，分析這個數據集並告訴我你可以從中瞭解到什。

2.什麼是R2？可能比R2更好的指標有哪些，爲什麼？

答：擬合良好，是由該回歸/總方差解釋的那部分方差；你添加的預測變量越多，R^2越大；因而使用因自由度調整的R ^ 2；或着訓練誤差指標。

3.什麼是維度災難？

高維度使得聚類變得困難，因爲擁有大量維度意味着彼此相差很大。例如，爲了覆蓋一小部分數據，隨着變量數量的增加，我們需要處理每個範圍廣泛的變量；
所有樣本都靠近樣本的邊緣。這非常糟糕，因爲在訓練樣本的邊緣附近做出預測要更加困難；
隨着維度 p的增加，採樣密度呈指數下降，因此在沒有更多的數據量的情況下，該數據會變得更加稀疏；我們應該進行PCA分析以降低維度。

4.更多的數據就總是更好麼？

從統計來說，它取決於你的數據的質量，如果您的數據有偏差，獲取再多數據也毫無用處；它取決於你的模型。如果你的模型能夠承受高偏差，獲取更多數據不會太過明顯地提高你的測試結果。你需要添加更多特徵，或者做別的處理。從實戰來說，也需要在擁有更多數據和額外存儲，計算能力以及所需內存之間進行權衡。因此，始終要考慮擁有更多數據的成本。

5.分析數據之前繪製圖表有什麼好處？

數據集會有錯誤。你不會找到全部的錯誤，但你或許能夠找到其中的一些。比如那個212歲的男人以及那個9英尺高的女；變量會有偏度，異常值等。算術平均值可能用不了，這也意味着標準差用不了；變量可以是多峯的！如果變量是多峯的，那麼任何基於其的均值或着中位數的都是可疑的。

模型預測（19個問題）

1.給定一個數據集，分析這個數據集並給出一個可以預測這個響應變量的模型。

由擬合簡單的模型（多元迴歸，邏輯迴歸）開始，相應地選取一些特徵，然後嘗試一些複雜的模型。要始終將數據集拆分爲訓練集，驗證集和測試集並使用交叉驗證來觀察模型的表現；確定問題是分類問題還是迴歸問題；傾向於選用運行快速可以輕鬆解釋的簡單模型；提及交叉驗證作爲評估模型的一種方法；繪製圖表且將數據可視化。

2.如果測試數據的分佈與訓練數據的分佈明顯不同，可能會出現什麼問題？

訓練時具有高精度的模型在測試時可能具有較低的精度。在沒有進一步瞭解的情況下，很難知道哪個數據集代表了總體的數據，因而很難測量算法的泛化程度；
這應該可以通過重複劃分訓練集和測試集來緩解（如交叉驗證）；
當數據分佈發生變化時，稱爲數據集漂移。如果訓練數據和測試數據的分佈不同，分類器可能會過度擬合訓練數據。

3.有什麼方法可以讓我的模型對異常值的魯棒性更高？

我們可以使用L1或L2等正則化方法來減少方差（增加偏倚）。
算法的改變：1.使用基於樹的方法來代替迴歸方法，因爲它們更能忍受異常值。2.對於統計檢驗，使用非參數檢驗來代替參數檢驗。3.使用穩健的誤差指標，如MAE或Huber Loss，來代替MSE。
數據的改變：1.對數據進行winsorize處理2.轉換數據（如進行對數處理）3.只有在你確定它們是不值得預測的異常值時才刪除它們

4.與最小化誤差絕對值的模型相比，在最小化誤差平方的模型中，你認爲有哪些差異？每個誤差指標分別在哪種情況下合適？

MSE對異常值更加嚴格。在這個意義上MAE魯棒性更好，但也更難以擬合模型，因爲它無法在數值上進行優化。因此，當模型的可變性較小且在計算上容易擬合時，我們應該使用MAE，否則應該使用MSE。
MSE：更容易計算梯度
MAE：計算梯度需要線性編程MAE對異常值更加穩健。
如果較大錯誤造成的後果很嚴重，使用MSEMSE相當於最大化高斯隨機變量的可能性。

5.你會什麼誤差指標來評估二分類器的好壞？如果類別不平衡怎麼辦？如果超過2組怎麼辦？

準確性：你正確預測的情況的比例。優點：直觀，易於解釋，缺點：當類標籤不平衡且數據信號較弱時效果不。
AUROC：在x軸上繪製fpr，在y軸上繪製tpr以獲得不同的閾值。給定隨機正例和隨機負例，AUC是你能可以識別類別的概率。優點：在測試分類能力時效果很好，缺點：不能將預測解釋爲概率（因爲AUC由排名決定），因此無法解釋模型的不確定性。
logloss/deviance：優點：基於概率的誤差度量，缺點：對假陽性，假陰性非常敏感。當有超過2組時，我們可以使用k個二分類並將它們添加到logloss中。像AUC這樣的一些指標僅適用於二分類情況。

概率