本文的作者是物理學家、數據科學教育者和作家 Benjamin Obi Tayo 博士,他的研究興趣在於數據科學、機器學習、AI、Python 和 R 語言、預測分析、材料科學和生物物理學。

本文作者 Benjamin Obi Tayo。

數據科學和機器學習離不開數學

如果你是一個數據科學愛好者,則大概會產生以下兩個疑問:

我幾乎沒有數學背景,那麼能成爲數據科學家嗎?

哪些基本的數學技能在數據科學中非常重要呢?

我們都知道,數據科學離不開各式各樣的擴展包。並且,現在有很多性能強大的包可以用來構建預測模型或者用來生成可視化數據。如下列舉了用於描述性和預測性分析的一些最常見包:

  • Ggplot2

  • Matplotlib

  • Seaborn

  • Scikit-learn

  • Caret

  • TensorFlow

  • PyTorch

  • Keras

得益於以上這些擴展包,任何人都可以構建模型或者生成可視化數據。但與此同時,要優化模型進而生成性能最佳的可靠模型,擁有強大的數學背景也是很有必要的。

也就是說,構建模型只是一方面,另一方面還需要對模型進行解釋,得出有意義的結論,這樣才能更好地做出數據驅動的決策。

最後,在使用這些包之前,你需要理解每個包中蘊含的數學基礎,這樣纔不會只把這些包當作黑盒工具(black-box tool)。

案例分析:構建一個多元迴歸模型

假設我們要構建一個多元迴歸模型,那麼需要事先問自己幾個問題:

  • 數據集有多大?

  • 特徵變量和目標變量是什麼?

  • 哪些預測特徵與目標變量關聯最大?

  • 哪些特徵比較重要?

  • 是否應該擴展特徵?

  • 數據集應該如何劃分成訓練集和測試集?

  • 主成分分析(principal component analysis, PCA)是什麼?

  • 是否應該使用 PCA 刪除多餘特徵?

  • 如何評估模型?用 R2 值、MSE 還是 MAE?

  • 如何提升模型的預測能力?

  • 是否使用正則化迴歸模型(regularized regression model)?

  • 迴歸係數是多少?

  • 截距是多少(intercept)?

  • 是否使用像 K 近鄰迴歸(KNeighbors regression)或者支持向量迴歸(support vector regression)這樣的無參數迴歸模型?

  • 模型中的超參數是多少?如何調整超參數使模型性能達到最佳?

很明顯,如果沒有良好的數學背景,你將無法解決上述問題。因此,在數據科學和機器學習中,數學技能和編程技能一樣重要,這很關鍵。

作爲一個數據科學的推崇者,投入時間來學習數據科學和機器學習中的理論基礎和數學基礎很有必要。毫不誇張地說,你所構建的可靠有效模型能否用於解決現實世界的問題,這也將取決於你的數學技能有多好。

接下來討論一下數據科學和機器學習中一些必要的數學技能。

數據科學和機器學習中必要的數學技能

數學包羅萬象,任何人都不可能門門精通。所以,在數據科學和機器學習研究中,我們可以根據自身所在的具體領域、手頭的具體工作或者使用的具體算法來有側重地學習對應的數學技能。

統計學與概率論

統計學和概率論可用於可視化變量、數據預處理、特徵變換、數據插補、降維、特徵工程和模型評估等等。

以下是需要熟悉的一些統計學與概率論概念:

平均數、中位數、衆數、標準差 / 方差;

相關係數和協方差矩陣、概率分佈(二項分佈、泊松分佈和正態分佈);

p 值、貝葉斯定理(精度、召回率、正預測值、負預測值、混淆矩陣和 ROC 曲線)、中心極限定理;

R_2 值、均方誤差(MSE)、A/B 測試、蒙特卡羅模擬。

多變量微積分(Multivariable Calculus)

大多數機器學習模型是使用包含幾種特徵或預測變量的數據集來構建的。因此,熟悉多變量微積分對於構建機器學習模型非常重要。

以下是你需要熟悉的多變量微積分數學概念:多元函數、導數和梯度、階躍函數;

Sigmoid 函數、Logit 函數、ReLU 函數、損失函數;

Plot 函數繪製、函數最小值和最大值。

線性代數

線性代數是機器學習中最重要的數學技能,一個數據集可以被表示爲一個矩陣。線性代數可用於數據預處理、數據轉換以及降維和模型評估。

以下是你需要熟悉的線性代數概念:向量、向量範數;

矩陣、矩陣的轉置、矩陣的逆、矩陣的行列式、矩陣的跡、點積、特徵值、特徵向量。

優化方法

大多數機器學習算法通過最小化目標函數的方法來執行預測建模。

以下是你需要熟悉的優化數學概念:

損失函數/目標函數、似然函數、誤差函數、梯度下降算法及其變體。

總之,作爲一個數據科學的推崇者,應該時刻謹記,理論基礎對構建有效可靠的模型至關重要。因此,你應該投入足夠的時間去研究每一種機器學習算法背後的數學理論。

原文鏈接:https://medium.com/towards-artificial-intelligence/how-much-math-do-i-need-in-data-science-d05d83f8cb19

相關文章