學習機器學習，你需要了解這5點

文末掃碼領【機器學習思維導圖】

機器學習是一種數據分析技術，讓計算機執行人和動物與生俱來的活動：從經驗中學習，也被稱爲預測分析；本文作者分享了關於機器學習的流程以及實踐應用，我們一起來看一下。

我所理解的機器學習是一種能夠實現人工智能的技術，建立能從經驗中進行學習的模型，從而使這個模型可以達到自行處理此類數據的能力。

也可以理解爲：通過大量的數據，訓練出一個能處理此類數據的模型，使得這個模型可以根據已知的數據，準確率很高的判斷出未知的數據，從而使得人類能夠採取正確的方法去處理某些事情。

想要了解機器學習你需要知道以下幾點：

機器學習的流程

從實際的應用場景出發，要訓練出來一個能夠適應某場景的模型需要經過以下幾步：

1. 場景解析

場景解析就是將業務邏輯，抽象成爲通過算法能夠解決的問題。

比如：做一個心臟病預測系統，那麼就可以抽象爲二分類問題——要麼有心臟病，要麼沒有；然後，根據已有的數據看看有沒有目標值，可以判斷出：是監督學習還是無監督學習，還是半監督學習；從而，選擇出能夠處理好此類數據的算法。

（不同場景採用的算法是不同的）高頻的有以下幾種類型的場景：

分類場景：廣告投放預測，網站用戶點擊預測。

聚類場景：人羣劃分，產品種類劃分。

迴歸場景：商品購買量預測和股票成交額預測。

文本分析類場景：新聞的標籤提取，文本自動分類和文本關鍵信息抽取。

關係圖算法：社交網絡關係，網絡關係挖掘和金融風險控制。

模式識別：語音識別，圖像識別和手寫文字識別

2. 數據預處理

場景解析完，選擇適合處理此類數據的算法後，需要對數據進行預處理——就是對數據進行清洗工作，對空值、亂碼進行處理。

數據預處理的主要目的就是：減少噪音數據對訓練數據的影響。

3. 特徵工程

特徵工程是機器學習中最重要的一部分，因爲根據已有的訓練數據，可選用的算法是有限的；那麼在同樣的算法下特徵的選取是不同的，100個人對一件事情會有100種看法，也就有100種特徵，最後特徵的質量決定模型的好壞。

特徵工程需要做的包括：特徵抽象、特徵重要性的評估、特徵衍生、特徵降維。

4. 模擬訓練

在經過以上過成後，進入訓練模塊，生成模型。

5. 模型評估

對生成模型的成熟度進行評估。

6. 離線/在線服務

在實際運用過程中，需要配合調度系統來使用。

案例場景：每天將用戶當日新增的數據量流入數據庫表裏，通過調度系統啓用離線訓練服務，生成最新的離線模型，然後通過在線預測服務進行實時預測。

數據源結構

結構化數據：機構化數據是指以矩陣結構儲存的數據。

數據庫裏的數據就是以這種結構存在，可以通過二維結構來顯示，如下圖：

結構化數據中，有兩個重要的概念需要介紹一下：特徵列和目標列。

上圖裏age，sex，cp列都是特徵列，ifhealth是目標列。

非結構化數據：典型的非結構化數據是圖像、文本、語音等文件；這些數據不能以矩陣的結構儲存，目前的做法也是通過把非結構化的數據轉化爲二進制儲存格式。

半結構化數據：半結構化數據是指按照一定的結構儲存，但不一定是二維的數據庫行存儲形態的數據；還有一種是以二維數據形態儲存的，但某些字段是文本類型，某些字段是數值類型的，如下圖：

算法分類

監督學習：是指每個進入算法的訓練樣本數據都有對應的目標值。

如上圖所示，Ifhealth爲目標值。

常見的監督學習算法：

無監督學習：就是訓練樣本的數據裏沒有目標列，不依賴於打標好的機器學習算法。

那麼，這樣的數據可能對一些分類和迴歸的場景就不太適合了。

無監督學習主要是來解決一些聚類場景的問題。

半監督學習：

通過上面的監督學習和無監督學習的概念，再來看半監督學習就比較好理解了。

也就是說，訓練數據裏只有部分數據是打標的。目前，半監督學習的算法，都是監督學習算法的變形。

強化學習：

強化學習是一種比較複雜的機器學習種類。強調的是：系統與外界不斷的交換，獲得外界的反饋，然後決定自身的行爲。

如：無人駕駛，阿爾法狗下圍棋就是強化學習的應用。

過擬合問題

（欠擬合這裏不做詳細的介紹）

過擬合是數據挖掘（通過大量數據，訓練模型的過程也稱爲數據挖掘）領域中最常見的問題，是指：通過訓練集訓練了一個模型，這個模型對於訓練集的預測準確率很高，可以達到95%以上；但是換一份兒數據集進行預測，準確率大幅度下降。

出現這種情況的原因可能是：訓練的過擬合現象。

結果評估

機器學習最終的目的是 生成模型 。

模型生成後需要一些指標來評估這個模型的好壞。

常用到的概念有：精確率，召回率，F1值，ROC和AUC幾種。

首先介紹一下精確率，召回率和F1值，這3個指標是由：TP，TN，FP，FN這4個值計算而來的（這裏不做解釋了）。

精確率=TP/（TP+FP）
召回率=TP/（TP+FN）
F1=（2*精確率*召回率）/（精確率*召回率）

ROC曲線是常用的二分類場景的模型評估算法曲線，下圖齒狀弧形曲線就是ROC曲線。

如圖所示：

通過ROC曲線可以清晰的展示出來，只要模型曲線越來越接近左上角就說明模型的效果越好。

AUC的值是ROC與橫軸所圍起來的面積（圖中帶陰影的部分），這個AUC的值越大說明模型的效果越好。

AUC的值取0～1之間，通常大於0.5，當AUC的值大於0.9以上時，證明這個模型的效果比較好。

以上對機器學習的流程，和一些概念做了解釋，但距離真正可以上手操作還有很遠的距離；如非結構化數據和半結構化數據，如何轉化爲結構化數據？特徵抽象，特徵衍生，特徵降維如何操作？等等，實際的操作問題，接下來也會給大家分享。如果有幫助，別忘了點個再看~

學習機器學習，你需要了解這5點

特徵工程是機器學習中最重要的一部分，因爲根據已有的訓練數據，可選用的算法是有限的；那麼在同樣的算法下特徵的選取是不同的，100個人對一件事情會有100種看法，也就有100種特徵，最後特徵的質量決定模型的好壞。

對生成模型的成熟度進行評估。

在實際運用過程中，需要配合調度系統來使用。

熱門新聞

週熱門

學習機器學習，你需要了解這5點

特徵工程是機器學習中最重要的一部分，因爲根據已有的訓練數據，可選用的算法是有限的；那麼在同樣的算法下特徵的選取是不同的，100個人對一件事情會有100種看法，也就有100種特徵，最後特徵的質量決定模型的好壞。

對生成模型的成熟度進行評估。

在實際運用過程中，需要配合調度系統來使用。

雷軍2小時直播：沒收禮，沒帶貨！但漲粉近百萬，還說了SUV

爽文男主、冰冷40億，雷軍咋說？周鴻禕早上說換車，小鵬晚上送到360樓下；阿里被曝職場性騷擾；張核子首度回應核酸造假|| 大件事

對話騰訊文檔鄢賢卿：用六年時間自研專業能力，只是用戶思維的底座

扎克伯格最新採訪：Meta最強開源模型Llama 3憑什麼值百億美金

宜家推出“窮鬼套餐”；lululemon將推出史上最多男裝；珀萊雅營收破70億｜品牌日報

阿里京東走過最長的彎路：從爭奪商家到迴歸用戶

抖音商城版獨立APP上線，意欲何爲？

汽車街通過港交所聆訊：國內最大二手車交易服務商，騰訊、京東均爲股東

ChatGPT火了以後，一個值錢的運營，需要具備的6個能力

公司如何藉助GenAI推動創新

美團開啓年內第四次架構調整

“All in短劇”背後：上線一個月就能覆蓋成本？

華爲Pura 70系列來了

10000家芯片公司“死於”2023

AI遙感日漸升溫，商湯、珈和坐上加速器

熱門新聞

週熱門