機器學習筆記(九)——手撕支持向量機之間隔、對偶、KKT條件詳細推導

摘要：如果想利用KKT條件處理此優化問題，需要利用拉格朗日乘子法將不等式約束、等式約束和目標函數合併寫成一個式子，如下：。對於我們所構造出的最優化問題明顯是屬於含不等式約束優化問題，關於拉格朗日函數的概念不過多介紹，下面介紹拉格朗日乘子法，並通過拉格朗日乘子法引出對偶問題和KKT條件。

↑ 點擊上方藍字" 奶糖貓 ",加個關注如何

SVM概述

支持向量機(SVM)是一種有監督的分類算法，並且它絕大部分處理的也是二分類問題，先通過一系列圖片瞭解幾個關於SVM的概念。

上圖中有橙色點和藍色點分別代表兩類標籤，如果想要將其分類，需要怎麼做呢？可能有的夥伴會想到上一篇文章講到的邏輯迴歸擬合決策邊界，這肯定是一種不錯的方法，本文所講的SVM也是可以解決這種分類問題的；既然都是分類算法，所以通過一個例子可以比對出二者的相同點和不同點。

可以看到，這裏給出了兩種劃分方式，就圖中實線而言，在邏輯迴歸中可以稱作決策邊界，而在SVM中它被稱爲超平面( hyperplane )。

上面例子中數據點都分佈在二維平面上，所以此時超平面就爲一條直線。如果給出的數據集是三、四、... 、N維呢？此時超平面對應的維度就是二、三、...、N-1維的，下圖展示了數據集多維時的超平面。

對於這個例子，可以將其準確分類的超平面可能有多個，其中具有最大間隔(兩條虛線之間的距離)的超平面就是SVM要找的最優解，這個最優解對應兩側虛線所穿過的樣本點，就是“支持向量( support vector )”,支持向量到超平面的距離被稱爲間隔( margin )，如下圖繪製標識。

我們利用SVM算法建模最後想要從衆多超平面中求解具有最大間隔的超平面，所以這也是一個最優化問題。

這裏需要了解一下最優化問題的兩個基本因素：

所以首先需要推導“超平面”的方程，二維空間內“超平面”的公式也就是直線方程，如下：

這裏將x變成x1，y變成x2的操作是爲了將其向量化：

最後將其整理成：

一般的向量爲列向量，所以這裏對進行了轉置，並且向量與我們所設直線是相互垂直的，只需要假定直線斜率a爲一個常數，繪圖即可證明，其中控制着直線的方向，b則控制着直線的位置，所以直線方程中需要改變和b使目標函數達到最優。

“間隔”就是圖中點到“超平面”的距離，公式如下：

其中d代表間隔，代表的是的二範數(模)，即對所有元素的平方和開平方：

建模的目標就是爲了找到最大間隔，其中最大間隔W=2d，只要W越大，則代表該模型分類的效果越好，最後也就變成了求解d最大化的問題。

針對上述我們所建分類器，當我們輸入數據給分類器時，它會返回一個類別標籤，這裏先規定藍色爲負樣本(-1)、紅色爲正樣本(+1)，我們可以得到一組公式，如果超平面能夠準確對圖中樣本點分類，則可得到以下公式：

上述公式可歸化成：

s.t.表示"subject to"即服從某種條件

這裏再回顧一下上面的最大間隔方程，求最大間隔的思想可以概括爲求 最小的 點到超平面的幾何距離的 最大化 。最小是爲了分類時不同類別都能夠得到準確分類，距離最大化則是爲了獲取”最大間隔“，以達到對分類器調優，公式如下：

如果我們希望最優的超平面的間隔的幾何距離爲,即所有樣本點到超平面的幾何距離至少爲，所以下面公式一定成立。

這裏將其設定爲1。可以這麼想，不論我們設定的是幾，將等式兩邊同時除以，和b的係數縮小了倍，但超平面是不動的，係數是可以同比例縮放的，可以類比直線方程。固定之後，可以得到以下公式：

這裏對做了一定處理，最大化和最小化是等價的，這樣做是爲了在進行最優化時對目標函數求導方便，對最優解沒有影響。

其中第一個公式爲我們的目標函數，第二公式也就是這個最優化問題中的約束條件，由於是一個凸函數，所以這個問題是凸優化問題。

最優化問題一般可分爲兩大類：無約束優化問題和約束優化問題，而約束優化問題又可分爲含等式約束優化問題和含不等式約束優化問題。

對於無約束優化問題，可以對函數求導，然後令其爲零，從候選值中選取最優值，並加以驗證；若函數爲凸函數，則可以保證是最優解。隨機梯度下降和批量梯度下降就是無約束優化方法。
對於含等式約束優化問題，常用的方法是利用拉格朗日乘子法將其轉化爲無約束優化問題求解。具體爲將約束條件和函數寫成一個函數，稱爲拉格朗日函數，係數爲拉格朗日乘子；通過拉格朗日函數對各個變量求導，令其爲零，從候選值中選取最優值，並加以驗證。
對於含不等式約束優化問題，主要通過KKT條件將其轉化成無約束優化問題求解。具體爲通過構建拉格朗日函數，在一些條件下求出最優值的必要條件，這個條件就是KKT條件。

A的必要條件就是A可以推出的結論

對於我們所構造出的最優化問題明顯是屬於含不等式約束優化問題，關於拉格朗日函數的概念不過多介紹，下面介紹拉格朗日乘子法，並通過拉格朗日乘子法引出對偶問題和KKT條件。