支持向量机(SVM)原理小结(3)支持向量回归SVR

支持向量机(SVM)原理小结(3)支持向量回归SVR

SVM系列文章:

支持向量机(SVM)原理小结(1)线性支持向量机
支持向量机(SVM)原理小结(2)非线性支持向量机
支持向量机(SVM)原理小结(3)支持向量回归SVR

本博客中使用到的完整代码请移步至: 我的github:https://github.com/qingyujean/Magic-NLPer,求赞求星求鼓励~~~

  1. 支持向量回归(SVR)

传统回归问题例如线性回归中,一般使用模型f ( x ) = w ⋅ x + b f(x)=w\cdot x+b f (x )=w ⋅x +b的输出与真实值y y y的差别来计算损失,如 均方损失MSE,当f ( x ) f(x)f (x )与y y y完全一样时损失才为0。

而SVR假设能容忍$f(x)$和$y$之间最多由ϵ \epsilon ϵ 的偏差,即∣ f ( x ) − y ∣ > ϵ |f(x)-y|>\epsilon ∣f (x )−y ∣>ϵ 时才计算损失。这相当于以f ( x ) = w ⋅ x + b f(x)=w\cdot x+b f (x )=w ⋅x +b为中心,构建了一个宽度为2 ϵ 2\epsilon 2 ϵ的 间隔带(见下图), 如果训练样本落在间隔带内部,则认为预测正确,无损失

支持向量机(SVM)原理小结(3)支持向量回归SVR

则SVR问题可形式化为:

max ⁡ w , b 1 2 ∥ w ∥ 2 s.t. ∣ ( w ⋅ x i + b ) − y i ∣ ≤ ϵ , i = 1 , 2 , ⋯ , N \begin{array}{cl}\max\limits_{w,b}&\frac{1}{2}\|w\|^2\\text{s.t.}&|\left(w\cdot x_i+b\right)-y_i|\le \epsilon,\quad i=1,2,\cdots,N\end{array}w ,b max ​s.t.​2 1 ​∥w ∥2 ∣(w ⋅x i ​+b )−y i ​∣≤ϵ,i =1 ,2 ,⋯,N ​

对每个样本点( x i , y i ) (x_i,y_i)(x i ​,y i ​)引入一个松弛变量ξ i ≥ 0 \xi_i\ge0 ξi ​≥0,使得约束变为:∣ w ⋅ x + b − y i ∣ ≤ ϵ + ξ i |w\cdot x +b-y_i|\le\epsilon+\xi_i ∣w ⋅x +b −y i ​∣≤ϵ+ξi ​,同时对每个松弛变量支付一个代价ξ i \xi_i ξi ​( 这里的代价ξ i \xi_i ξi ​ ,其实就是不满足约束的程度:满足约束的即在间隔带内部的,代价为0;勉强满足约束的即点落在间隔带外边附近的,代价比较小,完全背离约束的即落在间隔带外边而且隔的很远,代价最大)。此时就得到如下的 约束最优化的原始问题:

min ⁡ w , b , ξ 1 2 ∥ w ∥ 2 + C ∑ i = 1 N ξ i s.t. ∣ ( w ⋅ x i + b ) − y i ∣ ≤ ϵ + ξ i ξ i ⩾ 0 , i = 1 , 2 , ⋯ , N \begin{array}{ll}\min\limits_{w, b, \xi} & \frac{1}{2}\|w\|^{2}+C \sum\limits_{i=1}^{N} \xi_{i} \\text { s.t. } & |\left(w\cdot x_i+b\right)-y_i|\le \epsilon+\xi_i \& \xi_{i} \geqslant 0, \quad i=1,2, \cdots, N\end{array}w ,b ,ξmin ​s.t.​2 1 ​∥w ∥2 +C i =1 ∑N ​ξi ​∣(w ⋅x i ​+b )−y i ​∣≤ϵ+ξi ​ξi ​⩾0 ,i =1 ,2 ,⋯,N ​

支持向量机(SVM)原理小结(3)支持向量回归SVR

若允许间隔带两侧的松弛程度不同,即进入2个松弛变量ξ i ≥ 0 , ξ ^ i ≥ 0 \xi_i\ge0,\hat\xi_i\ge0 ξi ​≥0 ,ξ^​i ​≥0,那么就得到如下的 约束最优化的原始问题:

min ⁡ w , b , ξ , ξ ^ i 1 2 ∥ w ∥ 2 + C ∑ i = 1 N ( ξ i + ξ ^ i ) s.t. ( w ⋅ x i + b ) − y i ⩽ ϵ + ξ i y i − ( w ⋅ x i + b ) ⩽ ϵ + ξ ^ i ξ i ⩾ 0 , ξ ^ i ⩾ 0 , i = 1 , 2 , ⋯ , N \begin{array}{ll}\min\limits_{w, b, \xi,\hat\xi_i} & \frac{1}{2}\|w\|^{2}+C \sum\limits_{i=1}^{N} (\xi_{i} +\hat\xi_{i}) \\text { s.t. } & \left(w \cdot x_{i}+b\right) -y_i\leqslant \epsilon+\xi_{i} \& y_i-\left(w \cdot x_{i}+b\right) \leqslant \epsilon+\hat\xi_{i} \& \xi_{i} \geqslant 0, \hat\xi_{i} \geqslant 0,\quad i=1,2, \cdots, N\end{array}w ,b ,ξ,ξ^​i ​min ​s.t.​2 1 ​∥w ∥2 +C i =1 ∑N ​(ξi ​+ξ^​i ​)(w ⋅x i ​+b )−y i ​⩽ϵ+ξi ​y i ​−(w ⋅x i ​+b )⩽ϵ+ξ^​i ​ξi ​⩾0 ,ξ^​i ​⩾0 ,i =1 ,2 ,⋯,N ​

; 1.1 学习算法—对偶形式

首先写出有约束最优化的 原始问题拉格朗日无约束优化函数

L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) ≡ 1 2 ∥ w ∥ 2 + C ∑ i = 1 N ( ξ i + ξ ^ i ) + ∑ i = 1 N α i ( w ⋅ x i + b − y i − ϵ − ξ i ) + ∑ i = 1 N α ^ i ( y i − ( w ⋅ x i + b ) − ϵ − ξ ^ i ) − ∑ i = 1 N μ i ξ i − ∑ i = 1 N μ ^ i ξ ^ i L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu) \equiv \frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{N} (\xi_{i}+\hat\xi_i)+\sum_{i=1}^{N} \alpha_{i}\left(w \cdot x_{i}+b-y_i-\epsilon-\xi_{i}\right)+\sum_{i=1}^{N} \hat\alpha_{i}\left(y_i-(w \cdot x_{i}+b)-\epsilon-\hat\xi_{i}\right)-\sum_{i=1}^{N} \mu_{i} \xi_{i}-\sum_{i=1}^{N} \hat\mu_{i} \hat\xi_{i}L (w ,b ,ξ,ξ^​,α,α^,μ,μ^​)≡2 1 ​∥w ∥2 +C i =1 ∑N ​(ξi ​+ξ^​i ​)+i =1 ∑N ​αi ​(w ⋅x i ​+b −y i ​−ϵ−ξi ​)+i =1 ∑N ​α^i ​(y i ​−(w ⋅x i ​+b )−ϵ−ξ^​i ​)−i =1 ∑N ​μi ​ξi ​−i =1 ∑N ​μ^​i ​ξ^​i ​

其中α i ≥ 0 , α ^ i ≥ 0 , μ i ≥ 0 , μ ^ i ≥ 0 , i = 1 , . . . , N \alpha_i\ge0,\hat\alpha_i\ge0,\mu_i\ge0,\hat\mu_i\ge0,i=1,…,N αi ​≥0 ,α^i ​≥0 ,μi ​≥0 ,μ^​i ​≥0 ,i =1 ,…,N,称为拉格朗日乘子。

约束最优化的原始问题可以表示为 拉格朗日极小极大问题:min ⁡ w , b , ξ , ξ ^ max ⁡ α , α ^ , μ , μ ^ L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) \min\limits_{w,b,\xi,\hat\xi}\max\limits_{\alpha,\hat\alpha,\mu,\hat\mu} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)w ,b ,ξ,ξ^​min ​α,α^,μ,μ^​max ​L (w ,b ,ξ,ξ^​,α,α^,μ,μ^​)。

由于L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)L (w ,b ,ξ,ξ^​,α,α^,μ,μ^​)和约束条件函数为连续可微的凸函数,且满足KKT条件,则原始问题的解与对偶问题的解是等价的,那么可以通过求解对偶问题来求解原始问题。

原始问题的 对偶问题 拉格朗日极大极小问题:max ⁡ α , α ^ , μ , μ ^ min ⁡ w , b , ξ , ξ ^ L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) \max\limits_{\alpha,\hat\alpha,\mu,\hat\mu}\min\limits_{w,b,\xi,\hat\xi} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)α,α^,μ,μ^​max ​w ,b ,ξ,ξ^​min ​L (w ,b ,ξ,ξ^​,α,α^,μ,μ^​)

(1)求 min ⁡ w , b , ξ , ξ ^ L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) \min\limits_{w,b,\xi,\hat\xi} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)w ,b ,ξ,ξ^​min ​L (w ,b ,ξ,ξ^​,α,α^,μ,μ^​)

将L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)L (w ,b ,ξ,ξ^​,α,α^,μ,μ^​)分别对w w w,b b b和ξ , ξ ^ \xi,\hat\xi ξ,ξ^​求偏导数,并令其等于0。

∇ w L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) = w + ∑ i = 1 N ( α i − α ^ i ) x i = 0 ∇ b L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) = ∑ i = 1 N ( α i − α ^ i ) = 0 ∇ ξ i L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) = C − α i − μ i = 0 ∇ ξ ^ i L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) = C − α ^ i − μ ^ i = 0 \nabla_{w} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)=w+\sum_{i=1}^{N} (\alpha_{i}-\hat\alpha_i) x_{i}=0 \\nabla_{b} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)=\sum_{i=1}^{N} (\alpha_{i}- \hat\alpha_{i})=0 \\nabla_{\xi_i} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)=C-\alpha_i-\mu_i=0 \\nabla_{\hat\xi_i} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)=C-\hat\alpha_i-\hat\mu_i=0 ∇w ​L (w ,b ,ξ,ξ^​,α,α^,μ,μ^​)=w +i =1 ∑N ​(αi ​−α^i ​)x i ​=0 ∇b ​L (w ,b ,ξ,ξ^​,α,α^,μ,μ^​)=i =1 ∑N ​(αi ​−α^i ​)=0 ∇ξi ​​L (w ,b ,ξ,ξ^​,α,α^,μ,μ^​)=C −αi ​−μi ​=0 ∇ξ^​i ​​L (w ,b ,ξ,ξ^​,α,α^,μ,μ^​)=C −α^i ​−μ^​i ​=0

w = ∑ i = 1 N ( α ^ i − α i ) x i ∑ i = 1 N ( α ^ i − α i ) = 0 C − α i − μ i = 0 C − α ^ i − μ ^ i = 0 w=\sum_{i=1}^{N}(\hat\alpha_i-\alpha_i)x_i\\sum_{i=1}^{N} (\hat\alpha_{i}- \alpha_{i})=0 \C-\alpha_i-\mu_i=0 \C-\hat\alpha_i-\hat\mu_i=0 w =i =1 ∑N ​(α^i ​−αi ​)x i ​i =1 ∑N ​(α^i ​−αi ​)=0 C −αi ​−μi ​=0 C −α^i ​−μ^​i ​=0

代入得

L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) = − 1 2 ∑ i = 1 N ∑ j = 1 N ( α ^ i − α i ) ( α ^ j − α j ) ( x i ⋅ x j ) + ∑ i = 1 N y i ( α ^ i − α i ) − ϵ ( α ^ i + α i ) \begin{aligned}L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu) =&-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} (\hat\alpha_{i}-\alpha_i) (\hat\alpha_{j}-\alpha_j) \left(x_{i} \cdot x_{j}\right)\&+\sum_{i=1}^{N} y_i(\hat\alpha_{i}-\alpha_i)-\epsilon(\hat\alpha_i+\alpha_i)\end{aligned}L (w ,b ,ξ,ξ^​,α,α^,μ,μ^​)=​−2 1 ​i =1 ∑N ​j =1 ∑N ​(α^i ​−αi ​)(α^j ​−αj ​)(x i ​⋅x j ​)+i =1 ∑N ​y i ​(α^i ​−αi ​)−ϵ(α^i ​+αi ​)​

min ⁡ w , b , ξ , ξ ^ L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) = − 1 2 ∑ i = 1 N ∑ j = 1 N ( α ^ i − α i ) ( α ^ j − α j ) ( x i ⋅ x j ) + ∑ i = 1 N y i ( α ^ i − α i ) − ϵ ( α ^ i + α i ) \begin{aligned}\min_{w,b,\xi,\hat\xi}L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)=&-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} (\hat\alpha_{i}-\alpha_i) (\hat\alpha_{j}-\alpha_j) \left(x_{i} \cdot x_{j}\right)\&+\sum_{i=1}^{N} y_i(\hat\alpha_{i}-\alpha_i)-\epsilon(\hat\alpha_i+\alpha_i)\end{aligned}w ,b ,ξ,ξ^​min ​L (w ,b ,ξ,ξ^​,α,α^,μ,μ^​)=​−2 1 ​i =1 ∑N ​j =1 ∑N ​(α^i ​−αi ​)(α^j ​−αj ​)(x i ​⋅x j ​)+i =1 ∑N ​y i ​(α^i ​−αi ​)−ϵ(α^i ​+αi ​)​

(2)求 min ⁡ w , b , ξ , ξ ^ L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) \min\limits_{w,b,\xi,\hat\xi}L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)w ,b ,ξ,ξ^​min ​L (w ,b ,ξ,ξ^​,α,α^,μ,μ^​) 对 α , α ^ \alpha,\hat\alpha α,α^ 的极大,即对偶问题

max ⁡ α , α ^ − 1 2 ∑ i = 1 N ∑ j = 1 N ( α ^ i − α i ) ( α ^ j − α j ) ( x i ⋅ x j ) + ∑ i = 1 N y i ( α ^ i − α i ) − ϵ ( α ^ i + α i ) s.t. ∑ i = 1 N ( α ^ i − α i ) = 0 C − α i − μ i = 0 C − α ^ i − μ ^ i = 0 α i ⩾ 0 , α ^ i ⩾ 0 μ i ⩾ 0 , μ ^ i ⩾ 0 , i = 1 , 2 , ⋯ , N \begin{array}{ll}\max\limits_{\alpha,\hat\alpha} & -\frac{1}{2} \sum\limits_{i=1}^{N} \sum\limits_{j=1}^{N} (\hat\alpha_{i}-\alpha_i) (\hat\alpha_{j}-\alpha_j) \left(x_{i} \cdot x_{j}\right) \&+\sum\limits_{i=1}^{N} y_i(\hat\alpha_{i}-\alpha_i)-\epsilon(\hat\alpha_i+\alpha_i)\\text { s.t. } & \sum\limits_{i=1}^{N} (\hat\alpha_{i}- \alpha_{i})=0 \& C-\alpha_i-\mu_i=0 \&C-\hat\alpha_i-\hat\mu_i=0\& \alpha_{i} \geqslant 0,\hat\alpha_{i} \geqslant 0\& \mu_i \geqslant 0,\hat\mu_i \geqslant 0 , \quad i=1,2, \cdots, N\end{array}α,α^max ​s.t.​−2 1 ​i =1 ∑N ​j =1 ∑N ​(α^i ​−αi ​)(α^j ​−αj ​)(x i ​⋅x j ​)+i =1 ∑N ​y i ​(α^i ​−αi ​)−ϵ(α^i ​+αi ​)i =1 ∑N ​(α^i ​−αi ​)=0 C −αi ​−μi ​=0 C −α^i ​−μ^​i ​=0 αi ​⩾0 ,α^i ​⩾0 μi ​⩾0 ,μ^​i ​⩾0 ,i =1 ,2 ,⋯,N ​

等价于(利用等式C − α i − μ i = 0 C-\alpha_i-\mu_i=0 C −αi ​−μi ​=0和C − α ^ i − μ ^ i = 0 C-\hat\alpha_i-\hat\mu_i=0 C −α^i ​−μ^​i ​=0消去μ i \mu_i μi ​和μ ^ i \hat\mu_i μ^​i ​,并将求max转化为求min):

min ⁡ α , α ^ i 1 2 ∑ i = 1 N ∑ j = 1 N ( α ^ i − α i ) ( α ^ j − α j ) ( x i ⋅ x j ) − ∑ i = 1 N y i ( α ^ i − α i ) + ϵ ( α ^ i + α i ) s.t. ∑ i = 1 N ( α ^ i − α i ) = 0 0 ⩽ α i ⩽ C 0 ⩽ α ^ i ⩽ C , i = 1 , 2 , ⋯ , N \begin{array}{ll}\min\limits_{\alpha,\hat\alpha_i} & \frac{1}{2} \sum\limits_{i=1}^{N} \sum\limits_{j=1}^{N} (\hat\alpha_i-\alpha_{i}) (\hat\alpha_j-\alpha_{j})\left(x_{i} \cdot x_{j}\right)\&-\sum\limits_{i=1}^{N} y_i(\hat\alpha_{i}-\alpha_i)+\epsilon(\hat\alpha_i+\alpha_i) \\text { s.t. } & \sum\limits_{i=1}^{N} (\hat\alpha_{i}- \alpha_{i})=0 \& 0 \leqslant\alpha_{i} \leqslant C\& 0 \leqslant\hat\alpha_{i} \leqslant C, \quad i=1,2, \cdots, N\end{array}α,α^i ​min ​s.t.​2 1 ​i =1 ∑N ​j =1 ∑N ​(α^i ​−αi ​)(α^j ​−αj ​)(x i ​⋅x j ​)−i =1 ∑N ​y i ​(α^i ​−αi ​)+ϵ(α^i ​+αi ​)i =1 ∑N ​(α^i ​−αi ​)=0 0 ⩽αi ​⩽C 0 ⩽α^i ​⩽C ,i =1 ,2 ,⋯,N ​

上式即为 对偶最优化问题

对偶最优化问题对α , α ^ \alpha,\hat\alpha α,α^的解设为α ∗ , α ^ ∗ \alpha^,\hat\alpha^α∗,α^∗,那么原始问题最优化问题的解w ∗ , b ∗ w^,b^w ∗,b ∗也可求出。

即求得

w ∗ = ∑ i = 1 N ( α ^ i ∗ − α i ∗ ) x i w^=\sum_{i=1}^{N}(\hat\alpha_i^-\alpha_i^*)x_i w ∗=i =1 ∑N ​(α^i ∗​−αi ∗​)x i ​

任选一个α ∗ \alpha^α∗的分量α j ∗ \alpha_j^αj ∗​满足0 < α j ∗ < C 0 用来求b ∗ b^*b ∗(因为μ i = C − α i > 0 \mu_i=C-\alpha_i>0 μi ​=C −αi ​>0,而μ i ξ i = 0 \mu_i\xi_i=0 μi ​ξi ​=0,所以ξ i = 0 \xi_i=0 ξi ​=0):

b ∗ = y j + ϵ − ∑ i = 1 N ( α ^ i ∗ − α i ∗ ) ( x i ⋅ x j ) b^=y_j+\epsilon-\sum_{i=1}^{N}(\hat\alpha_i^-\alpha_i^*)(x_i\cdot x_j)b ∗=y j ​+ϵ−i =1 ∑N ​(α^i ∗​−αi ∗​)(x i ​⋅x j ​)

则最后的SVR模型可表示为:

∑ i = 1 N α i ∗ y i ( x ⋅ x i ) + b ∗ = 0 \sum_{i=1}^{N}\alpha_i^y_i(x\cdot x_i)+b^=0 i =1 ∑N ​αi ∗​y i ​(x ⋅x i ​)+b ∗=0

分类决策函数可以写成

f ( x ) = ∑ i = 1 N ( α ^ i ∗ − α i ∗ ) ( x i ⋅ x ) + b ∗ f(x)=\sum_{i=1}^{N}(\hat\alpha_i^-\alpha_i^)(x_i\cdot x)+b^*f (x )=i =1 ∑N ​(α^i ∗​−αi ∗​)(x i ​⋅x )+b ∗

对偶算法中,f ( x ) f(x)f (x )只依赖于输入x x x 和 训练样本x i x_i x i ​的内积,而上式称为 &#x7EBF;&#x6027;&#x652F;&#x6301;&#x5411;&#x91CF;&#x56DE;&#x5F52;&#x7684;&#x5BF9;&#x5076;&#x5F62;&#x5F0F;

1.2 核函数

考虑 &#x975E;&#x7EBF;&#x6027;&#x6620;&#x5C04;ϕ ( x ) \phi(x)ϕ(x )和 &#x6838;&#x51FD;&#x6570;K ( x , z ) K(x,z)K (x ,z ),则容易得到 &#x975E;&#x7EBF;&#x6027;&#x652F;&#x6301;&#x5411;&#x91CF;&#x56DE;&#x5F52;&#x7684;&#x5BF9;&#x5076;&#x5F62;&#x5F0F;

f ( x ) = ∑ i = 1 N ( α ^ i ∗ − α i ∗ ) K ( x , x i ) + b ∗ f(x)=\sum_{i=1}^{N}(\hat\alpha_i^-\alpha_i^)K(x,x_i)+b^*f (x )=i =1 ∑N ​(α^i ∗​−αi ∗​)K (x ,x i ​)+b ∗

其中K ( x , x i ) = ϕ ( x ) ⋅ ϕ ( x i ) K(x,x_i)=\phi(x)\cdot\phi(x_i)K (x ,x i ​)=ϕ(x )⋅ϕ(x i ​)为 &#x6838;&#x51FD;&#x6570;

1.3 支持向量

注意对偶问题中w ∗ w^w ∗的求解式:w ∗ = ∑ i = 1 N ( α ^ i ∗ − α i ∗ ) x i w^=\sum\limits_{i=1}^{N}(\hat\alpha_i^-\alpha_i^)x_i w ∗=i =1 ∑N ​(α^i ∗​−αi ∗​)x i ​,只有α ^ i ∗ − α i ∗ ≠ 0 \hat\alpha_i^-\alpha_i^\neq 0 α^i ∗​−αi ∗​​=0才对求解w ∗ w^w ∗有影响(保证了解的 &#x7A00;&#x758F;&#x6027;&#xFF0C;&#x6700;&#x7EC8;&#x6A21;&#x578B;&#x4EC5;&#x4E0E;&#x652F;&#x6301;&#x5411;&#x91CF;&#x6709;&#x5173;),所以满足α ^ i ∗ − α i ∗ ≠ 0 \hat\alpha_i^-\alpha_i^\neq 0 α^i ∗​−αi ∗​​=0的样本x i x_i x i ​ 就称为 &#x652F;&#x6301;&#x5411;&#x91CF;*

由KKT互补条件知,α i ( w ⋅ x i + b − y i − ϵ − ξ i ) = 0 \alpha_{i}\left(w \cdot x_{i}+b-y_i-\epsilon-\xi_{i}\right)=0 αi ​(w ⋅x i ​+b −y i ​−ϵ−ξi ​)=0,当α i > 0 \alpha_i>0 αi ​>0时,则一定有w ⋅ x i + b − y i − ϵ − ξ i = 0 w \cdot x_{i}+b-y_i-\epsilon-\xi_{i}=0 w ⋅x i ​+b −y i ​−ϵ−ξi ​=0,即w ⋅ x i + b − y i = ϵ + ξ i w \cdot x_{i}+b-y_i=\epsilon+\xi_{i}w ⋅x i ​+b −y i ​=ϵ+ξi ​,同理,如要α ^ i > 0 \hat\alpha_i>0 α^i ​>0,则一定有y i − ( w ⋅ x i + b ) − ϵ − ξ i = 0 y_i-(w \cdot x_{i}+b)-\epsilon-\xi_{i}=0 y i ​−(w ⋅x i ​+b )−ϵ−ξi ​=0,即y i − ( w ⋅ x i + b ) = ϵ + ξ i y_i-(w \cdot x_{i}+b)=\epsilon+\xi_{i}y i ​−(w ⋅x i ​+b )=ϵ+ξi ​。换言之,如若要α i \alpha_i αi ​和α ^ i \hat\alpha_i α^i ​不为0,当且仅当即实例x i x_i x i ​一定 &#x4E0D;&#x5728;ϵ − \epsilon-ϵ− &#x95F4;&#x9694;&#x5E26;&#x5185;&#x90E8;

此外,因为实例点一定在ϵ − \epsilon-ϵ−间隔带的某一侧,所以w ⋅ x i + b − y i − ϵ − ξ i = 0 w \cdot x_{i}+b-y_i-\epsilon-\xi_{i}=0 w ⋅x i ​+b −y i ​−ϵ−ξi ​=0和y i − ( w ⋅ x i + b ) − ϵ − ξ i = 0 y_i-(w \cdot x_{i}+b)-\epsilon-\xi_{i}=0 y i ​−(w ⋅x i ​+b )−ϵ−ξi ​=0不可能同时成立,所以α i 和 α ^ i \alpha_i和\hat\alpha_i αi ​和α^i ​中至少必有一个为0。

  1. 模型评价

SVM系列至此就介绍完了,这里对该模型做一个评价总结。评价内容摘自刘建平老师的支持向量机原理(五)线性支持回归

SVM算法是一个很优秀的算法,在集成学习和神经网络之类的算法没有表现出优越性能前,SVM基本占据了分类模型的统治地位。目前则是在大数据时代的大样本背景下,SVM由于其在大样本时超级大的计算量,热度有所下降,但是仍然是一个常用的机器学习算法。

优点

  • 解决高维特征的分类问题和回归问题很有效,在特征维度大于样本数时依然有很好的效果。
  • 仅仅使用一部分支持向量来做超平面的决策,无需依赖全部数据。
  • 有大量的核函数可以使用,从而可以很灵活的来解决各种非线性的分类回归问题。
  • 样本量不是海量数据的时候,分类准确率高,泛化能力强。

缺点

  • 如果特征维度远远大于样本数,则SVM表现一般。
  • SVM在样本量非常大,核函数映射维度非常高时,计算量过大,不太适合使用。
  • 非线性问题的核函数的选择没有通用标准,难以选择一个合适的核函数。
  • SVM对缺失数据敏感。

完整代码地址

完整代码请移步至: 我的github:https://github.com/qingyujean/Magic-NLPer,求赞求星求鼓励~~~

&#x6700;&#x540E;&#xFF1A;&#x5982;&#x679C;&#x672C;&#x6587;&#x4E2D;&#x51FA;&#x73B0;&#x4EFB;&#x4F55;&#x9519;&#x8BEF;&#xFF0C;&#x8BF7;&#x60A8;&#x4E00;&#x5B9A;&#x8981;&#x5E2E;&#x5FD9;&#x6307;&#x6B63;&#xFF0C;&#x611F;&#x6FC0;~

参考

[1] 西瓜书-机器学习 周志华
[2] 支持向量机原理(五)线性支持回归 刘建平

Original: https://blog.csdn.net/u010366748/article/details/113066051
Author: 咕叽咕叽小菜鸟
Title: 支持向量机(SVM)原理小结(3)支持向量回归SVR

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/631426/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球