支持向量机(SVM)原理小结(3)支持向量回归SVR
- 1. 支持向量回归(SVR)
* - 1.1 学习算法—对偶形式
–- (1)求min w , b , ξ , ξ ^ L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) \min\limits_{w,b,\xi,\hat\xi} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)w ,b ,ξ,ξ^min L (w ,b ,ξ,ξ^,α,α^,μ,μ^)
- (2)求min w , b , ξ , ξ ^ L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) \min\limits_{w,b,\xi,\hat\xi}L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)w ,b ,ξ,ξ^min L (w ,b ,ξ,ξ^,α,α^,μ,μ^)对α , α ^ \alpha,\hat\alpha α,α^的极大,即对偶问题
- 1.2 核函数
- 1.3 支持向量
- 2. 模型评价
- 完整代码地址
- 参考
SVM系列文章:
支持向量机(SVM)原理小结(1)线性支持向量机
支持向量机(SVM)原理小结(2)非线性支持向量机
支持向量机(SVM)原理小结(3)支持向量回归SVR
本博客中使用到的完整代码请移步至: 我的github:https://github.com/qingyujean/Magic-NLPer,求赞求星求鼓励~~~
- 支持向量回归(SVR)
传统回归问题例如线性回归中,一般使用模型f ( x ) = w ⋅ x + b f(x)=w\cdot x+b f (x )=w ⋅x +b的输出与真实值y y y的差别来计算损失,如 均方损失MSE
,当f ( x ) f(x)f (x )与y y y完全一样时损失才为0。
而SVR假设能容忍$f(x)$和$y$之间最多由
ϵ \epsilon ϵ 的偏差,即
∣ f ( x ) − y ∣ > ϵ |f(x)-y|>\epsilon ∣f (x )−y ∣>ϵ 时才计算损失
。这相当于以f ( x ) = w ⋅ x + b f(x)=w\cdot x+b f (x )=w ⋅x +b为中心,构建了一个宽度为2 ϵ 2\epsilon 2 ϵ的 间隔带
(见下图), 如果训练样本落在间隔带内部,则认为预测正确,无损失
。
则SVR问题可形式化为:
max w , b 1 2 ∥ w ∥ 2 s.t. ∣ ( w ⋅ x i + b ) − y i ∣ ≤ ϵ , i = 1 , 2 , ⋯ , N \begin{array}{cl}\max\limits_{w,b}&\frac{1}{2}\|w\|^2\\text{s.t.}&|\left(w\cdot x_i+b\right)-y_i|\le \epsilon,\quad i=1,2,\cdots,N\end{array}w ,b max s.t.2 1 ∥w ∥2 ∣(w ⋅x i +b )−y i ∣≤ϵ,i =1 ,2 ,⋯,N
对每个样本点( x i , y i ) (x_i,y_i)(x i ,y i )引入一个松弛变量ξ i ≥ 0 \xi_i\ge0 ξi ≥0,使得约束变为:∣ w ⋅ x + b − y i ∣ ≤ ϵ + ξ i |w\cdot x +b-y_i|\le\epsilon+\xi_i ∣w ⋅x +b −y i ∣≤ϵ+ξi ,同时对每个松弛变量支付一个代价ξ i \xi_i ξi ( 这里的代价
ξ i \xi_i ξi ,其实就是不满足约束的程度
:满足约束的即在间隔带内部的,代价为0;勉强满足约束的即点落在间隔带外边附近的,代价比较小,完全背离约束的即落在间隔带外边而且隔的很远,代价最大)。此时就得到如下的 约束最优化的原始问题:
min w , b , ξ 1 2 ∥ w ∥ 2 + C ∑ i = 1 N ξ i s.t. ∣ ( w ⋅ x i + b ) − y i ∣ ≤ ϵ + ξ i ξ i ⩾ 0 , i = 1 , 2 , ⋯ , N \begin{array}{ll}\min\limits_{w, b, \xi} & \frac{1}{2}\|w\|^{2}+C \sum\limits_{i=1}^{N} \xi_{i} \\text { s.t. } & |\left(w\cdot x_i+b\right)-y_i|\le \epsilon+\xi_i \& \xi_{i} \geqslant 0, \quad i=1,2, \cdots, N\end{array}w ,b ,ξmin s.t.2 1 ∥w ∥2 +C i =1 ∑N ξi ∣(w ⋅x i +b )−y i ∣≤ϵ+ξi ξi ⩾0 ,i =1 ,2 ,⋯,N
若允许间隔带两侧的松弛程度不同,即进入2个松弛变量ξ i ≥ 0 , ξ ^ i ≥ 0 \xi_i\ge0,\hat\xi_i\ge0 ξi ≥0 ,ξ^i ≥0,那么就得到如下的 约束最优化的原始问题:
min w , b , ξ , ξ ^ i 1 2 ∥ w ∥ 2 + C ∑ i = 1 N ( ξ i + ξ ^ i ) s.t. ( w ⋅ x i + b ) − y i ⩽ ϵ + ξ i y i − ( w ⋅ x i + b ) ⩽ ϵ + ξ ^ i ξ i ⩾ 0 , ξ ^ i ⩾ 0 , i = 1 , 2 , ⋯ , N \begin{array}{ll}\min\limits_{w, b, \xi,\hat\xi_i} & \frac{1}{2}\|w\|^{2}+C \sum\limits_{i=1}^{N} (\xi_{i} +\hat\xi_{i}) \\text { s.t. } & \left(w \cdot x_{i}+b\right) -y_i\leqslant \epsilon+\xi_{i} \& y_i-\left(w \cdot x_{i}+b\right) \leqslant \epsilon+\hat\xi_{i} \& \xi_{i} \geqslant 0, \hat\xi_{i} \geqslant 0,\quad i=1,2, \cdots, N\end{array}w ,b ,ξ,ξ^i min s.t.2 1 ∥w ∥2 +C i =1 ∑N (ξi +ξ^i )(w ⋅x i +b )−y i ⩽ϵ+ξi y i −(w ⋅x i +b )⩽ϵ+ξ^i ξi ⩾0 ,ξ^i ⩾0 ,i =1 ,2 ,⋯,N
; 1.1 学习算法—对偶形式
首先写出有约束最优化的 原始问题的 拉格朗日无约束优化函数
:
L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) ≡ 1 2 ∥ w ∥ 2 + C ∑ i = 1 N ( ξ i + ξ ^ i ) + ∑ i = 1 N α i ( w ⋅ x i + b − y i − ϵ − ξ i ) + ∑ i = 1 N α ^ i ( y i − ( w ⋅ x i + b ) − ϵ − ξ ^ i ) − ∑ i = 1 N μ i ξ i − ∑ i = 1 N μ ^ i ξ ^ i L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu) \equiv \frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{N} (\xi_{i}+\hat\xi_i)+\sum_{i=1}^{N} \alpha_{i}\left(w \cdot x_{i}+b-y_i-\epsilon-\xi_{i}\right)+\sum_{i=1}^{N} \hat\alpha_{i}\left(y_i-(w \cdot x_{i}+b)-\epsilon-\hat\xi_{i}\right)-\sum_{i=1}^{N} \mu_{i} \xi_{i}-\sum_{i=1}^{N} \hat\mu_{i} \hat\xi_{i}L (w ,b ,ξ,ξ^,α,α^,μ,μ^)≡2 1 ∥w ∥2 +C i =1 ∑N (ξi +ξ^i )+i =1 ∑N αi (w ⋅x i +b −y i −ϵ−ξi )+i =1 ∑N α^i (y i −(w ⋅x i +b )−ϵ−ξ^i )−i =1 ∑N μi ξi −i =1 ∑N μ^i ξ^i
其中α i ≥ 0 , α ^ i ≥ 0 , μ i ≥ 0 , μ ^ i ≥ 0 , i = 1 , . . . , N \alpha_i\ge0,\hat\alpha_i\ge0,\mu_i\ge0,\hat\mu_i\ge0,i=1,…,N αi ≥0 ,α^i ≥0 ,μi ≥0 ,μ^i ≥0 ,i =1 ,…,N,称为拉格朗日乘子。
约束最优化的原始问题可以表示为 拉格朗日极小极大问题
:min w , b , ξ , ξ ^ max α , α ^ , μ , μ ^ L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) \min\limits_{w,b,\xi,\hat\xi}\max\limits_{\alpha,\hat\alpha,\mu,\hat\mu} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)w ,b ,ξ,ξ^min α,α^,μ,μ^max L (w ,b ,ξ,ξ^,α,α^,μ,μ^)。
由于L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)L (w ,b ,ξ,ξ^,α,α^,μ,μ^)和约束条件函数为连续可微的凸函数,且满足KKT条件,则原始问题的解与对偶问题的解是等价的,那么可以通过求解对偶问题来求解原始问题。
原始问题的 对偶问题是 拉格朗日极大极小问题
:max α , α ^ , μ , μ ^ min w , b , ξ , ξ ^ L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) \max\limits_{\alpha,\hat\alpha,\mu,\hat\mu}\min\limits_{w,b,\xi,\hat\xi} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)α,α^,μ,μ^max w ,b ,ξ,ξ^min L (w ,b ,ξ,ξ^,α,α^,μ,μ^)
(1)求 min w , b , ξ , ξ ^ L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) \min\limits_{w,b,\xi,\hat\xi} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)w ,b ,ξ,ξ^min L (w ,b ,ξ,ξ^,α,α^,μ,μ^)
将L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)L (w ,b ,ξ,ξ^,α,α^,μ,μ^)分别对w w w,b b b和ξ , ξ ^ \xi,\hat\xi ξ,ξ^求偏导数,并令其等于0。
∇ w L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) = w + ∑ i = 1 N ( α i − α ^ i ) x i = 0 ∇ b L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) = ∑ i = 1 N ( α i − α ^ i ) = 0 ∇ ξ i L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) = C − α i − μ i = 0 ∇ ξ ^ i L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) = C − α ^ i − μ ^ i = 0 \nabla_{w} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)=w+\sum_{i=1}^{N} (\alpha_{i}-\hat\alpha_i) x_{i}=0 \\nabla_{b} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)=\sum_{i=1}^{N} (\alpha_{i}- \hat\alpha_{i})=0 \\nabla_{\xi_i} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)=C-\alpha_i-\mu_i=0 \\nabla_{\hat\xi_i} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)=C-\hat\alpha_i-\hat\mu_i=0 ∇w L (w ,b ,ξ,ξ^,α,α^,μ,μ^)=w +i =1 ∑N (αi −α^i )x i =0 ∇b L (w ,b ,ξ,ξ^,α,α^,μ,μ^)=i =1 ∑N (αi −α^i )=0 ∇ξi L (w ,b ,ξ,ξ^,α,α^,μ,μ^)=C −αi −μi =0 ∇ξ^i L (w ,b ,ξ,ξ^,α,α^,μ,μ^)=C −α^i −μ^i =0
得
w = ∑ i = 1 N ( α ^ i − α i ) x i ∑ i = 1 N ( α ^ i − α i ) = 0 C − α i − μ i = 0 C − α ^ i − μ ^ i = 0 w=\sum_{i=1}^{N}(\hat\alpha_i-\alpha_i)x_i\\sum_{i=1}^{N} (\hat\alpha_{i}- \alpha_{i})=0 \C-\alpha_i-\mu_i=0 \C-\hat\alpha_i-\hat\mu_i=0 w =i =1 ∑N (α^i −αi )x i i =1 ∑N (α^i −αi )=0 C −αi −μi =0 C −α^i −μ^i =0
代入得
L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) = − 1 2 ∑ i = 1 N ∑ j = 1 N ( α ^ i − α i ) ( α ^ j − α j ) ( x i ⋅ x j ) + ∑ i = 1 N y i ( α ^ i − α i ) − ϵ ( α ^ i + α i ) \begin{aligned}L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu) =&-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} (\hat\alpha_{i}-\alpha_i) (\hat\alpha_{j}-\alpha_j) \left(x_{i} \cdot x_{j}\right)\&+\sum_{i=1}^{N} y_i(\hat\alpha_{i}-\alpha_i)-\epsilon(\hat\alpha_i+\alpha_i)\end{aligned}L (w ,b ,ξ,ξ^,α,α^,μ,μ^)=−2 1 i =1 ∑N j =1 ∑N (α^i −αi )(α^j −αj )(x i ⋅x j )+i =1 ∑N y i (α^i −αi )−ϵ(α^i +αi )
即
min w , b , ξ , ξ ^ L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) = − 1 2 ∑ i = 1 N ∑ j = 1 N ( α ^ i − α i ) ( α ^ j − α j ) ( x i ⋅ x j ) + ∑ i = 1 N y i ( α ^ i − α i ) − ϵ ( α ^ i + α i ) \begin{aligned}\min_{w,b,\xi,\hat\xi}L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)=&-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} (\hat\alpha_{i}-\alpha_i) (\hat\alpha_{j}-\alpha_j) \left(x_{i} \cdot x_{j}\right)\&+\sum_{i=1}^{N} y_i(\hat\alpha_{i}-\alpha_i)-\epsilon(\hat\alpha_i+\alpha_i)\end{aligned}w ,b ,ξ,ξ^min L (w ,b ,ξ,ξ^,α,α^,μ,μ^)=−2 1 i =1 ∑N j =1 ∑N (α^i −αi )(α^j −αj )(x i ⋅x j )+i =1 ∑N y i (α^i −αi )−ϵ(α^i +αi )
(2)求 min w , b , ξ , ξ ^ L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) \min\limits_{w,b,\xi,\hat\xi}L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)w ,b ,ξ,ξ^min L (w ,b ,ξ,ξ^,α,α^,μ,μ^) 对 α , α ^ \alpha,\hat\alpha α,α^ 的极大,即对偶问题
max α , α ^ − 1 2 ∑ i = 1 N ∑ j = 1 N ( α ^ i − α i ) ( α ^ j − α j ) ( x i ⋅ x j ) + ∑ i = 1 N y i ( α ^ i − α i ) − ϵ ( α ^ i + α i ) s.t. ∑ i = 1 N ( α ^ i − α i ) = 0 C − α i − μ i = 0 C − α ^ i − μ ^ i = 0 α i ⩾ 0 , α ^ i ⩾ 0 μ i ⩾ 0 , μ ^ i ⩾ 0 , i = 1 , 2 , ⋯ , N \begin{array}{ll}\max\limits_{\alpha,\hat\alpha} & -\frac{1}{2} \sum\limits_{i=1}^{N} \sum\limits_{j=1}^{N} (\hat\alpha_{i}-\alpha_i) (\hat\alpha_{j}-\alpha_j) \left(x_{i} \cdot x_{j}\right) \&+\sum\limits_{i=1}^{N} y_i(\hat\alpha_{i}-\alpha_i)-\epsilon(\hat\alpha_i+\alpha_i)\\text { s.t. } & \sum\limits_{i=1}^{N} (\hat\alpha_{i}- \alpha_{i})=0 \& C-\alpha_i-\mu_i=0 \&C-\hat\alpha_i-\hat\mu_i=0\& \alpha_{i} \geqslant 0,\hat\alpha_{i} \geqslant 0\& \mu_i \geqslant 0,\hat\mu_i \geqslant 0 , \quad i=1,2, \cdots, N\end{array}α,α^max s.t.−2 1 i =1 ∑N j =1 ∑N (α^i −αi )(α^j −αj )(x i ⋅x j )+i =1 ∑N y i (α^i −αi )−ϵ(α^i +αi )i =1 ∑N (α^i −αi )=0 C −αi −μi =0 C −α^i −μ^i =0 αi ⩾0 ,α^i ⩾0 μi ⩾0 ,μ^i ⩾0 ,i =1 ,2 ,⋯,N
等价于(利用等式C − α i − μ i = 0 C-\alpha_i-\mu_i=0 C −αi −μi =0和C − α ^ i − μ ^ i = 0 C-\hat\alpha_i-\hat\mu_i=0 C −α^i −μ^i =0消去μ i \mu_i μi 和μ ^ i \hat\mu_i μ^i ,并将求max转化为求min):
min α , α ^ i 1 2 ∑ i = 1 N ∑ j = 1 N ( α ^ i − α i ) ( α ^ j − α j ) ( x i ⋅ x j ) − ∑ i = 1 N y i ( α ^ i − α i ) + ϵ ( α ^ i + α i ) s.t. ∑ i = 1 N ( α ^ i − α i ) = 0 0 ⩽ α i ⩽ C 0 ⩽ α ^ i ⩽ C , i = 1 , 2 , ⋯ , N \begin{array}{ll}\min\limits_{\alpha,\hat\alpha_i} & \frac{1}{2} \sum\limits_{i=1}^{N} \sum\limits_{j=1}^{N} (\hat\alpha_i-\alpha_{i}) (\hat\alpha_j-\alpha_{j})\left(x_{i} \cdot x_{j}\right)\&-\sum\limits_{i=1}^{N} y_i(\hat\alpha_{i}-\alpha_i)+\epsilon(\hat\alpha_i+\alpha_i) \\text { s.t. } & \sum\limits_{i=1}^{N} (\hat\alpha_{i}- \alpha_{i})=0 \& 0 \leqslant\alpha_{i} \leqslant C\& 0 \leqslant\hat\alpha_{i} \leqslant C, \quad i=1,2, \cdots, N\end{array}α,α^i min s.t.2 1 i =1 ∑N j =1 ∑N (α^i −αi )(α^j −αj )(x i ⋅x j )−i =1 ∑N y i (α^i −αi )+ϵ(α^i +αi )i =1 ∑N (α^i −αi )=0 0 ⩽αi ⩽C 0 ⩽α^i ⩽C ,i =1 ,2 ,⋯,N
上式即为 对偶最优化问题
。
对偶最优化问题对α , α ^ \alpha,\hat\alpha α,α^的解设为α ∗ , α ^ ∗ \alpha^,\hat\alpha^α∗,α^∗,那么原始问题最优化问题的解w ∗ , b ∗ w^,b^w ∗,b ∗也可求出。
即求得
w ∗ = ∑ i = 1 N ( α ^ i ∗ − α i ∗ ) x i w^=\sum_{i=1}^{N}(\hat\alpha_i^-\alpha_i^*)x_i w ∗=i =1 ∑N (α^i ∗−αi ∗)x i
任选一个α ∗ \alpha^α∗的分量α j ∗ \alpha_j^αj ∗满足0 < α j ∗ < C 0 用来求b ∗ b^*b ∗(因为μ i = C − α i > 0 \mu_i=C-\alpha_i>0 μi =C −αi >0,而μ i ξ i = 0 \mu_i\xi_i=0 μi ξi =0,所以ξ i = 0 \xi_i=0 ξi =0):
b ∗ = y j + ϵ − ∑ i = 1 N ( α ^ i ∗ − α i ∗ ) ( x i ⋅ x j ) b^=y_j+\epsilon-\sum_{i=1}^{N}(\hat\alpha_i^-\alpha_i^*)(x_i\cdot x_j)b ∗=y j +ϵ−i =1 ∑N (α^i ∗−αi ∗)(x i ⋅x j )
则最后的SVR模型可表示为:
∑ i = 1 N α i ∗ y i ( x ⋅ x i ) + b ∗ = 0 \sum_{i=1}^{N}\alpha_i^y_i(x\cdot x_i)+b^=0 i =1 ∑N αi ∗y i (x ⋅x i )+b ∗=0
分类决策函数可以写成
f ( x ) = ∑ i = 1 N ( α ^ i ∗ − α i ∗ ) ( x i ⋅ x ) + b ∗ f(x)=\sum_{i=1}^{N}(\hat\alpha_i^-\alpha_i^)(x_i\cdot x)+b^*f (x )=i =1 ∑N (α^i ∗−αi ∗)(x i ⋅x )+b ∗
对偶算法中,f ( x ) f(x)f (x )只依赖于输入x x x 和 训练样本x i x_i x i 的内积,而上式称为 线性支持向量回归的对偶形式
。
1.2 核函数
考虑 非线性映射
ϕ ( x ) \phi(x)ϕ(x )和 核函数
K ( x , z ) K(x,z)K (x ,z ),则容易得到 非线性支持向量回归的对偶形式
:
f ( x ) = ∑ i = 1 N ( α ^ i ∗ − α i ∗ ) K ( x , x i ) + b ∗ f(x)=\sum_{i=1}^{N}(\hat\alpha_i^-\alpha_i^)K(x,x_i)+b^*f (x )=i =1 ∑N (α^i ∗−αi ∗)K (x ,x i )+b ∗
其中K ( x , x i ) = ϕ ( x ) ⋅ ϕ ( x i ) K(x,x_i)=\phi(x)\cdot\phi(x_i)K (x ,x i )=ϕ(x )⋅ϕ(x i )为 核函数
。
1.3 支持向量
注意对偶问题中w ∗ w^w ∗的求解式:w ∗ = ∑ i = 1 N ( α ^ i ∗ − α i ∗ ) x i w^=\sum\limits_{i=1}^{N}(\hat\alpha_i^-\alpha_i^)x_i w ∗=i =1 ∑N (α^i ∗−αi ∗)x i ,只有α ^ i ∗ − α i ∗ ≠ 0 \hat\alpha_i^-\alpha_i^\neq 0 α^i ∗−αi ∗=0才对求解w ∗ w^w ∗有影响(保证了解的 稀疏性,最终模型仅与支持向量有关
),所以满足α ^ i ∗ − α i ∗ ≠ 0 \hat\alpha_i^-\alpha_i^\neq 0 α^i ∗−αi ∗=0的样本x i x_i x i 就称为 支持向量
。*
由KKT互补条件知,α i ( w ⋅ x i + b − y i − ϵ − ξ i ) = 0 \alpha_{i}\left(w \cdot x_{i}+b-y_i-\epsilon-\xi_{i}\right)=0 αi (w ⋅x i +b −y i −ϵ−ξi )=0,当α i > 0 \alpha_i>0 αi >0时,则一定有w ⋅ x i + b − y i − ϵ − ξ i = 0 w \cdot x_{i}+b-y_i-\epsilon-\xi_{i}=0 w ⋅x i +b −y i −ϵ−ξi =0,即w ⋅ x i + b − y i = ϵ + ξ i w \cdot x_{i}+b-y_i=\epsilon+\xi_{i}w ⋅x i +b −y i =ϵ+ξi ,同理,如要α ^ i > 0 \hat\alpha_i>0 α^i >0,则一定有y i − ( w ⋅ x i + b ) − ϵ − ξ i = 0 y_i-(w \cdot x_{i}+b)-\epsilon-\xi_{i}=0 y i −(w ⋅x i +b )−ϵ−ξi =0,即y i − ( w ⋅ x i + b ) = ϵ + ξ i y_i-(w \cdot x_{i}+b)=\epsilon+\xi_{i}y i −(w ⋅x i +b )=ϵ+ξi 。换言之,如若要α i \alpha_i αi 和α ^ i \hat\alpha_i α^i 不为0,当且仅当即实例x i x_i x i 一定 不在
ϵ − \epsilon-ϵ− 间隔带内部
。
此外,因为实例点一定在ϵ − \epsilon-ϵ−间隔带的某一侧,所以w ⋅ x i + b − y i − ϵ − ξ i = 0 w \cdot x_{i}+b-y_i-\epsilon-\xi_{i}=0 w ⋅x i +b −y i −ϵ−ξi =0和y i − ( w ⋅ x i + b ) − ϵ − ξ i = 0 y_i-(w \cdot x_{i}+b)-\epsilon-\xi_{i}=0 y i −(w ⋅x i +b )−ϵ−ξi =0不可能同时成立,所以α i 和 α ^ i \alpha_i和\hat\alpha_i αi 和α^i 中至少必有一个为0。
- 模型评价
SVM系列至此就介绍完了,这里对该模型做一个评价总结。评价内容摘自刘建平老师的支持向量机原理(五)线性支持回归:
SVM算法是一个很优秀的算法,在集成学习和神经网络之类的算法没有表现出优越性能前,SVM基本占据了分类模型的统治地位。目前则是在大数据时代的大样本背景下,SVM由于其在大样本时超级大的计算量,热度有所下降,但是仍然是一个常用的机器学习算法。
优点:
- 解决高维特征的分类问题和回归问题很有效,在特征维度大于样本数时依然有很好的效果。
- 仅仅使用一部分支持向量来做超平面的决策,无需依赖全部数据。
- 有大量的核函数可以使用,从而可以很灵活的来解决各种非线性的分类回归问题。
- 样本量不是海量数据的时候,分类准确率高,泛化能力强。
缺点:
- 如果特征维度远远大于样本数,则SVM表现一般。
- SVM在样本量非常大,核函数映射维度非常高时,计算量过大,不太适合使用。
- 非线性问题的核函数的选择没有通用标准,难以选择一个合适的核函数。
- SVM对缺失数据敏感。
完整代码地址
完整代码请移步至: 我的github:https://github.com/qingyujean/Magic-NLPer,求赞求星求鼓励~~~
最后:如果本文中出现任何错误,请您一定要帮忙指正,感激~
参考
[1] 西瓜书-机器学习 周志华
[2] 支持向量机原理(五)线性支持回归 刘建平
Original: https://blog.csdn.net/u010366748/article/details/113066051
Author: 咕叽咕叽小菜鸟
Title: 支持向量机(SVM)原理小结(3)支持向量回归SVR
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/631426/
转载文章受原作者版权保护。转载请注明原作者出处!