支持向量机（SVM）原理小结（3）支持向量回归SVR

2023年6月17日下午6:39 • 人工智能 • 阅读 68

支持向量机（SVM）原理小结（3）支持向量回归SVR

1. 支持向量回归（SVR）
*
1.1 学习算法—对偶形式
–
- （1）求min ⁡ w , b , ξ , ξ ^ L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) \min\limits_{w,b,\xi,\hat\xi} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)w ,b ,ξ,ξ^min L (w ,b ,ξ,ξ^,α,α^,μ,μ^)
- （2）求min ⁡ w , b , ξ , ξ ^ L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) \min\limits_{w,b,\xi,\hat\xi}L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)w ,b ,ξ,ξ^min L (w ,b ,ξ,ξ^,α,α^,μ,μ^)对α , α ^ \alpha,\hat\alpha α,α^的极大，即对偶问题
1.2 核函数
1.3 支持向量
2. 模型评价
完整代码地址
参考

SVM系列文章：

支持向量机（SVM）原理小结（1）线性支持向量机
 支持向量机（SVM）原理小结（2）非线性支持向量机
 支持向量机（SVM）原理小结（3）支持向量回归SVR

本博客中使用到的完整代码请移步至: 我的github：https://github.com/qingyujean/Magic-NLPer，求赞求星求鼓励~~~

支持向量回归（SVR）

传统回归问题例如线性回归中，一般使用模型f ( x ) = w ⋅ x + b f(x)=w\cdot x+b f (x )=w ⋅x +b的输出与真实值y y y的差别来计算损失，如 均方损失MSE，当f ( x ) f(x)f (x )与y y y完全一样时损失才为0。

而SVR假设能容忍$f(x)$和$y$之间最多由ϵ \epsilon ϵ 的偏差，即∣ f ( x ) − y ∣ > ϵ |f(x)-y|>\epsilon ∣f (x )−y ∣>ϵ 时才计算损失。这相当于以f ( x ) = w ⋅ x + b f(x)=w\cdot x+b f (x )=w ⋅x +b为中心，构建了一个宽度为2 ϵ 2\epsilon 2 ϵ的 间隔带（见下图）， 如果训练样本落在间隔带内部，则认为预测正确，无损失。

则SVR问题可形式化为：

max ⁡ w , b 1 2 ∥ w ∥ 2 s.t. ∣ ( w ⋅ x i + b ) − y i ∣ ≤ ϵ , i = 1 , 2 , ⋯ , N \begin{array}{cl}\max\limits_{w,b}&\frac{1}{2}\|w\|^2\\text{s.t.}&|\left(w\cdot x_i+b\right)-y_i|\le \epsilon,\quad i=1,2,\cdots,N\end{array}w ,b max s.t.2 1 ∥w ∥2 ∣(w ⋅x i +b )−y i ∣≤ϵ,i =1 ,2 ,⋯,N

对每个样本点( x i , y i ) (x_i,y_i)(x i ,y i )引入一个松弛变量ξ i ≥ 0 \xi_i\ge0 ξi ≥0，使得约束变为：∣ w ⋅ x + b − y i ∣ ≤ ϵ + ξ i |w\cdot x +b-y_i|\le\epsilon+\xi_i ∣w ⋅x +b −y i ∣≤ϵ+ξi ，同时对每个松弛变量支付一个代价ξ i \xi_i ξi （ 这里的代价ξ i \xi_i ξi ，其实就是不满足约束的程度：满足约束的即在间隔带内部的，代价为0；勉强满足约束的即点落在间隔带外边附近的，代价比较小，完全背离约束的即落在间隔带外边而且隔的很远，代价最大）。此时就得到如下的 约束最优化的原始问题：

min ⁡ w , b , ξ 1 2 ∥ w ∥ 2 + C ∑ i = 1 N ξ i s.t. ∣ ( w ⋅ x i + b ) − y i ∣ ≤ ϵ + ξ i ξ i ⩾ 0 , i = 1 , 2 , ⋯ , N \begin{array}{ll}\min\limits_{w, b, \xi} & \frac{1}{2}\|w\|^{2}+C \sum\limits_{i=1}^{N} \xi_{i} \\text { s.t. } & |\left(w\cdot x_i+b\right)-y_i|\le \epsilon+\xi_i \& \xi_{i} \geqslant 0, \quad i=1,2, \cdots, N\end{array}w ,b ,ξmin s.t.2 1 ∥w ∥2 +C i =1 ∑N ξi ∣(w ⋅x i +b )−y i ∣≤ϵ+ξi ξi ⩾0 ,i =1 ,2 ,⋯,N

若允许间隔带两侧的松弛程度不同，即进入2个松弛变量ξ i ≥ 0 , ξ ^ i ≥ 0 \xi_i\ge0,\hat\xi_i\ge0 ξi ≥0 ,ξ^i ≥0，那么就得到如下的 约束最优化的原始问题：

min ⁡ w , b , ξ , ξ ^ i 1 2 ∥ w ∥ 2 + C ∑ i = 1 N ( ξ i + ξ ^ i ) s.t. ( w ⋅ x i + b ) − y i ⩽ ϵ + ξ i y i − ( w ⋅ x i + b ) ⩽ ϵ + ξ ^ i ξ i ⩾ 0 , ξ ^ i ⩾ 0 , i = 1 , 2 , ⋯ , N \begin{array}{ll}\min\limits_{w, b, \xi,\hat\xi_i} & \frac{1}{2}\|w\|^{2}+C \sum\limits_{i=1}^{N} (\xi_{i} +\hat\xi_{i}) \\text { s.t. } & \left(w \cdot x_{i}+b\right) -y_i\leqslant \epsilon+\xi_{i} \& y_i-\left(w \cdot x_{i}+b\right) \leqslant \epsilon+\hat\xi_{i} \& \xi_{i} \geqslant 0, \hat\xi_{i} \geqslant 0,\quad i=1,2, \cdots, N\end{array}w ,b ,ξ,ξ^i min s.t.2 1 ∥w ∥2 +C i =1 ∑N (ξi +ξ^i )(w ⋅x i +b )−y i ⩽ϵ+ξi y i −(w ⋅x i +b )⩽ϵ+ξ^i ξi ⩾0 ,ξ^i ⩾0 ,i =1 ,2 ,⋯,N

; 1.1 学习算法—对偶形式

首先写出有约束最优化的 原始问题的 拉格朗日无约束优化函数：

L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) ≡ 1 2 ∥ w ∥ 2 + C ∑ i = 1 N ( ξ i + ξ ^ i ) + ∑ i = 1 N α i ( w ⋅ x i + b − y i − ϵ − ξ i ) + ∑ i = 1 N α ^ i ( y i − ( w ⋅ x i + b ) − ϵ − ξ ^ i ) − ∑ i = 1 N μ i ξ i − ∑ i = 1 N μ ^ i ξ ^ i L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu) \equiv \frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{N} (\xi_{i}+\hat\xi_i)+\sum_{i=1}^{N} \alpha_{i}\left(w \cdot x_{i}+b-y_i-\epsilon-\xi_{i}\right)+\sum_{i=1}^{N} \hat\alpha_{i}\left(y_i-(w \cdot x_{i}+b)-\epsilon-\hat\xi_{i}\right)-\sum_{i=1}^{N} \mu_{i} \xi_{i}-\sum_{i=1}^{N} \hat\mu_{i} \hat\xi_{i}L (w ,b ,ξ,ξ^,α,α^,μ,μ^)≡2 1 ∥w ∥2 +C i =1 ∑N (ξi +ξ^i )+i =1 ∑N αi (w ⋅x i +b −y i −ϵ−ξi )+i =1 ∑N α^i (y i −(w ⋅x i +b )−ϵ−ξ^i )−i =1 ∑N μi ξi −i =1 ∑N μ^i ξ^i

其中α i ≥ 0 , α ^ i ≥ 0 , μ i ≥ 0 , μ ^ i ≥ 0 , i = 1 , . . . , N \alpha_i\ge0,\hat\alpha_i\ge0,\mu_i\ge0,\hat\mu_i\ge0,i=1,…,N αi ≥0 ,α^i ≥0 ,μi ≥0 ,μ^i ≥0 ,i =1 ,…,N，称为拉格朗日乘子。

约束最优化的原始问题可以表示为 拉格朗日极小极大问题：min ⁡ w , b , ξ , ξ ^ max ⁡ α , α ^ , μ , μ ^ L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) \min\limits_{w,b,\xi,\hat\xi}\max\limits_{\alpha,\hat\alpha,\mu,\hat\mu} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)w ,b ,ξ,ξ^min α,α^,μ,μ^max L (w ,b ,ξ,ξ^,α,α^,μ,μ^)。

由于L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)L (w ,b ,ξ,ξ^,α,α^,μ,μ^)和约束条件函数为连续可微的凸函数，且满足KKT条件，则原始问题的解与对偶问题的解是等价的，那么可以通过求解对偶问题来求解原始问题。

原始问题的 对偶问题是 拉格朗日极大极小问题：max ⁡ α , α ^ , μ , μ ^ min ⁡ w , b , ξ , ξ ^ L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) \max\limits_{\alpha,\hat\alpha,\mu,\hat\mu}\min\limits_{w,b,\xi,\hat\xi} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)α,α^,μ,μ^max w ,b ,ξ,ξ^min L (w ,b ,ξ,ξ^,α,α^,μ,μ^)

（1）求 min ⁡ w , b , ξ , ξ ^ L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) \min\limits_{w,b,\xi,\hat\xi} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)w ,b ,ξ,ξ^min L (w ,b ,ξ,ξ^,α,α^,μ,μ^)

将L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)L (w ,b ,ξ,ξ^,α,α^,μ,μ^)分别对w w w,b b b和ξ , ξ ^ \xi,\hat\xi ξ,ξ^求偏导数，并令其等于0。

∇ w L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) = w + ∑ i = 1 N ( α i − α ^ i ) x i = 0 ∇ b L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) = ∑ i = 1 N ( α i − α ^ i ) = 0 ∇ ξ i L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) = C − α i − μ i = 0 ∇ ξ ^ i L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) = C − α ^ i − μ ^ i = 0 \nabla_{w} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)=w+\sum_{i=1}^{N} (\alpha_{i}-\hat\alpha_i) x_{i}=0 \\nabla_{b} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)=\sum_{i=1}^{N} (\alpha_{i}- \hat\alpha_{i})=0 \\nabla_{\xi_i} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)=C-\alpha_i-\mu_i=0 \\nabla_{\hat\xi_i} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)=C-\hat\alpha_i-\hat\mu_i=0 ∇w L (w ,b ,ξ,ξ^,α,α^,μ,μ^)=w +i =1 ∑N (αi −α^i )x i =0 ∇b L (w ,b ,ξ,ξ^,α,α^,μ,μ^)=i =1 ∑N (αi −α^i )=0 ∇ξi L (w ,b ,ξ,ξ^,α,α^,μ,μ^)=C −αi −μi =0 ∇ξ^i L (w ,b ,ξ,ξ^,α,α^,μ,μ^)=C −α^i −μ^i =0

得

w = ∑ i = 1 N ( α ^ i − α i ) x i ∑ i = 1 N ( α ^ i − α i ) = 0 C − α i − μ i = 0 C − α ^ i − μ ^ i = 0 w=\sum_{i=1}^{N}(\hat\alpha_i-\alpha_i)x_i\\sum_{i=1}^{N} (\hat\alpha_{i}- \alpha_{i})=0 \C-\alpha_i-\mu_i=0 \C-\hat\alpha_i-\hat\mu_i=0 w =i =1 ∑N (α^i −αi )x i i =1 ∑N (α^i −αi )=0 C −αi −μi =0 C −α^i −μ^i =0

代入得

L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) = − 1 2 ∑ i = 1 N ∑ j = 1 N ( α ^ i − α i ) ( α ^ j − α j ) ( x i ⋅ x j ) + ∑ i = 1 N y i ( α ^ i − α i ) − ϵ ( α ^ i + α i ) \begin{aligned}L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu) =&-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} (\hat\alpha_{i}-\alpha_i) (\hat\alpha_{j}-\alpha_j) \left(x_{i} \cdot x_{j}\right)\&+\sum_{i=1}^{N} y_i(\hat\alpha_{i}-\alpha_i)-\epsilon(\hat\alpha_i+\alpha_i)\end{aligned}L (w ,b ,ξ,ξ^,α,α^,μ,μ^)=−2 1 i =1 ∑N j =1 ∑N (α^i −αi )(α^j −αj )(x i ⋅x j )+i =1 ∑N y i (α^i −αi )−ϵ(α^i +αi )

即

min ⁡ w , b , ξ , ξ ^ L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) = − 1 2 ∑ i = 1 N ∑ j = 1 N ( α ^ i − α i ) ( α ^ j − α j ) ( x i ⋅ x j ) + ∑ i = 1 N y i ( α ^ i − α i ) − ϵ ( α ^ i + α i ) \begin{aligned}\min_{w,b,\xi,\hat\xi}L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)=&-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} (\hat\alpha_{i}-\alpha_i) (\hat\alpha_{j}-\alpha_j) \left(x_{i} \cdot x_{j}\right)\&+\sum_{i=1}^{N} y_i(\hat\alpha_{i}-\alpha_i)-\epsilon(\hat\alpha_i+\alpha_i)\end{aligned}w ,b ,ξ,ξ^min L (w ,b ,ξ,ξ^,α,α^,μ,μ^)=−2 1 i =1 ∑N j =1 ∑N (α^i −αi )(α^j −αj )(x i ⋅x j )+i =1 ∑N y i (α^i −αi )−ϵ(α^i +αi )

（2）求 min ⁡ w , b , ξ , ξ ^ L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) \min\limits_{w,b,\xi,\hat\xi}L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)w ,b ,ξ,ξ^min L (w ,b ,ξ,ξ^,α,α^,μ,μ^) 对 α , α ^ \alpha,\hat\alpha α,α^ 的极大，即对偶问题

max ⁡ α , α ^ − 1 2 ∑ i = 1 N ∑ j = 1 N ( α ^ i − α i ) ( α ^ j − α j ) ( x i ⋅ x j ) + ∑ i = 1 N y i ( α ^ i − α i ) − ϵ ( α ^ i + α i ) s.t. ∑ i = 1 N ( α ^ i − α i ) = 0 C − α i − μ i = 0 C − α ^ i − μ ^ i = 0 α i ⩾ 0 , α ^ i ⩾ 0 μ i ⩾ 0 , μ ^ i ⩾ 0 , i = 1 , 2 , ⋯ , N \begin{array}{ll}\max\limits_{\alpha,\hat\alpha} & -\frac{1}{2} \sum\limits_{i=1}^{N} \sum\limits_{j=1}^{N} (\hat\alpha_{i}-\alpha_i) (\hat\alpha_{j}-\alpha_j) \left(x_{i} \cdot x_{j}\right) \&+\sum\limits_{i=1}^{N} y_i(\hat\alpha_{i}-\alpha_i)-\epsilon(\hat\alpha_i+\alpha_i)\\text { s.t. } & \sum\limits_{i=1}^{N} (\hat\alpha_{i}- \alpha_{i})=0 \& C-\alpha_i-\mu_i=0 \&C-\hat\alpha_i-\hat\mu_i=0\& \alpha_{i} \geqslant 0,\hat\alpha_{i} \geqslant 0\& \mu_i \geqslant 0,\hat\mu_i \geqslant 0 , \quad i=1,2, \cdots, N\end{array}α,α^max s.t.−2 1 i =1 ∑N j =1 ∑N (α^i −αi )(α^j −αj )(x i ⋅x j )+i =1 ∑N y i (α^i −αi )−ϵ(α^i +αi )i =1 ∑N (α^i −αi )=0 C −αi −μi =0 C −α^i −μ^i =0 αi ⩾0 ,α^i ⩾0 μi ⩾0 ,μ^i ⩾0 ,i =1 ,2 ,⋯,N

等价于（利用等式C − α i − μ i = 0 C-\alpha_i-\mu_i=0 C −αi −μi =0和C − α ^ i − μ ^ i = 0 C-\hat\alpha_i-\hat\mu_i=0 C −α^i −μ^i =0消去μ i \mu_i μi 和μ ^ i \hat\mu_i μ^i ，并将求max转化为求min）：

min ⁡ α , α ^ i 1 2 ∑ i = 1 N ∑ j = 1 N ( α ^ i − α i ) ( α ^ j − α j ) ( x i ⋅ x j ) − ∑ i = 1 N y i ( α ^ i − α i ) + ϵ ( α ^ i + α i ) s.t. ∑ i = 1 N ( α ^ i − α i ) = 0 0 ⩽ α i ⩽ C 0 ⩽ α ^ i ⩽ C , i = 1 , 2 , ⋯ , N \begin{array}{ll}\min\limits_{\alpha,\hat\alpha_i} & \frac{1}{2} \sum\limits_{i=1}^{N} \sum\limits_{j=1}^{N} (\hat\alpha_i-\alpha_{i}) (\hat\alpha_j-\alpha_{j})\left(x_{i} \cdot x_{j}\right)\&-\sum\limits_{i=1}^{N} y_i(\hat\alpha_{i}-\alpha_i)+\epsilon(\hat\alpha_i+\alpha_i) \\text { s.t. } & \sum\limits_{i=1}^{N} (\hat\alpha_{i}- \alpha_{i})=0 \& 0 \leqslant\alpha_{i} \leqslant C\& 0 \leqslant\hat\alpha_{i} \leqslant C, \quad i=1,2, \cdots, N\end{array}α,α^i min s.t.2 1 i =1 ∑N j =1 ∑N (α^i −αi )(α^j −αj )(x i ⋅x j )−i =1 ∑N y i (α^i −αi )+ϵ(α^i +αi )i =1 ∑N (α^i −αi )=0 0 ⩽αi ⩽C 0 ⩽α^i ⩽C ,i =1 ,2 ,⋯,N

上式即为 对偶最优化问题。

对偶最优化问题对α , α ^ \alpha,\hat\alpha α,α^的解设为α ∗ , α ^ ∗ \alpha^,\hat\alpha^α∗,α^∗，那么原始问题最优化问题的解w ∗ , b ∗ w^,b^w ∗,b ∗也可求出。

即求得

w ∗ = ∑ i = 1 N ( α ^ i ∗ − α i ∗ ) x i w^=\sum_{i=1}^{N}(\hat\alpha_i^-\alpha_i^*)x_i w ∗=i =1 ∑N (α^i ∗−αi ∗)x i

任选一个α ∗ \alpha^α∗的分量α j ∗ \alpha_j^αj ∗满足0 < α j ∗ < C 0 用来求b ∗ b^*b ∗（因为μ i = C − α i > 0 \mu_i=C-\alpha_i>0 μi =C −αi >0，而μ i ξ i = 0 \mu_i\xi_i=0 μi ξi =0，所以ξ i = 0 \xi_i=0 ξi =0）：

b ∗ = y j + ϵ − ∑ i = 1 N ( α ^ i ∗ − α i ∗ ) ( x i ⋅ x j ) b^=y_j+\epsilon-\sum_{i=1}^{N}(\hat\alpha_i^-\alpha_i^*)(x_i\cdot x_j)b ∗=y j +ϵ−i =1 ∑N (α^i ∗−αi ∗)(x i ⋅x j )

则最后的SVR模型可表示为：

∑ i = 1 N α i ∗ y i ( x ⋅ x i ) + b ∗ = 0 \sum_{i=1}^{N}\alpha_i^y_i(x\cdot x_i)+b^=0 i =1 ∑N αi ∗y i (x ⋅x i )+b ∗=0

分类决策函数可以写成

f ( x ) = ∑ i = 1 N ( α ^ i ∗ − α i ∗ ) ( x i ⋅ x ) + b ∗ f(x)=\sum_{i=1}^{N}(\hat\alpha_i^-\alpha_i^)(x_i\cdot x)+b^*f (x )=i =1 ∑N (α^i ∗−αi ∗)(x i ⋅x )+b ∗

对偶算法中，f ( x ) f(x)f (x )只依赖于输入x x x 和训练样本x i x_i x i 的内积，而上式称为 线性支持向量回归的对偶形式。

1.2 核函数

考虑 非线性映射ϕ ( x ) \phi(x)ϕ(x )和 核函数K ( x , z ) K(x,z)K (x ,z )，则容易得到 非线性支持向量回归的对偶形式：

f ( x ) = ∑ i = 1 N ( α ^ i ∗ − α i ∗ ) K ( x , x i ) + b ∗ f(x)=\sum_{i=1}^{N}(\hat\alpha_i^-\alpha_i^)K(x,x_i)+b^*f (x )=i =1 ∑N (α^i ∗−αi ∗)K (x ,x i )+b ∗

其中K ( x , x i ) = ϕ ( x ) ⋅ ϕ ( x i ) K(x,x_i)=\phi(x)\cdot\phi(x_i)K (x ,x i )=ϕ(x )⋅ϕ(x i )为 核函数。

1.3 支持向量

注意对偶问题中w ∗ w^w ∗的求解式：w ∗ = ∑ i = 1 N ( α ^ i ∗ − α i ∗ ) x i w^=\sum\limits_{i=1}^{N}(\hat\alpha_i^-\alpha_i^)x_i w ∗=i =1 ∑N (α^i ∗−αi ∗)x i ，只有α ^ i ∗ − α i ∗ ≠ 0 \hat\alpha_i^-\alpha_i^\neq 0 α^i ∗−αi ∗=0才对求解w ∗ w^w ∗有影响（保证了解的 稀疏性，最终模型仅与支持向量有关），所以满足α ^ i ∗ − α i ∗ ≠ 0 \hat\alpha_i^-\alpha_i^\neq 0 α^i ∗−αi ∗=0的样本x i x_i x i 就称为 支持向量 。*

由KKT互补条件知，α i ( w ⋅ x i + b − y i − ϵ − ξ i ) = 0 \alpha_{i}\left(w \cdot x_{i}+b-y_i-\epsilon-\xi_{i}\right)=0 αi (w ⋅x i +b −y i −ϵ−ξi )=0，当α i > 0 \alpha_i>0 αi >0时，则一定有w ⋅ x i + b − y i − ϵ − ξ i = 0 w \cdot x_{i}+b-y_i-\epsilon-\xi_{i}=0 w ⋅x i +b −y i −ϵ−ξi =0，即w ⋅ x i + b − y i = ϵ + ξ i w \cdot x_{i}+b-y_i=\epsilon+\xi_{i}w ⋅x i +b −y i =ϵ+ξi ，同理，如要α ^ i > 0 \hat\alpha_i>0 α^i >0，则一定有y i − ( w ⋅ x i + b ) − ϵ − ξ i = 0 y_i-(w \cdot x_{i}+b)-\epsilon-\xi_{i}=0 y i −(w ⋅x i +b )−ϵ−ξi =0，即y i − ( w ⋅ x i + b ) = ϵ + ξ i y_i-(w \cdot x_{i}+b)=\epsilon+\xi_{i}y i −(w ⋅x i +b )=ϵ+ξi 。换言之，如若要α i \alpha_i αi 和α ^ i \hat\alpha_i α^i 不为0，当且仅当即实例x i x_i x i 一定 不在ϵ − \epsilon-ϵ− 间隔带内部。

此外，因为实例点一定在ϵ − \epsilon-ϵ−间隔带的某一侧，所以w ⋅ x i + b − y i − ϵ − ξ i = 0 w \cdot x_{i}+b-y_i-\epsilon-\xi_{i}=0 w ⋅x i +b −y i −ϵ−ξi =0和y i − ( w ⋅ x i + b ) − ϵ − ξ i = 0 y_i-(w \cdot x_{i}+b)-\epsilon-\xi_{i}=0 y i −(w ⋅x i +b )−ϵ−ξi =0不可能同时成立，所以α i 和 α ^ i \alpha_i和\hat\alpha_i αi 和α^i 中至少必有一个为0。

模型评价

SVM系列至此就介绍完了，这里对该模型做一个评价总结。评价内容摘自刘建平老师的支持向量机原理(五)线性支持回归：

SVM算法是一个很优秀的算法，在集成学习和神经网络之类的算法没有表现出优越性能前，SVM基本占据了分类模型的统治地位。目前则是在大数据时代的大样本背景下，SVM由于其在大样本时超级大的计算量，热度有所下降，但是仍然是一个常用的机器学习算法。

优点：

解决高维特征的分类问题和回归问题很有效，在特征维度大于样本数时依然有很好的效果。
仅仅使用一部分支持向量来做超平面的决策，无需依赖全部数据。
有大量的核函数可以使用，从而可以很灵活的来解决各种非线性的分类回归问题。
样本量不是海量数据的时候，分类准确率高，泛化能力强。

缺点：

如果特征维度远远大于样本数，则SVM表现一般。
SVM在样本量非常大，核函数映射维度非常高时，计算量过大，不太适合使用。
非线性问题的核函数的选择没有通用标准，难以选择一个合适的核函数。
SVM对缺失数据敏感。

完整代码地址

完整代码请移步至: 我的github：https://github.com/qingyujean/Magic-NLPer，求赞求星求鼓励~~~

最后：如果本文中出现任何错误，请您一定要帮忙指正，感激~

参考

[1] 西瓜书-机器学习周志华
[2] 支持向量机原理(五)线性支持回归刘建平

Original: https://blog.csdn.net/u010366748/article/details/113066051
Author: 咕叽咕叽小菜鸟
Title: 支持向量机（SVM）原理小结（3）支持向量回归SVR

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/631426/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Mysql整体介绍（适用于5.X版本）(下）（标贝科技）

Mysql整体介绍（适用于5.X版本）(下）（标贝科技）二、InnoDB介绍[9-11] InnoDB是Mysql取得成功的最关键的引擎，其重要性不言而喻，下面将单独对该引擎的核…

人工智能 2023年6月6日
0093
AI芯片的分类及应用

目前，人工智能芯片按照技术路线划分，主要分为GPU、FPGA以及ASIC三大类，三类芯片的特点如下表所示。 AI 芯片技术特点 GPU GPU称为图形处理器，它是显卡的核心单元，…

人工智能 2023年7月1日
0050
DiaKG：用于构建医学知识图谱的糖尿病标注数据集【命名实体识别（NER）和关系抽取（RE）】

原文：DiaKG: an Annotated Diabetes Dataset for Medical Knowledge Graph Construction 作者: Dejie…

人工智能 2023年6月1日
0070
＜人生重开模拟器＞——《Python项目实战》

目录 1.模拟实现 “人生重开模拟器” 1.1 问题导引： 1.2 问题分析： 2. 模拟实现分析及步骤： 3.完整源码： 4.写在最后的话：后记：●由于…

人工智能 2023年7月18日
0045
mmpose关键点（一）：评价指标（PCK,OKS,mAP）

由于，近期项目需要引入关键点做一些方向逻辑的判断，在此记录一些实验与经典论文方法。首先，我们先了解一下关键点估计的评价指标。 1.PCK – Percentage of…

人工智能 2023年7月9日
0090
NCCL基本介绍

前言调研一下NCCL，所以在这里记录一下。参考： NCCL DOCUMENTATIONNCCL Slide浅谈GPU通信和PCIe P2P DMA 简介 NCCL是NVIDIA…

人工智能 2023年7月23日
00189
R语言聚类分析之基于划分的聚类KMeans实战：基于葡萄酒数据

R语言聚类分析之基于划分的聚类KMeans实战：基于葡萄酒数据目录 R语言聚类分析之基于划分的聚类KMeans实战：基于葡萄酒数据 Original: https://blog….

人工智能 2023年6月2日
0072
Pandas基础命令速查表

前言最近发现写的关于python的博客慢慢有人在看，并且关注。突然觉得分享学习内容供大家参考是一件快乐的事情，虽然跟其他大博主相差太远，文章质量也不在一个level。但是还是想在这…

人工智能 2023年7月6日
0060
深度学习(三):yolov5环境配置及使用

目录 0 前言 1 环境配置 1.1 python环境 1.2 官方github的样例 1.2.1 打印检测结果 1.2.2 展示检测结果 2 运用detect.py进行检测 …

人工智能 2023年7月6日
0041
python valueerror object2_df.join（）遇到问题：ValueError：您正在尝试合并object和int64列…

这些问题都不能解决问题：问题1和问题2，我也无法在熊猫文档中找到答案。您好，我正在尝试查找此错误的根本原因： ValueError: You are trying to merg…

人工智能 2023年7月8日
0060
Bert不完全手册4. 绕开BERT的MASK策略？XLNET & ELECTRA

基于随机token MASK是Bert能实现双向上下文信息编码的核心。但是MASK策略本身存在一些问题 MASK的不一致性：MASK只在预训练任务中存在，在微调中不存在，Bert只…

人工智能 2023年6月4日
0095
gym如何搭建自己的环境

如何使用gym库来搭建自己的环境 1.创建自己的环境文件夹 1.1找到gym库的位置这里提供2种方法来寻找gym库： ①用anaconda或者miniconda安装：这种方法可…

人工智能 2023年6月24日
0057
Python中dataframe.groupby()根据数据属性对数据分组

对下面代码理解错误的选项是？ import pandas as pd import numpy as np data = {‘Name’: [‘语文’, ‘数学’, ‘语文’], …

人工智能 2023年7月9日
0062
Python数据分析案例08——预测泰坦尼克号乘员的生存(机器学习全流程)

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped …

人工智能 2023年6月2日
00113
【深度学习】pix2pix GAN理论及代码实现

目录 1.什么是pix2pix GAN 2.pix2pixGAN生成器的设计 3.pix2pixGAN判别器的设计 4.损失函数 5.代码实现 1.什么是pix2pix GAN P…

人工智能 2023年7月27日
0097
在PyTorch中，如何可视化神经网络模型的结构和训练过程

问题：如何在PyTorch中可视化神经网络模型的结构和训练过程？介绍：在机器学习任务中，了解神经网络模型的结构和训练过程对于理解模型的性能和调优是至关重要的。PyTorch是一…

人工智能 2024年1月2日
0040

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

支持向量机（SVM）原理小结（3）支持向量回归SVR

支持向量机（SVM）原理小结（3）支持向量回归SVR

; 1.1 学习算法—对偶形式

（1）求 min ⁡ w , b , ξ , ξ ^ L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) \min\limits_{w,b,\xi,\hat\xi} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)w ,b ,ξ,ξ^​min ​L (w ,b ,ξ,ξ^​,α,α^,μ,μ^​)

（2）求 min ⁡ w , b , ξ , ξ ^ L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) \min\limits_{w,b,\xi,\hat\xi}L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)w ,b ,ξ,ξ^​min ​L (w ,b ,ξ,ξ^​,α,α^,μ,μ^​) 对 α , α ^ \alpha,\hat\alpha α,α^ 的极大，即对偶问题

1.2 核函数

1.3 支持向量

大家都在看

（1）求 min ⁡ w , b , ξ , ξ ^ L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) \min\limits_{w,b,\xi,\hat\xi} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)w ,b ,ξ,ξ^min L (w ,b ,ξ,ξ^,α,α^,μ,μ^)

（2）求 min ⁡ w , b , ξ , ξ ^ L ( w , b , ξ , ξ ^ , α , α ^ , μ , μ ^ ) \min\limits_{w,b,\xi,\hat\xi}L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)w ,b ,ξ,ξ^min L (w ,b ,ξ,ξ^,α,α^,μ,μ^) 对 α , α ^ \alpha,\hat\alpha α,α^ 的极大，即对偶问题