【数据挖掘】十大算法之SVM支持向量机分类算法

2023年7月18日上午3:44 • 人工智能 • 阅读 43

1 基本概念
2 线性可分支持向量机
*
2.1 定义
2.2 相关概念
2.3 学习算法
4 线性支持向量机
*
4.1 软间隔最大化
4.2 线性支持向量机的原始最优化问题
4.3 线性支持向量机定义
4.4 线性支持向量机的对偶最优化问题
4.5 线性支持向量机学习算法
4.6 软间隔的支持向量
5 非线性支持向量机
*
5.1 基本概念
5.2 常用核函数
5.3 学习算法
6 算法改进—SMO算法
*
6.1 基本概念
6.2 算法思想
6.2 算法过程

1 基本概念

支持向量机(support vector machines,SVM)是一种二分类模型。分为

线性可分支持向量机：训练数据线性可分，通过硬间隔最大化学习一个线性的分类器，又称为硬间隔支持向量机。
线性支持向量机：训练数据近似线性可分，通过软间隔最大化学习一个线性的分类器，又称为软间隔支持向量机。
非线性支持向量机：训练数据线性不可分，通过核技巧及软间隔最大化，学习非线性支持向量机。(核技巧：当输入空间为欧式空间或离散集合、特征空间为希尔伯特空间时，核函数表示将输入空间映射到特征空间得到的特征向量之间的内积。通过使用核函数，可以学习非线性支持向量机，等价于隐式地在高维的特征空间中学习线性支持向量机)

2 线性可分支持向量机

2.1 定义

给定线性可分训练数据集，通过间隔最大化或等价地求解相应的凸二次规划问题学习得到的分离超平面为
w ∗ ⋅ x + b ∗ = 0 (1) w^ \cdot x + b^ = 0\tag{1}w ∗⋅x +b ∗=0 (1 )
以及相应的分类决策函数
f ( x ) = s i g n ( w ∗ ⋅ x + b ∗ ) (2) f(x) = sign(w^ \cdot x +b^)\tag{2}f (x )=s i g n (w ∗⋅x +b ∗)(2 )
称为线性可分支持向量机。

2.2 相关概念

（1）函数间隔

一个点距离超平面的远近可以表示分类预测的确信程度，即函数间隔来表述分类的正确性及确信度。

对于给定的训练数据集T和超平面(w,b)，定义超平面(w,b)关于样本点( x i , y i ) (x_i,y_i)(x i ,y i )的函数间隔为
γ ^ i = y i ( w ⋅ x i + b ) (3) \hat{\gamma } i = y_i(w \cdot x_i +b) \tag{3}γ^i =y i (w ⋅x i +b )(3 )
定义超平面(w,b)关于训练数据集T的函数间隔为超平面(w,b)关于T中所有样本点( x i , y i ) (x_i,y_i)(x i ,y i )的函数间隔之最小值，即
γ ^ = m i n i γ ^ i i = 1 , . . . , N (4) \hat{\gamma} = min{i}\hat{\gamma} _i ~~~ i = 1,…,N \tag{4}γ^=m i n i γ^i i =1 ,…,N (4 )

（2）几何间隔

在函数间隔的基础上，将点与超平面之间的间隔规范化。对分离超平面的法向量w w w取L2范数。表示为∣ ∣ w ∣ ∣ ||w||∣∣w ∣∣，使得超平面的两个参数成比例变化，间隔都是确定。

对于给定的训练数据集T和超平面(w,b)，定义超平面(w,b)关于样本点( x i , y i ) (x_i,y_i)(x i ,y i )的几何间隔为
γ ^ i = y i ( w ∣ ∣ w ∣ ∣ ⋅ x i + b ∣ ∣ w ∣ ∣ ) (5) \hat{\gamma } i = y_i(\frac{w}{||w||} \cdot x_i +\frac{b}{||w||}) \tag{5}γ^i =y i (∣∣w ∣∣w ⋅x i +∣∣w ∣∣b )(5 )
其中∣ ∣ w ∣ ∣ ||w||∣∣w ∣∣表示取w的L2范数。定义超平面(w,b)关于训练数据集T的几何间隔为超平面(w,b)关于T中所有样本点( x i , y i ) (x_i,y_i)(x i ,y i )的几何间隔之最小值，即
γ ^ = m i n i γ ^ i i = 1 , . . . , N (6) \hat{\gamma} = min{i}\hat{\gamma} _i ~~~ i = 1,…,N \tag{6}γ^=m i n i γ^i i =1 ,…,N (6 )

（3）间隔最大化

支持向量机学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。

间隔最大化：对训练数据集找到几何间隔最大的超平面，以充分大的确信度对训练数据进行分类。

（4）最大间隔法

输入：线性可分训练数据集T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T = {(x_1,y_1),(x_2,y_2),…,(x_N,y_N)}T ={(x 1 ,y 1 ),(x 2 ,y 2 ),…,(x N ,y N )}，其中x ∈ X = R n , y i ∈ Y = − 1 , + 1 , i = 1 , 2 , . . . , N x \in X = R^n,y_i \in Y = {-1,+1},i=1,2,…,N x ∈X =R n ,y i ∈Y =−1 ,+1 ,i =1 ,2 ,…,N

输出：最大间隔分离超平面和分类决策函数

a.构造并求解约束最优化问题
m i n w , b 1 2 ∣ ∣ w ∣ ∣ 2 s . t . y i ( w ⋅ x i + b ) − 1 ≥ 0 , i = 1 , 2 , . . , N (7) min_{w,b} \frac{1}{2}||w||^2 \ s.t. y_i(w \cdot x_i +b)-1 \geq 0,i=1,2,..,N \tag{7}m i n w ,b 2 1 ∣∣w ∣∣2 s .t .y i (w ⋅x i +b )−1 ≥0 ,i =1 ,2 ,..,N (7 )

求得最优解w ∗ , b ∗ w^,b^w ∗,b ∗

b.由此得到分离超平面
w ∗ ⋅ x + b ∗ = 0 (8) w^ \cdot x + b^ = 0\tag{8}w ∗⋅x +b ∗=0 (8 )
分类决策函数
f ( x ) = s i g n ( w ∗ ⋅ x + b ∗ ) (9) f(x) = sign(w^ \cdot x +b^) \tag{9}f (x )=s i g n (w ∗⋅x +b ∗)(9 )
注意：线性可分训练数据集的最大间隔分离超平面是存在且唯一的。

（5）支持向量

在线性可分的情况下，训练数据集的样本点中与分离超平面距离最近的样本点的实例称为支持向量。

对于y i y_i y i = +1 的正例点，支持向量在超平面
H 1 : w ⋅ x + b = 1 (10) H_1:w \cdot x+b = 1\tag{10}H 1 :w ⋅x +b =1 (1 0 )
对于y i y_i y i = -1 的负例点，支持向量在超平面
H 1 : w ⋅ x + b = − 1 (11) H_1:w \cdot x+b = -1\tag{11}H 1 :w ⋅x +b =−1 (1 1 )

（6）间隔边界

H 1 H_1 H 1 和H 2 H_2 H 2 平行，并且没有实例点落在它们中间。在H 1 H_1 H 1 与H 2 H_2 H 2 之间形成一条长带，分离超平面与他们平行且位于他们中央。长带的宽度，即H 1 H_1 H 1 与H 2 H_2 H 2 之间的距离称为间隔。间隔依赖于分离超平民啊的法向量w w w，等于2 ∣ ∣ w ∣ ∣ \frac{2}{||w||}∣∣w ∣∣2 。称为H 1 H_1 H 1 和H 2 H_2 H 2 称为间隔边界。

; 2.3 学习算法

（1）学习的原始算法

线性可分支持向量机学习的原始最优化问题
m i n w , b 1 2 ∣ ∣ w ∣ ∣ 2 s . t . y i ( w i ⋅ i + b ) − 1 ≥ 0 , i = 1 , 2 , . . . , N (12) min_{w,b} \frac{1}{2}||w||^2 \ s.t. \quad y_i(w_i \cdot_i+b)-1 \geq 0 ,i=1,2,…,N \tag{12}m i n w ,b 2 1 ∣∣w ∣∣2 s .t .y i (w i ⋅i +b )−1 ≥0 ,i =1 ,2 ,…,N (1 2 )
这是一个凸二次规划问题。

（2）学习的对偶算法

线性可分支持向量机的对偶算法

对偶算法：将原始最优化问题，应用拉格朗日对偶性，求解对偶问题得到原始问题的最优解。

与原始最优化问题等价的最优化问题：
m i n 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j ( x i ⋅ x j ) − ∑ i = 1 N α i s . t . ∑ i = 1 N α i y i = 0 α i ≥ 0 , i = 1 , 2 , . . . , N (13) min \frac{1}{2} \sum_{i=1}^N\sum_{j=1}^N \alpha_i \alpha_j y_i y_j(x_i \cdot x_j) – \sum_{i=1}^N \alpha_i \ s.t. \quad \sum_{i=1}^N \alpha_i y_i = 0\ \alpha _i \geq 0,i=1,2,…,N \tag{13}m i n 2 1 i =1 ∑N j =1 ∑N αi αj y i y j (x i ⋅x j )−i =1 ∑N αi s .t .i =1 ∑N αi y i =0 αi ≥0 ,i =1 ,2 ,…,N (1 3 )
其中α = ( α 1 , α 2 , . . . , α N ) T \alpha = (\alpha_1,\alpha_2,…,\alpha_N)^T α=(α1 ,α2 ,…,αN )T为朗格朗日乘子向量。

定理： 设α ∗ = ( α 1 ∗ , α 2 ∗ , . . . , α l ∗ ) \alpha^ = (\alpha_1^,\alpha_2^,…,\alpha_l^)α∗=(α1 ∗,α2 ∗,…,αl ∗)是以上公式13对偶最优化问题的解，则存在小标j，使得α j ∗ > 0 \alpha_j^ >0 αj ∗>0，并按下式求得原始最优化问题公式12的解w ∗ w^w ∗，b ∗ b^b ∗
w ∗ = ∑ i = 1 N α i ∗ y i x i b ∗ = y i − ∑ i = 1 N α i ∗ y i ( x i ⋅ x j ) (14) w^ = \sum_{i=1}^N \alpha_i^y_ix_i\ b^ = y_i – \sum_{i=1}^N\alpha_i^* y_i(x_i \cdot x_j) \tag{14}w ∗=i =1 ∑N αi ∗y i x i b ∗=y i −i =1 ∑N αi ∗y i (x i ⋅x j )(1 4 )

优点

对偶问题更容易求解
自然引入核函数，进而推广到非线性分类问题

4 线性支持向量机

4.1 软间隔最大化

假设给定一个特征空间上的训练数据集
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } (15) T = {(x_1,y_1),(x_2,y_2),…,(x_N,y_N)} \tag{15}T ={(x 1 ,y 1 ),(x 2 ,y 2 ),…,(x N ,y N )}(1 5 )
其中，x i ∈ X = R n , y i ∈ Y = { + 1 , − 1 } , i = 1 , 2 , . . , N , x i x_i \in X = R^n,y_i \in Y = {+1,-1},i=1,2,..,N,x_i x i ∈X =R n ,y i ∈Y ={+1 ,−1 },i =1 ,2 ,..,N ,x i 是第i个特征向量，y i y_i y i 为x i x_i x i 的类标记。

线性不可分意味着某些样本点( x i , y i ) (x_i,y_i)(x i ,y i )不能满足函数间隔大于等于1的约束条件公式12。软间隔最大化就是对每个样本点( x i , y i ) (x_i,y_i)(x i ,y i )引进一个松弛变量ξ ≥ 0 \xi \geq 0 ξ≥0，使函数间隔加上松弛变量大于等于1。公式12的约束条件就变为
y i ( w ⋅ x i + b ) ≥ 1 − ξ i (16) y_i (w \cdot x_i +b) \geq 1- \xi_i \tag{16}y i (w ⋅x i +b )≥1 −ξi (1 6 )

同时，对每个松弛变量ξ i \xi_i ξi ，支付一个代码ξ i \xi i ξi 。目标函数由原来的1 2 ∣ ∣ w ∣ ∣ 2 \frac{1}{2}||w||^2 2 1 ∣∣w ∣∣2变成
1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ i = 1 N ξ i (17) \frac{1}{2}||w||^2 +C \sum{i=1}{N} \xi _i \tag{17}2 1 ∣∣w ∣∣2 +C i =1 ∑N ξi (1 7 )
这里，C > 0 C >0 C >0称为惩罚参数，一般由问题决定，C值大时对误分裂的惩罚增大，反之。

这里的最小目标函数有两层含义

使得1 2 ∣ ∣ w ∣ ∣ 2 \frac{1}{2}||w||^2 2 1 ∣∣w ∣∣2尽量小，间隔尽量大。
使误分类的个数尽量小。C是调和二者的系数。

通过软间隔最大化，就能以线性可分的方式来处理线性不可分的线性支持向量机学习问题。

4.2 线性支持向量机的原始最优化问题

线性不可分的线性支持向量机的学习问题变成凸二次规划问题
m i n w , b . ξ 1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ i = 1 N ξ i s . t . y i ( w ⋅ x i + b ) ≥ 1 − ξ i , i = 1 , 2 , . . . , N ξ i ≥ 0 , i = 1 , 2 , . . , N (18) min_{w,b.\xi} \quad \frac{1}{2}||w||^2 +C\sum_{i=1}^N \xi _i\ s.t. \quad y_i(w \cdot x_i +b) \geq 1- \xi _i,i=1,2,…,N\ \xi _i \geq 0,i=1,2,..,N \tag{18}m i n w ,b .ξ2 1 ∣∣w ∣∣2 +C i =1 ∑N ξi s .t .y i (w ⋅x i +b )≥1 −ξi ,i =1 ,2 ,…,N ξi ≥0 ,i =1 ,2 ,..,N (1 8 )

4.3 线性支持向量机定义

对于给定的线性不可分的训练数据集，通过求解凸二次规划问题，即软间隔最大化问题，得到的分离超平面为
w ∗ ⋅ x + b ∗ = 0 (19) w^ \cdot x +b^ = 0 \tag{19}w ∗⋅x +b ∗=0 (1 9 )
以及相应的分类决策函数
f ( x ) = s i g n ( w ∗ ⋅ x + b ∗ ) (20) f(x) = sign(w^ \cdot x +b^) \tag{20}f (x )=s i g n (w ∗⋅x +b ∗)(2 0 )

称为线性支持向量机。

4.4 线性支持向量机的对偶最优化问题

m i n α 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j ( x i ⋅ x j ) − ∑ i = 1 N α i s . t . ∑ i = 1 N α i y i = 0 0 ≤ α i ≤ C , i = 1 , 2 , . . . , N (21) min_{\alpha} \frac{1}{2}\sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j(x_i \cdot x_j) – \sum_{i=1}^N \alpha_i\ s.t. \quad \sum_{i=1}^N\alpha_i y_i = 0\ 0 \leq \alpha_i \leq C,i=1,2,…,N \tag{21}m i n α2 1 i =1 ∑N j =1 ∑N αi αj y i y j (x i ⋅x j )−i =1 ∑N αi s .t .i =1 ∑N αi y i =0 0 ≤αi ≤C ,i =1 ,2 ,…,N (2 1 )

4.5 线性支持向量机学习算法

输入：训练数据集T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T = {(x_1,y_1),(x_2,y_2),…,(x_N,y_N)}T ={(x 1 ,y 1 ),(x 2 ,y 2 ),…,(x N ,y N )}其中，x i ∈ X = R n ， y i ∈ Y = { + 1 , − 1 } , i = 1 , 2 , . . . , N x_i \in X =R^n，y_i \in Y = {+1,-1},i=1,2,…,N x i ∈X =R n ，y i ∈Y ={+1 ,−1 },i =1 ,2 ,…,N

输出：分离超平面和分类决策函数

（1）选择惩罚参数C>0，构造并求解凸二次规划问题
m i n α 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j ( x i ⋅ x j ) − ∑ i = 1 N α i s . t . ∑ i = 1 N α i y i = 0 0 ≤ α i ≤ C , i = 1 , 2 , . . . , N (22) min_{\alpha} \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N \alpha_i \alpha_j y_i y_j(x_i \cdot x_j)-\sum_{i=1}^N \alpha_i\ s.t. \quad \sum_{i=1}^N \alpha_i y_i =0\ 0 \leq \alpha_i \leq C ,i = 1,2,…,N \tag{22}m i n α2 1 i =1 ∑N j =1 ∑N αi αj y i y j (x i ⋅x j )−i =1 ∑N αi s .t .i =1 ∑N αi y i =0 0 ≤αi ≤C ,i =1 ,2 ,…,N (2 2 )
求得最优解α ∗ = ( α 1 ∗ , α 2 ∗ , . . . , α N ∗ ) T \alpha^ = (\alpha^_1,\alpha^_2,…,\alpha^_N)^T α∗=(α1 ∗,α2 ∗,…,αN ∗)T

（2）计算w ∗ = ∑ i = 1 N α i ∗ y i x i w^ = \sum_{i=1}^N\alpha_i^ y_i x_i w ∗=∑i =1 N αi ∗y i x i

选择α ∗ \alpha^α∗的一个分量α j ∗ \alpha_j^αj ∗适合条件0 < α j ∗ < C 0，计算
b ∗ = y j − ∑ i = 1 N y i α i ∗ ( x i ⋅ x j ) (23) b^ =y_j-\sum_{i=1}^N y_i \alpha_i^(x_i \cdot x_j) \tag{23}b ∗=y j −i =1 ∑N y i αi ∗(x i ⋅x j )(2 3 )
（3）求得分离超平面
w ∗ ⋅ x + b ∗ = 0 (24) w^ \cdot x + b^ = 0 \tag{24}w ∗⋅x +b ∗=0 (2 4 )
分类决策函数
f ( x ) = s i g n ( s ∗ ⋅ x + b ∗ ) (25) f(x) = sign(s^ \cdot x +b^) \tag{25}f (x )=s i g n (s ∗⋅x +b ∗)(2 5 )

4.6 软间隔的支持向量

在线性不可分的情况下，对偶问题的解α ∗ = ( α 1 ∗ , α 2 ∗ , . . . , α N ∗ ) T \alpha^ = (\alpha_1^,\alpha_2^,…,\alpha_N^)^T α∗=(α1 ∗,α2 ∗,…,αN ∗)T中对应于α i ∗ > 0 \alpha_i^*>0 αi ∗>0的样本点( x i , y i ) (x_i,y_i)(x i ,y i )的实例称为软间隔的支持向量。图中标出了实例x i x_i x i 到间隔边界的距离ξ i ∣ ∣ w ∣ ∣ \frac{\xi_i}{||w||}∣∣w ∣∣ξi 。

若α i ∗ < C \alpha_i^*，则ξ i = 0 \xi_i = 0 ξi =0，支持向量x i x_i x i 恰好落在间隔边界上；

若α i ∗ = C ， 0 < ξ i < 0 \alpha_i^* = C ，0，则分类正确。x i x_i x i 在间隔边界与分离超平面之间；

若α i ∗ = C , ξ i = 1 \alpha_i^* = C,\xi_i = 1 αi ∗=C ,ξi =1，则x i x_i x i 在分离超平面上；

若α i ∗ = C , ξ i > 1 \alpha_i^* = C,\xi_i > 1 αi ∗=C ,ξi >1，则x i x_i x i 位于分离超平面上误分一侧。

; 5 非线性支持向量机

5.1 基本概念

（1）核技巧

用线性可分方法求解非线性分类问题。分为两步，第一步，使用一个变换将原空间的数据映射到新空间。第二步，在新空间用线性分类方法从训练数据中训练分类模型。

（2）核函数

输入X是输入空间（欧式空间R n R^n R n的子集或离散集合），又设H特征空间（希尔伯特空间，一个内积空间，当作为一个赋范向量空间是完备的时候），如果存在一个从X到H的映射
ϕ ( x ) : X → H (26) \phi(x) :X \rightarrow H \tag{26}ϕ(x ):X →H (2 6 )

使得对所有x , z ∈ X x,z \in X x ,z ∈X，函数K ( x , z ) K(x,z)K (x ,z )满足条件
K ( x , z ) = ϕ ( x ) ⋅ ( z ) (27) K(x,z) = \phi(x) \cdot(z) \tag{27}K (x ,z )=ϕ(x )⋅(z )(2 7 )
则称K ( x , z ) K(x,z)K (x ,z )为核函数，ϕ ( x ) \phi(x)ϕ(x )为映射函数，⋅ \cdot ⋅表示内积。

（3）非线性支持向量机的定义

从非线性分类训练集，通过核函数与软间隔最大化，或凸二次规划，学习得到的分类决策函数
f ( x ) = s i g n ( ∑ i = 1 N α i ∗ y i K ( x , x i ) + b ∗ ) (28) f(x) = sign(\sum_{i=1}^N \alpha_i^ y_i K(x,x_i)+b^) \tag{28}f (x )=s i g n (i =1 ∑N αi ∗y i K (x ,x i )+b ∗)(2 8 )
称为非线性支持向量机，K ( x , z ) K(x,z)K (x ,z )是正定核函数。

5.2 常用核函数

（1）多项式核函数
K ( x , z ) = ( x ⋅ z + 1 ) p (29) K(x,z) = (x \cdot z+1)^p \tag{29}K (x ,z )=(x ⋅z +1 )p (2 9 )
对应的支持向量机是一个p次多项式分类器。此时，分类决策函数为
f ( x ) = s i g n ( ∑ i = 1 N s α i ∗ y i ( x i ⋅ x + 1 ) p + b ∗ ) (30) f(x) = sign(\sum_{i=1}^{N_s} \alpha_i ^ y_i(x_i \cdot x+1)^p +b^) \tag{30}f (x )=s i g n (i =1 ∑N s αi ∗y i (x i ⋅x +1 )p +b ∗)(3 0 )

（2）高斯核函数
K ( x , z ) = e x p ( − ∣ ∣ x − z ∣ ∣ 2 2 ρ 2 ) (31) K(x,z) = exp(-\frac{||x-z||^2}{2 \rho ^2}) \tag{31}K (x ,z )=e x p (−2 ρ2 ∣∣x −z ∣∣2 )(3 1 )
对应的支持向量机是高斯径向基函数分类器。此时，分类决策函数为
f ( x ) = s i g n ( ∑ i = 1 N s α i ∗ y i e x p ( − ∣ ∣ x − x i ∣ ∣ 2 2 ρ 2 ) + b ∗ ) (32) f(x) = sign(\sum_{i=1}^{N_s} \alpha_i^ y_i exp(-\frac{||x-x_i||^2}{2\rho ^2})+b^) \tag{32}f (x )=s i g n (i =1 ∑N s αi ∗y i e x p (−2 ρ2 ∣∣x −x i ∣∣2 )+b ∗)(3 2 )

（3）字符串核函数

两个字符串s和t上的字符串核函数是基于映射ϕ n \phi n ϕn 的特征空间中的内积：
k n ( s , t ) = ∑ u ∈ ∑ n [ ϕ n ( s ) ] u [ ϕ n ( t ) ] u = ∑ u ∈ s u m n ( i , j ) ∑ : s ( i ) = t ( j ) = u λ l ( i ) λ l ( j ) (33) k_n(s,t) = \sum{u \in \sum ^n}[\phi n(s)]_u[\phi _n(t)]_u\ = \sum{u \in sum^n(i,j)} \sum_{:s(i)=t(j)=u} \lambda^{l(i)\lambda^{l(j)}} \tag{33}k n (s ,t )=u ∈∑n ∑[ϕn (s )]u [ϕn (t )]u =u ∈s u m n (i ,j )∑:s (i )=t (j )=u ∑λl (i )λl (j )(3 3 )
字符串核函数k n ( s , t ) k_n(s,t)k n (s ,t )给出了字符串s和t中长度等于n的所有子串组成的特征想来那个的余弦相似度。

5.3 学习算法

输出：分类决策函数

（1）选取适当的核函数K(x,z)和适当的参数C，构造并求解最优化问题
m i n α 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j K ( x i , x j ) − ∑ i = 1 N α i s . t . ∑ i = 1 N α i y i = 0 0 ≤ α i ≤ C , i = 1 , 2 , . . . , N (34) min_{\alpha} \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N \alpha_i \alpha_j y_i y_j K(x_i,x_j)-\sum_{i=1}^N \alpha_i\ s.t. \quad \sum_{i=1}^N \alpha_i y_i =0\ 0 \leq \alpha_i \leq C ,i = 1,2,…,N \tag{34}m i n α2 1 i =1 ∑N j =1 ∑N αi αj y i y j K (x i ,x j )−i =1 ∑N αi s .t .i =1 ∑N αi y i =0 0 ≤αi ≤C ,i =1 ,2 ,…,N (3 4 )
求得最优解α ∗ = ( α 1 ∗ , α 2 ∗ , . . . , α N ∗ ) T \alpha^ = (\alpha^_1,\alpha^_2,…,\alpha^_N)^T α∗=(α1 ∗,α2 ∗,…,αN ∗)T

（2）选择α ∗ \alpha^*α∗的一个正分量0 < α j ∗ < C 0 计算

选择α ∗ \alpha^α∗的一个分量α j ∗ \alpha_j^αj ∗适合条件0 < α j ∗ < C 0，计算
b ∗ = y j − ∑ i = 1 N y i α i ∗ K ( x i , x j ) (35) b^ =y_j-\sum_{i=1}^N y_i \alpha_i^K(x_i, x_j) \tag{35}b ∗=y j −i =1 ∑N y i αi ∗K (x i ,x j )(3 5 )
（3）构造决策函数
w ∗ ⋅ x + b ∗ = 0 (36) w^ \cdot x + b^ = 0 \tag{36}w ∗⋅x +b ∗=0 (3 6 )
分类决策函数
f ( x ) = s i g n ( ∑ i = 1 N α i ∗ y i K ( x , x i ) + b ∗ ) (37) f(x) = sign(\sum_{i=1}^N \alpha_i^ y_iK(x,x_i)+b^) \tag{37}f (x )=s i g n (i =1 ∑N αi ∗y i K (x ,x i )+b ∗)(3 7 )

当K(x,z)是正定核函数时，解是存在的。

6 算法改进—SMO算法

6.1 基本概念

支持向量机的学习问题可以形式化为求解凸二次规划问题。这样的凸二次规划问题具有全局最优解，并且有许多最优化算法可以应用于这一问题的求解。但是当训练样本容量很大时，这些算法往往变得非常低效，以致无法使用。序列最小最优化算法（Sequential minimal optimization，SMO）算法就是一种快速实现的算法。

6.2 算法思想

是一种启发式算法。思路是如果所有变量的解都满足此最优化问题的KKT条件(Karush-Kuhn-Tucker conditions)，那么这个最优化问题的解就得到了。因为KKT条件是该最优化问题的充分必要条件，否则，选择两个变量，固定其他变量，针对这两个变量构建一个二次规划问题。这个二次规划问题关于这两个变量的解应该更接近原始二次规划问题的解，因为这个会使得原始二次规划问题的目标函数值变得更小。更重要的是，这时子问题可以通过解析方法求解，这样可以大大提高整个算法的计算速度。子问题有两个变量，一个是违反KKT条件最严重的那一个，另一个由约束条件自动确定。如此，SMO算法将原问题不断分解为子问题并对子问题求解，进而达到求解原问题的目的。

整个SMO算法包括两个部分

求解两个变量二次规划的解析方法
选择变量的启发式方法。

6.2 算法过程

SMO算法要解如下凸二次规划的对偶问题
m i n α 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j K ( x i , x j ) − ∑ i = 1 N α i s . t . ∑ i = 1 N α i y i = 0 0 ≤ α i ≤ C , i = 1 , 2 , . . . , N (38) min_{\alpha} \quad \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N \alpha_i \alpha_j y_i y_j K(x_i,x_j)-\sum_{i=1}^N \alpha_i\ s.t. \quad \sum_{i=1}^N \alpha_i y_i =0\ 0 \leq \alpha_i \leq C ,i = 1,2,…,N \tag{38}m i n α2 1 i =1 ∑N j =1 ∑N αi αj y i y j K (x i ,x j )−i =1 ∑N αi s .t .i =1 ∑N αi y i =0 0 ≤αi ≤C ,i =1 ,2 ,…,N (3 8 )

变量是拉格朗日乘子，一个变量α i \alpha_i αi 对应于一个样本点( x i , y i ) (x_i,y_i)(x i ,y i )，变量的综述等于训练样本容量N。

不失一般性，假设选择的两个变量是α 1 , α 2 \alpha_1,\alpha_2 α1 ,α2 ，其他变量α i , i = 3 , 4 , . . . , N \alpha i, i=3,4,…,N αi ,i =3 ,4 ,…,N是固定的。于是SMO的最优化问题可写成
m i n α 1 ， α 2 W ( α 1 , α 2 ) = 1 2 K 11 α 1 2 + 1 2 K 22 α 2 2 + y i y j K 12 α 1 α 2 − ( α 1 + α 2 ) + y 1 α 1 ∑ i = 3 N y i α i K i 1 + y 2 α 2 ∑ i = 3 N y i α i K i 2 s . t . α 1 y 1 + α 2 y 2 = − ∑ i = 3 N α i y i = δ 0 ≤ α i ≤ C , i = 1 , 2 (39) min{\alpha_1，\alpha_2} \quad W(\alpha_1,\alpha_2) = \frac{1}{2}K_{11}\alpha_1^2 +\frac{1}{2}K_{22}\alpha_2^2 + y_i y_j K_{12}\alpha_1 \alpha_2 -(\alpha_1 +\alpha_2) +y_1 \alpha_1 \sum_{i=3}^N y_i \alpha_i K_{i1}+ y_2\alpha_2 \sum_{i=3}^N y_i \alpha_i K_{i2}\ s.t. \quad \alpha_1y_1 +\alpha_2y_2 = -\sum_{i=3}^N \alpha_i y_i = \delta \ 0 \leq \alpha_i \leq C ,i = 1,2 \tag{39}m i n α1 ，α2 W (α1 ,α2 )=2 1 K 1 1 α1 2 +2 1 K 2 2 α2 2 +y i y j K 1 2 α1 α2 −(α1 +α2 )+y 1 α1 i =3 ∑N y i αi K i 1 +y 2 α2 i =3 ∑N y i αi K i 2 s .t .α1 y 1 +α2 y 2 =−i =3 ∑N αi y i =δ0 ≤αi ≤C ,i =1 ,2 (3 9 )
其中，K i j − K ( x i , x j ) , i , j = 1 , 2 , . . . , N , δ K_{ij} – K(x_i,x_j),i,j=1,2,…,N,\delta K i j −K (x i ,x j ),i ,j =1 ,2 ,…,N ,δ是常数。

输出：近似解α ^ \hat{\alpha}α^

（1）取初值α ( 0 ) = 0 \alpha^{(0)} = 0 α(0 )=0，令k=0;

（2）选取优化变量α 1 k , α 2 k \alpha_1^{k},\alpha_2^k α1 k ,α2 k ，解析求解公式39的两个变量的最优化问题。求得最优解α 1 k + 1 , α 2 k + 1 \alpha_1^{k+1},\alpha_2^{k+1}α1 k +1 ,α2 k +1 ，更新α \alpha α为α k + 1 \alpha^{k+1}αk +1:

（3）若精度ϵ \epsilon ϵ 范围内满足停机条件
$$
\sum_{i=1}^N \alpha_i y_i = 0,0\leq \alpha_i \leq C,i=1,2,…,N\
y_i \cdot g(x_i) =\left{
\begin{matrix}
\geq 1 ,{x_i|\alpha_i = 0}\
= 1 ,{x_i|0

\right.

其中，
g ( x i ) = ∑ j = 1 N α j y j K ( x j , x i ) + b g(x_i) = \sum_{j=1}^N \alpha_j y_j K(x_j,x_i)+b g (x i )=j =1 ∑N αj y j K (x j ,x i )+b
则转第（4），否则令k=k+1,转第（2）

（4）取α ^ = α k + 1 \hat{\alpha} = \alpha^{k+1}α^=αk +1

Original: https://blog.csdn.net/weixin_43935696/article/details/125113964
Author: Better Bench
Title: 【数据挖掘】十大算法之SVM支持向量机分类算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/700063/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

从零使用TensorFlow搭建CNN（卷积）神经网络

🍅 写在前面👨‍🎓 博主介绍：大家好，这里是hyk写算法了吗，一枚致力于学习算法和人工智能领域的小菜鸟。🔎个人主页：主页链接（欢迎各位大佬光临指导）⭐️近期专栏：机器学习与深度学习…

人工智能 2023年7月27日
0051
生成式对抗网络GAN（一）—基于python实现

基于python实现生成式对抗网络GAN 构建和训练一个生成对抗网络(GAN) ，使其可以生成数字(0-9)的手写图像。学习目标从零开始构建GAN的生成器和判别器。创建GAN…

人工智能 2023年7月21日
0065
BERTopic：NLP主题模型的未来！

文| ZenMoore编| 小轶以前我一直以为，主题建模(提取文档的主题词)这种机器学习时代就开始研究的基础工具，现在肯定已经到头了，虽然…有时效果可能不是那么让人满…

人工智能 2023年6月15日
00103
pycharm安装opencv时 cv2无法补全但能运行

文章目录前言一、重新安装opencv_python和opencv_contrib_python 二、配置pycharm的项目解释器（project interpreter） *…

人工智能 2023年6月19日
0077
K-Means不同含量果汁饮料的聚类（聚类算法）

文章目录实验内容实验要求实验代码实验内容某企业通过采集企业自身流水线生产的一种果汁饮料含量的数据集，来实现K-Means算法。通过聚类以判断该果汁饮料在一定标准含量偏差下…

人工智能 2023年5月31日
0083
【文献调研】多模态生理信号的特征提取与特征融合

项目原因进行了一些调研，慢慢更新~ 文章目录多模态情绪识别研究综述 2020 * 多模态混合策略 – 数据级融合特征级融合决策级融合模型级融合多模态混合形式 …

人工智能 2023年6月15日
0059
Python员工离职数据分析

Python员工离职数据分析 import pandas as pd import seaborn as sns import matplotlib.pyplot as plt i…

人工智能 2023年7月9日
0054
《知识图谱》赵军学习笔记

一、概述狭义地讲，知识图谱是由谷歌公司首先提出，被互联网公司用来从语义角度组织网络数据，从而提供智能搜索服务的大型知识库。形式上，知识图谱是一个用图数据结构表示的知识载体，描…

人工智能 2023年6月1日
0059
算法对数据量的要求是什么

问题概述本问题关于算法对数据量的要求是什么。具体而言，我们将探讨算法原理、计算步骤，并通过一个复杂的Python代码示例来详细说明。算法原理算法对数据量的要求是指在给定的数据…

人工智能 2024年1月2日
0024
基于Windows环境下CPU和GPU版本Tensorflow详细安装过程

基于Windows环境下CPU和GPU版本Tensorflow详细安装过程一、Tensorflow简介 TensorFlow 是一个开源的、基于 Python 的机器学习框架，它…

人工智能 2023年5月24日
0069
Maven安装与配置教程

文章目录 * – 1 什么是Maven – + * 1.1 Maven概述 * 1.2 Maven的常用命令 – 2 怎么安装Maven &#8…

人工智能 2023年7月31日
0054
R语言可视化包ggplot2改变图例(legend)元素的大小实战：包含图例中标题字体、文本字体、标识模块（key）的大小

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月18日
00155
赶紧进来修内功!!! 详细讲解在内存中数据的存储方式(整形篇)

本文详细介绍了所有整形家族类型的取值范围;整形数据在内存中的存储方式(大小端存储方式)以及对应的解析,介绍讲解判断当前机器的存储方式代码练习题,掌握后编程基础更进一步牢固!!! 数…

人工智能 2023年5月30日
0086
[論文筆記] YOLOv2 (未完成)

### 回答1：尚硅谷的Vue2笔记是学习Vue技术的好帮手。这份笔记详细地介绍了Vue的基本概念和使用方法，包括Vue的属性、指令、事件、计算属性、过滤器、组件等等。通过阅读这…

人工智能 2023年7月12日
0043
极限学习机

注：下有视频讲解，可供参考单层前馈神经网络（SLFN）以其良好的学习能力在许多领域得到了广泛的应用，然而传统的学习算法，如BP等固有的一些缺点，成为制约其发展的主要瓶颈，前馈神经…

人工智能 2023年6月16日
0076
数据挖掘-关于分类问题样本不均衡的讨论

之前在看一些竞赛案例的时候遇到了样本不均衡的情况，尝试了不同的采样方式，效果也不是很好，所以在这篇文章讨论一下。 1、样本不均衡是不是必须要进行上采样/下采样 1.1 数据准备这…

人工智能 2023年7月3日
0081

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30