MPai数据科学平台 SVM支持向量机分类回归 参数调整讲解

C: 惩罚系数,用来控制损失函数的惩罚系数,类似于LR中的正则化系数。C越大,相当于惩罚松弛变量,希望松弛变量接近0,即对误分类的惩罚增大,趋向于对训练集全分对的情况,这样会出现训练集测试时准确率很高,但泛化能力弱,容易导致过拟合。 C值小,对误分类的惩罚减小,容错能力增强,泛化能力较强,但也可能欠拟合。

取值:【0,1】

核函数: 算法中采用的核函数类型,核函数是用来将非线性问题转化为线性问题的一种方法。

RBF核:高斯核函数就是在属性空间中找到一些点,这些点可以是也可以不是样本点,把这些点当做base,以这些base为圆心向外扩展,扩展半径即为带宽,即可划分数据。换句话说,在属性空间中找到一些超圆,用这些超圆来判定正反类。

线性核和多项式核:这两种核的作用也是首先在属性空间中找到一些点,把这些点当做base,核函数的作用就是找与该点距离和角度满足某种关系的样本点。当样本点与该点的夹角近乎垂直时,两个样本的欧式长度必须非常长才能保证满足线性核函数大于0;而当样本点与base点的方向相同时,长度就不必很长;而当方向相反时,核函数值就是负的,被判为反类。即,它在空间上划分出一个梭形,按照梭形来进行正反类划分。

Sigmoid核:同样地是定义一些base,核函数就是将线性核函数经过一个tanh函数进行处理,把值域限制在了-1到1上。

总之,都是在定义距离,大于该距离,判为正,小于该距离,判为负。至于选择哪一种核函数,要根据具体的样本分布情况来确定。

取值:RBF, Linear, Poly, Sigmoid

核函数系数:参数是rbf ,poly 和sigmoid 的内核系数;默认是’auto’,那么将会使用特征位数的倒数,即1 / n_features 。(即核函数的带宽,超圆的半径)。gamma 越大,σ越小,使得高斯分布又高又瘦,造成模型只能作用于支持向量附近,可能导致过拟合;反之,gamma 越小,σ越大,高斯分布会过于平滑,在训练集上分类效果不佳,可能导致欠拟合,

‘auto’ 1 / n_features.

scale,1 / (n_features * X.var())

取值:’auto’、scale、 0 1]

Shrinking :是否进行启发式。如果能预知哪些变量对应着支持向量,则只要在这些样本上训练就够了,其他样本可不予考虑,这不影响训练结果,但降低了问题的规模并有助于迅速求解。进一步,如果能预知哪些变量在边界上(即a=C),则这些变量可保持不动,只对其他变量进行优化,从而使问题的规模更小,训练时间大大降低。这就是Shrinking 技术。Shrinking 技术基于这样一个事实:支持向量只占训练样本的少部分,并且大多数支持向量的拉格朗日乘子等于C 。

取值:是、否

残差收敛条件:默认是0.0001,即容忍1000分类里出现一个错误,与LR中的一致;误差项达到指定值时则停止训练。

取值:【0,+无穷】

最大迭代次数:默认没有限制。这个是硬限制,它的优先级要高于 残差收敛条件 参数,不论训练的标准和精度达到要求没有,都要停止训练。

取值: 【1,+无穷】

多分类融合策略

SVM本是二分类的分类算法,而由于其直逼神经网络的强大性能,因此也广被应用于多分类领域,这ovo和ovr就是多分类时需要进行选择的两种不同策略。

ovo:one versus one,一对一。即一对一的分类器,这时对K个类别需要构建K * (K – 1) / 2个分类器

ovr:one versus rest,一对其他,这时对K个类别只需要构建K个分类器

取值:ovo,ovr

Original: https://blog.csdn.net/qq_41686130/article/details/115713691
Author: Halosec_Wei
Title: MPai数据科学平台 SVM支持向量机分类回归 参数调整讲解

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/635294/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球