【Ryo】SPSS Modeler:SVM支持向量机在分类判别中的应用

支持矢量机(SVM)是一项特别适合于广泛数据集的分类和回归技术。广泛数据集包含大量预测变量,例如可能会在生物信息学领域遇到(对生物化学数据和生物学数据应用信息技术)的预测变量。本文研究了一个包含大量人体细胞样本的特征的数据集,这些样本是从被认为可能会患上癌症的患者身上提取的。对原始数据的分析表明,良性样本与恶性样本之间的很多特征显著不同。目的在于开发一个SVM模型,使该模型可以使用其他患者样本中的这些细胞特征值尽早发现他们的样本是良性还是恶性。

研究模型软件日期SVM支持向量机SPSS Modeler2020年7月12日

△△△△△本文为个人项目练习,仅供参考,如有不足欢迎讨论 △△△△△

一、样本描述

本示例基于可以从UCI Machine Learning Repository 公开获取的数据集。数据集由数百条人体细胞样本记录组成,每条记录都包含一组细胞特征的值。每条记录中包含的字段包括:

【Ryo】SPSS Modeler:SVM支持向量机在分类判别中的应用
标识字段包含患者的标识。来自每位患者的细胞样本特征包含在从Clump到Mit的字段中。这些字段的值按照1到10进行分级,1表示最接近于良性。Class字段包含诊断,由多步独立的医疗程序确认,用于表明样本是良性(值=2)还是恶性(值=4)。

; 二、建模路径详解

本文旨在运用支持向量机划(SVM)分判别的方法,将无法看出表面联系、属性复杂的各种因素结合起来构建概率模型,以此预测肿瘤特征的情况(良性/恶性)。
首先对数据类型和用处进行划分,如图所示(即Type步)

【Ryo】SPSS Modeler:SVM支持向量机在分类判别中的应用
第二步,选择SVM节点连接type,建立相应的流模型(具体卡选项参数设置第三步讲),两个SVM连接运行后如下图:
【Ryo】SPSS Modeler:SVM支持向量机在分类判别中的应用
【Ryo】SPSS Modeler:SVM支持向量机在分类判别中的应用
运行查看模型结果(黄色菱椎体)显示了变量重要性。在”模型”选项卡上,”预测变量重要性”图形显示了不同字段对预测的相对影响。此图向我们显示了BareNuc 无疑具有最大的影响,而UnifShape 和Clump的影响也很大。(如下)
【Ryo】SPSS Modeler:SVM支持向量机在分类判别中的应用
【Ryo】SPSS Modeler:SVM支持向量机在分类判别中的应用
第四步,将函数专家模型设置为poly进行第二次SVM分类,用作对比。

【Ryo】SPSS Modeler:SVM支持向量机在分类判别中的应用
同样将表连接到第二个模型上,同时把老的rbf模型连接到poly上,查看新的score得分进行对比,发现多项式结果得分更高了。
【Ryo】SPSS Modeler:SVM支持向量机在分类判别中的应用

三、结果评估与总结

要确认此模型的性能更为优异,请将分析节点附加到class-poly 模型块,勾选AUC和比较,查看如下表的结果。单独模型和一致性显示SVM很有效,poly更好,并且AUC和基尼系数都显示poly更好。

【Ryo】SPSS Modeler:SVM支持向量机在分类判别中的应用

此方法使用”分析”节点,它使您可以比较同一类型的两个或更多模型块。来自”分析”节点的输出显示RBF函数可以正确地预测97.85%的个案,这仍是一个不错的结果。 但是,输出显示多项式函数已正确预测每个个案中的诊断。实际使用中,未必能做到完全准确,但分析节点可帮您确定模型的精确度能否满足特殊使用要求。

实际上,对于这个特定的数据集,其他两种函数类型(Sigmoid和线性)的效果都不如多项式函数。但用于其他数据集时,其结果可能会明显不同,因此始终应该尝试所有选项。

注:关于kernel,两模型的选择、解释(sklearn.svm.SVC中kernel参数说明):

常用核函数
线性核函数kernel=’linear’
多项式核函数kernel=’poly’
径向基核函数kernel=’rbf’
sigmod核函数kernel=’sigmod’

kernel=’linear’

采用线性核kernel=’linear’的效果和使用sklearn.svm.LinearSVC实现的效果一样,但采用线性核时速度较慢,特别是对于大数据集,推荐使用线性核时使用LinearSVC

kernel=’poly’

degree代表d,表示多项式的次数
gamma为多项式的系数,coef0代表r,表示多项式的偏置

kernel=’rbf’

可以将gamma理解为支持向量影响区域半径的倒数,gamma越大,支持向量影响区域越小,决策边界倾向于只包含支持向量,模型复杂度高,容易过拟合;gamma越小,支持向量影响区域越大,决策边界倾向于光滑,模型复杂度低,容易欠拟合;
gamma的取值非常重要,即不能过小,也不能过大

; 参考文献

[1]IBM SPSS Modeler Cookbook.Keith McCormick.

[2] CRISP-DM
[3]张治斌.基于SPSS Modeler的数据挖掘过程解析[J].数字技术与应用.2017(09):72-73.

[4]https://blog.csdn.net/qq_37007384/article/details/88418256

Original: https://blog.csdn.net/ryo_ryo/article/details/117691286
Author: 九局下半。
Title: 【Ryo】SPSS Modeler:SVM支持向量机在分类判别中的应用

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/665784/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • 目标检测综述

    原创:悬鱼铭 目标检测(Object Detection)任务是计算机视觉中非常重要的基础问题,也是解决图像分割、目标跟踪、图像描述等问题的基础。目标检测是检测输入图像是否存在给定…

    人工智能 2023年7月10日
    0121
  • L4自动驾驶中感知系统遇到的挑战及解决方案

    导读: 本次分享的大纲—— Perception Introduction Sensor Setup & Sensor Fusion Perception Onboard …

    人工智能 2023年6月10日
    073
  • 矩阵微分

    本文地址:https://www.cnblogs.com/faranten/p/16028217.html转载请注明作者与出处 1 分母布局与分子布局 ​ ​ ​ 矩阵微分可以认为…

    人工智能 2023年6月4日
    0101
  • 数字图像处理复习

    抵扣说明: 1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

    人工智能 2023年6月20日
    091
  • 《ROS机器人开发实践》功能包编译报错问题解决&&摄像头数据opencv

    (一)创建工作空间 mkdir -p ~/catkin_ws/src cd ~/catkin_ws/src catkin_init_workspace 工作空间创建完成,在根目录下…

    人工智能 2023年7月19日
    094
  • 头部姿态获取算法概述(坐标系转换)

    头部姿态获取算法概述 —— 才疏学浅, 难免有错误和遗漏, 欢迎补充和勘误. 获取头部运动姿态的流程图如下: 图1. 获取头部运动姿态的流程图 首先通过Dlib库得到2D人脸68个…

    人工智能 2023年6月20日
    0210
  • pandas中如何提取DataFrame的某些列

    在处理表格型数据时,一行数据是一个 sample,列就是待提取的特征。怎么选取其中的一些列呢?本文分享一些方法。 使用如下的数据作为例子: import pandas as pd …

    人工智能 2023年7月4日
    069
  • Python中的层次聚类,详细讲解

    层次聚类是流行的无监督学习算法之一。层次聚类所做的就是找到数据集中具有相似属性的元素,并将它们组合在一个集群中。最后,我们得到一个单一的大集群,其主要元素是数据点的集群或其他集群的…

    人工智能 2023年7月4日
    0107
  • LVI-SAM:激光-IMU-相机紧耦合建图

    1. 摘要 我们提出了一个通过平滑和建图实现激光-视觉-惯性里程计的紧耦合框架LVI-SAM,其实现了高精度和鲁棒性的实时状态估计和地图构建。LVI-SAM采用因子图,由两个子系统…

    人工智能 2023年6月2日
    0121
  • C++进阶-3-4stack容器、queue容器

    C++进阶-3-4stack容器、queue容器 C++进阶-3-4stack容器、queue容器 1 #include 2 #include 3 #include 4 using…

    人工智能 2023年6月4日
    099
  • 基于边缘检测和透视变换的文档图像校正

    实验任务与要求: 对发生透视变换的文档图像进行几何校正处理,得到规范的文档图像。几何校正的目的是把发生了透视变换的目标变换为具有真实比例和角度的目标,如下图所示:左图中的地板砖经过…

    人工智能 2023年6月20日
    067
  • LSTM 和 Bi-LSTM

    承上启下 承接上文介绍过的 SimpleRNN ,这里介绍它的改进升级版本 LSTM。 RNN 和 LSTM 比较 RNN 的记忆很短,容易产生梯度消失的长依赖问题,而 LSTM …

    人工智能 2023年5月31日
    095
  • PyTorch:train模式与eval模式的那些坑

    文章目录 * – 前言 – 1. train模式与eval模式 – 2. BatchNorm – 3. 数学原理 – 4…

    人工智能 2023年6月17日
    0119
  • 使用GPU进行神经网络计算详解

    Pytorch学习笔记(六):使用GPU的简单LeNet网络模型中也提到了如何实现GPU上的运算,虽然不详细,但是也足够。 总结:(如果对于总结知识已经比较熟悉,那么下面的详解可以…

    人工智能 2023年7月14日
    098
  • 健康管理师【2】

    1.慢性病致病的主要危险因素不包括()。 A.吸烟、过量饮酒 B.超重、肥胖 C.饮食不洁 D.缺乏体力活动 E.不合理膳食结构 2.中国居民平衡膳食宝塔建议每天应摄入奶制品和豆类…

    人工智能 2023年7月17日
    087
  • python——正则表达式(re模块)详解

    在Python中需要通过正则表达式对字符串进⾏匹配的时候,可以使⽤⼀个python自带的模块,名字为re。 正则表达式的大致匹配过程是:1.依次拿出表达式和文本中的字符比较,2.如…

    人工智能 2023年7月3日
    086
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球