SPSS Modeler 自动分类器学习笔记

2023年7月17日上午5:10 • 人工智能 • 阅读 76

– 学习资料

IBM SPSS Modeler 18.0 Applications 第4章

– 应用场景

为每个客户提供合适的报价方案以实现更高收益

– 数据源描述

数据源名称pm_customer_train1.sav

– 应用模型

自动分类器

– 分析思路

通过”自动分类器”节点，为标志（例如某个指定客户是否可能拖欠贷款或者是否对特定的报价做出响应）或名义（集合）目标自动创建多个不同的模型并进行比较排序，选择最有效的模型，然后将它们合并为一个汇总（整体）模型。此方法将自动化操作的方便性与组合多个模型的优势融为一体，从而产生任何单一模型所不能带来的更为准确的预测。

– 设计步骤

1、选取源节点”Statistics文件”，读取外部数据源；
Variable names选择Read names and labels
Values选择Read data and labels

2、添加类型节点
把response的Role设置为Target（输出/目标），Measurement（数据类型）设置为Flag（标志），
把campaign的Role设置为input（输入/预测变量），Measurement（数据类型）设置为Nominal（名义），
对于下列字段，将Role设置为无：CMSomer_id、response_date、purchase、purchase_date、product_id、Rowid 和 X_random（当构建模型时，将忽略这些字段），
其它字段保持不变，
接着点击Read Valuse读取值。
SPSS Modeler 自动分类器学习笔记

3、定义标签
在campaign字段的行上单机Values列的条目，在下拉列表中选择specify…（指定…），在弹出的指定窗口上，输入设置campaign字段4个值分别对应的标签，点击确定后，就可以通过点击 _显示字段和值标签_工具栏按钮在输出窗口中显示标签

4、为单项活动筛选记录
尽管数据包含有关四项不同活动的信息，但每一次的分析应侧重于其中一项活动。由于 Premium account活动（在数据中编码为 campaign=2）中的记录数最大，因此可以使用Select选择节点实现仅在流中包含这些记录。
SPSS Modeler 自动分类器学习笔记

5、
附加一个自动分类器节点，然后选择总体准确性作为对模型进行排序的度量,
将要使用的模型数设置为 3，这意味着在执行节点时将构建三个最佳模型,
在”专家”选项卡上，可从最多11种不同模型算法中进行选择，由于在”模型”选项卡上将要使用的模型数设置为 3, 因此节点将计算11个算法的准确性, 并构建包含三个最准确算法的单个模型块。
SPSS Modeler 自动分类器学习笔记

在”设置”选项卡上, 对于整体方法，选择置信度加权投票（还可以选择 最初倾向加权投票/最高置信度当选/平均原始倾向）。此选项确定如何为每条记录生成一个汇总评分。

置信度加权投票

置信度即可靠度，对结果有多少信心保证是正确的概率
使用简单投票方式时，若三个模型中有两个模型均预测”是”，则”是”将以 2 比 1 的投票结果取胜。在使用
置信度加权投票方式时，将基于各模型预测的置信度值进行加权投票。因此，如果一个预测”否”的模型的置信度比另外两个预测的模型”是”合在一起的置信度还高，则”否”取胜。

最高置信度当选

使用最高置信度当选方式时，在各模型中，预测的置信度值最高的模型取胜。因此还是上面的例子，如果一个预测”否”的模型的置信度比另外两个预测的模型”是”的置信度都高，则”否”取胜。

最初倾向加权投票

倾向评分指特定结果或响应的可能性，倾向评分仅适用于有标志目标的模型，并且指示为字段定义的值为真的可能性
计算原始倾向评分，然后基于各模型预测的倾向评分进行加权投票。因此还是上面的例子，如果三个模型预测”是”的倾向评分之和，大于预测”否”的倾向评分之和，则”是”取胜。

平均原始倾向

计算原始倾向评分平均值。因此还是上面的例子，如果三个模型预测”是”的倾向评分的平均值，大于预测”否”的倾向评分的平均值，则”是”取胜。

– 结果分析与评估

默认情况下, “自动分类器”节点的”模型”选项卡中选择了总体准确性度量，因此模型将根据此度量进行排序。（还可以选择曲线下面积/利润/增益/字段数）根据这一度量，C51 模型的精确性最高，但 C&R 树和 CHAID 模型的精确性与之相差不大。基于这些结果，您可以决定使用所有这三个最准确的模型。通过结合多个模型的预测，可以避免单个模型的局限性，从而使总体准确性更高。

在模型块后面连接一个”分析”节点。右键单击分析节点，然后选择运行以运行流。由整体模型生成的汇总评分将显示在名为 SXF-response的字段中。根据训练数据进行度量时, 预测值与实际响应（如原始响应字段中的记录所示）相匹配的总体准确性为 92.82%。尽管该准确性低于此个案的三个模型中的最高准确性（C51 为 92.86%），但它们之间的差异非常小，可以忽略不计。一般来说, 在应用到除训练数据之外的数据集时, 整体模型通常更可能具有良好效果。基于总体准确性,”C51″、”C&R 树”和 CHAID 模型对于训练数据效果最佳。

– 补充

上面设计输入模型的记录都是campaign=2时的记录，当我们想把全部记录作为输入的时候，可以在上面的实验中把campaign的Measurement（数据类型）设置为拆分，那么自动分类器将为每个分割（campaign=1、campaign=2、campaign=3、campaign=4）构建模型

Original: https://blog.csdn.net/cww468/article/details/123137818
Author: cww468
Title: SPSS Modeler 自动分类器学习笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/697944/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python DataFrame结构及索引操作

DataFrame Series结构 Dataframe组成 Dataframe索引操作 DataFrame的存储和读取操作（关联数据库） DataFrame高级操作替换操作清…

人工智能 2023年7月6日
0083
python查找路径代码_从给定的图形python中查找所有路径

我需要找到给定图表中的所有路径。我现在可以做到这一点，但是我的递归代码效率不高，我的图表也非常复杂。因此我需要一个更好的算法。到目前为止，这是我的代码， def findLeave…

人工智能 2023年6月10日
0067
人工智能之语音识别

语言识别的概念机器翻译使用印刷文本作为输入，可以清楚地区分单个单词和单词串。 [En] Machine translation uses printed text as inpu…

人工智能 2023年5月27日
0075
ID3决策树算法|机器学习

1.ID3决策树原理 ∙ \bullet ∙ 基本原理：ID3决策树算法使用 &#x…

人工智能 2023年6月15日
0074
C++读取并保存Tiff文件（纯C++，不需要配置opencv、boost.GIL等环境）

背景说明最近需要写一个能在LINUX上读取tif图像、修改像素并保存的C文件，之前都是matlab直接调函数，现在突然使用C读取着实有点懵。找了很多网上的程序却都是需要调特定…

人工智能 2023年7月18日
0050
【深度学习实践】基于深度学习的车牌识别（python，车牌检测+车牌识别）

车牌识别具有广泛的应用前景，基于传统方法的车牌识别效果一般比较差，随着计算机视觉技术的快速发展，深度学习的方法能够更好的完成车牌识别任务。本文提供了车牌识别方案的部署链接，您可以…

人工智能 2023年6月29日
0061
Conda常用命令

虚拟环境查看已经安装的虚拟环境 conda env list conda info -e 创建Python虚拟环境 conda create -n YOUR_ENV_NAME p…

人工智能 2023年6月4日
0073
RuntimeError: CUDA error: an illegal memory access was encountered

文章目录 4. 我的解决 1. 错误描述 2. 自我尝试 * 2.1 减小batch_size 2.2 换卡改代码 3. 调研情况我的解决后续发现其实是某张卡有问题， 0~3一…

人工智能 2023年7月20日
0046
磺酸基-Cy3 羧酸，磺化水溶性Cy3羧酸，sulfo CY3 COOH

产品名称：磺酸基-Cy3 羧酸，磺化水溶性Cy3羧酸英文名称：sulfo CY3 COOH 向有机化合物分子中引入磺酸基团的反应称为磺化或者硫酸盐化反应。磺化是指硫原子与碳原子相…

人工智能 2023年6月28日
0058
用开源代码跑自己的数据集：修改dataloader

论文需要跑网络对比实验。那么如何用 Github 上的代码（或者其他开源代码）跑我们需要它跑的数据集呢？下文将简要介绍与 PyTorch 框架的 dataloader 的相关知…

人工智能 2023年7月23日
0055
视觉SLAM十四讲

内部交流，写的很乱，各路大神不建议观看以免影响思路 1、激光SLAM 激光SLAM相对成熟，比如2005年出版的《概率机器人》中就介绍了很多关于激光SLAM的知识，在ROS里也能找…

人工智能 2023年6月15日
0057
【ROS】利用ROS将KITTI数据集点云数据投影到2D图像

课题涉及到感知融合，首先需要将点云投影到图像上，本文利用ROS实现投影。分为两个ROS节点，一个节点负责不断读取点云原始bin文件，并以 sensor_msgs::PointClo…

人工智能 2023年6月24日
0092
华为海思新品SD3403

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年5月26日
0069
【Python】NumPy数组和矢量计算

目录一、NumPy的ndarray：一种多维数组对象： 1.NumPy安装： 2.检测安装是否成功：二、数组创建： 1.array创建： range的使用： arange创建数…

人工智能 2023年6月11日
0076
R语言单因素方差分析及两两比较

一、导语两个样本均数的比较用t检验，那么多个样本均数的比较应该采用什么方法分析呢？就是接下来介绍的方差分析。方差分析由统计学家R.A.Fisher提出，又称为F检验。是通过对数据…

人工智能 2023年7月15日
0097
KnowPrompt: Knowledge-aware Prompt-tuning with Synergistic Optimization for Relation Extraction

KnowPrompt: Knowledge-aware Prompt-tuning with Synergistic Optimization for Relation Extra…

人工智能 2023年6月1日
0069

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

SPSS Modeler 自动分类器学习笔记

大家都在看