机器学习建模流程

2023年6月19日上午9:37 • 人工智能 • 阅读 70

机器学习实战

机器学习三把斧

; 1.数据清洗

1.1缺失值的处理

某一列的特征缺失值达到40%左右，删除这个特征值；或者某一个样本的缺失值过大，那么删除这个样本。

而当某个特征的缺失值较少的时候，不能删除这个特征。

建模预测：把缺失值当做模型的预测值，用预测的值填充缺失值

多重插补：前向填充，后项填充

高维映射：就是把缺失值作为一个新的类，只对分类的变量比较好，在广告CTR（点击率）

; 1.2异常值的处理

异常：真实的异常，记录的异常。

真实的异常：本来就是这个值，只是和其他样本偏移较大

记录的异常：本来是10，记录成100

1.3数据分桶

数据分桶主要就是连续数据离散化，比如年龄，0-10，10-20，20-30等，然后编号1，2，3

数据分桶可能提升树模型的鲁棒性

; 1.4数据的标准化

回归中标准化使用较多，分类中大部分也使用，但是分类中的决策数就不需要标准化

2.特征工程

; 2.1特征构造

对时间的处理

比赛中要看训练集和测试集的特征分布是否一致，删去不一致的特征

2.2特征选择

可能经过特征构造后，你的特征变成成百上千，这时候就需要先进行特征过滤，用集成学习如XGboost等算出每个特征的权重。

; 2.3特征工程示例

3.模型调参

3.1理解模型

调参的时候首先要理解你使用的模型，了解模型的优点和特性，比如线性回归模型基于标签是高斯分布的

; 3.2评估性能

评估函数不同，模型的性能可能不一样，比如MSE对异常值很敏感，如果A模型误差为0.1，0.1，0.1，0.1，0.1，0.1，0.1，0.1，0.1，5 ；B模型误差为1，1，1，1，1，1，1，1，1，1。用MSE判断A=25.09，B=10。而用MAE，A=5.9，B=10 。

所以如果使用MSE评估，那么就需要特别对异常值进行精确的处理。不同的评估函数重点考虑的方面是不一样的

有个评估函数后，接下来就是验证方法，比如交叉验证，留一验证，以及时间序列的切分一个时间段去预测。交叉验证是目前比较好的验证方式，但是当你的数据特别大比如几个G，预测一次都需要好久，非常需要内存的话可以考虑切分验证（80%训练，20评估）。

时间序列样本是不能做交叉验证和留一验证的，可能会存在数据信息的泄露。往往是根据时间进行切分构造一个和测试区间类似的区间预测

3.3模型调参

网格搜索特别花费时间，比如按上图如果是五折交叉验证就需要计算36*5=180次的计算。

; 4.模型集成

前面的特征工程和模型调参在比赛过程中会反复的进行，反复测试。而模型的集成一般是在比赛的后期进行

模型融合的基础是你的单模型要好，

4.1简单加权融合

加权平均时模型的权重最好不要小于0.1，否则这个模型对整体的融合产生不了什么模型收益。

在线提交的时候分数差不多，但是模型的数据差异较大，融合后效果会好（比赛经验）

; 4.2boosting/bagging

4.3stacking/blending

把结果放到另一个简单模型如线性模型再次进行筛选。

; 4.模型融合示例

以上的适用于数据挖掘比赛，和（cv）图像处理的有所不同

特征工程

1.特征工程介绍

; 2.类别特征

ID一般不作为特征，以上数据已经经过脱敏

2.1类别编码

类别编码一般不直接使用，因为red，blue，black本身是没有大小的，变成3，1，2后如果使用的是决策树，那么可能直接会把>2 的区分为一类

; 2.2 One-Hot编码

使用one-hot编码可以避免上面引入大小的问题，但是不适用于类别特别多的（如果有100个类）会导致特征分布特别稀疏

2.3 Frequency编码

Frequency编码是数据竞赛中使用最为广泛的技术，在90%以上的数据建模的问题中都可以带来提升。因为在很多的时候，频率的信息与我们的目标变量往往存在有一定关联，例如：

在音乐推荐问题中，对于乐曲进行Frequency编码可以反映该乐曲的热度，而热度高的乐曲往往更受大家的欢迎；
在购物推荐问题中，对于商品进行Frequency编码可以反映该商品的热度，而热度高的商品大家也更乐于购买；
微软设备被攻击概率问题中，预测设备受攻击的概率，那么设备安装的软件是非常重要的信息，此时安装软件的count编码可以反映该软件的流行度，越流行的产品的受众越多，那么黑客往往会倾向对此类产品进行攻击，这样黑客往往可以获得更多的利益

; 2.4 Target编码

前面说Label encoder一般不直接用，但是下面这种情况可以使用，年龄段有相对大小的区分，你可以编码为1，2，3，4

3.数值特征

二值化,阈值threshold=n, 小于等于n的数值转为0, 大于n的数值转为1

指/对数变换对决策树没有意义，因为进行对数变化后数据的相对大小不变，小的还是小，大的还是大

交互特征是灵活性最高的，好的交互特征往往可以对模型起到很大的优化（比如020的）

index_ture = (offline_train['Date']-offline_train['Date_received']).apply(lambda x: x.days  15)

index_false_1 = (offline_train['Date']-offline_train['Date_received']).apply(lambda x: x.days > 15)
index_false_2 = offline_train['Date_received'].notnull() & offline_train['Date'].isnull()

3.1数据分桶

; 4.时间特征

模型融合

比赛中常用的模型（基于决策树的集成学习）

1.介绍XGBoost模型

XGBoost是2016年由华盛顿大学陈天奇老师带领开发的一个可扩展机器学习系统。严格意义上讲XGBoost并不是一种模型，而是一个可供用户轻松解决分类、回归或排序问题的软件包。它内部实现了梯度提升树(GBDT)模型，并对模型中的算法进行了诸多优化，在取得高精度的同时又保持了极快的速度。

XGBoost相对于GBDT(梯度提升树)有以下好处

; 2.参数设置

官方文档

过拟合的时候加大r（gamma）的值

XGBoost的调用

; 2.1参数优化

比较费时间，一般只在后期进行一次，把参数固定下来

使用方法1

使用方法2

3.LightGBM介绍

硬投票，软投票

用第一层的训练结果作为特征，放到第二层（模型四）进行训练，

样本有偏的时候，比如负样本：正样本=10：1

那么，模型可能会更偏向于预测为负样本，这时候就要调节阈值，比如0.5改成0.3

Original: https://blog.csdn.net/m0_52118763/article/details/123743947
Author: 开始King
Title: 机器学习建模流程

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/638642/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

三维目标检测之OpenPCDet环境配置及demo测试

很久没写过关于环境配置的博客了，这次实在是因为，自己在是在OpenPCDet环境的配置上遇到坑了。一环扣一环，由于我的实验环境是ubuntu16.04，跟网上大多数教程环境不一样，…

人工智能 2023年6月17日
0084
因子分析后如何进行聚类分析？

一、案例说明 1.案例背景研究短视频平台用户行为的分类情况，调查搜集了200份数据其中20项可分为品牌活动，品牌代言人，社会责任感，品牌赞助和购买意愿品牌五个维度。案例数据中还包…

人工智能 2023年5月31日
00100
deap dataset的不同分类模型的实现（4）-MNE基础概念学习

MNE的基础知识在讲下一段代码前，先理解一下MNE库。它是一个库，帮你做好了一些工作，就像一个黑箱，但你需要知道输入是什么，怎么输入。 raw，epoch，evoked，even…

人工智能 2023年7月2日
0085
yolo 思维大突破

1.yolo与其他神经网络的不同之处： YOLO将物体检测作为回归问题求解。基于一个单独的end-to-end网络，完成从原始图像的输入到物体位置和类别的输出。从网络设计上，YOL…

人工智能 2023年7月10日
0061
2021科大讯飞试题标签预测挑战赛亚军方案总结

摘要这个比赛的任务是根据题目的文本内容，预测题目的知识点及难度标签，其中知识点包括五个类型，我们需要预测出对应类型的知识点标签。在本次比赛中，我们构造了六个独立的模型，模型结构相…

人工智能 2023年7月17日
0056
Pandas时间类型数据处理常用方法小结

在数据处理、特征工程时，往往需要按照时间段来统计特征，例如计算间隔天数、最近一个月、最近3个月、最近半年、最近一年某用户的行为数据，那么如何计算筛选这些时间点呢？下面就来介绍一些常…

人工智能 2023年7月6日
0064
机器学习数据集半自动标注制作流程

在制作机器学习数据集的时候，尤其是图片数据集的时候，可能会感到十分的繁琐，本文将介绍简化标注流程的一种思路。 1.收集数据集，清理数据集2.手动标注部分数据集3.将标注好的数据集用…

人工智能 2023年7月18日
0049
Swin Transformer做主干的 Faster RCNN 目标检测网络（mmdetection）

文章目录 * – + 一、所需软件（包）介绍 + 二、环境搭建 + 三、Swin Transformer Faster RCNN 网络结构图 + 四、Swin Tran…

人工智能 2023年7月9日
00103
Javaweb：HTTP协议与Web服务端开发环境（一）

一、http协议 • 套接字（Socket）是通信的基石，是支持TCP/IP协议的网络通信的基本操作单元。• Socket可以看成在两个程序进行通讯连接中的一个端点，一个程序将一段…

人工智能 2023年6月29日
0049
使用聚类（K-means）分析方法对骑手进行分类标签定义

聚类分析的目标就是在相似的基础上收集数据来分类，属于无监督学习。就是通过行为数据，通过算法将相似的人群聚集在一起，形成不带标签的人群簇。再人为的对人群簇进行分析，寻找特征标签。一…

人工智能 2023年7月2日
0079
基于朴素贝叶斯算法对肿瘤类别分类

目录朴素贝叶斯算法编辑朴素贝叶斯的三种方式实战——肿瘤类别的分类贝叶斯定理贝叶斯定理（Bayes Theorem）也称贝叶斯公式，是关于随机事件的条件概率的定理定理…

人工智能 2023年7月3日
0085
Python实现增值税发票OCR(带源码)

发票识别日常生活中经常能用到，之前浏览博客发现类似的文章，但源码只给了一小部分，所以决定自己来实现。 1.原始图片视角变换及裁剪：现实中，我们拍照不可能像扫描那样端正，图片中的…

人工智能 2023年6月24日
0083
ERROR: Failed building wheel for grpcio

2021年10月13日你的报错界面和我一样的话，就看我的解决办法吧向上翻翻就可以发现什么意思呢？这个问题主要是网络上的教程过于老化，现在python3.5都放弃维护了，但是…

人工智能 2023年5月24日
0066
知识图谱 01：知识图谱概述

本内容主要介绍知识图谱（Knowledge Graph）的发展、定义、构建和应用。知识图谱（Knowledge Graph）的起源可以追溯到 1960 年，其发展历程如图 1…

人工智能 2023年6月1日
00116
HIT机器学习实验三聚类R语言参考代码

library(scatterplot3d) 一键清空 rm(list=ls()) 打印颜色的函数 color Y Original: https://blog.csdn.net/…

人工智能 2023年6月2日
0094
[论文阅读] Complex Embeddings for Simple Link Prediction

pdf：http://proceedings.mlr.press/v48/trouillon16.pdfcode：https://github.com/ttrouill/compl…

人工智能 2023年6月1日
0078

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30