2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法

sklearn数据集

①sklearn数据集

2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法
load_ 小数据集
2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法
fetch_
大数据集
2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法

②数据集划分:
训练集—建立模型:测试集—评估模型=7.5:2.5
API:默认乱序

2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法
三个参数:特征值(二维数组:样本*特征值)、目标值(一维数组:标准值)、测试集占比
返回值:4个返回值(固定位置)

2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法

; 转换器、预估器

①转换器

2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法
不要重复fit,会改变transform标准
②预估器(predict预测结果,score计算准确率)
所有的算法都带有fit、predict、score这三个算法

2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法

KNN-k近邻算法

①原理:
(简略)通过计算与已知样本的距离来判断它的分类;
如果一个样本在特征空间中的K个最相似(特征空间最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别
如何求距离:欧式距离
样本特征之间的距离

2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法
样本计算前一定要进行标准化
API:
2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法
例子:
①数据处理
2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法
2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法
2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法
基本流程:每个算法下面都有fit、predict、score三个函数
2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法
算法特点
特点:
①k值取多大,有什么影响(n_neighbors)–属于超参数
K小—容易受异常点影响
K大—容易受k值数量(类别)波动影响
②性能问题
时间复杂度很高、耗时很长

算法优点
简单,易于理解实现,简单,易于理解,易于实现,无需估计参数,无需训练(一次计算得出结果,无需迭代)

算法缺点
懒惰算法,对测试样本分类时的计算量大,内存开销大
必须指定k值,k值选择不当,分类精度不能保证

使用场景:
几千-几万个样本

; 朴素贝叶斯(前提-特征独立,如果不独立结果不好)

①概率基础

2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法

②朴素贝叶斯()
预测目标属于所有类别中各个类别的概率,最大的就是所属分类
例;文档分类—词是特征值,

2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法
2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法
特殊处理:拉普拉斯平滑—未防止类别为0概率项影响全局
2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法

API:(没有超参数,影响结果较小)–只有超参数才会提高准确率

2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法

特点:
①训练集误差大,结果肯定不好,依赖训练集
②不需要调参—没有超参数
优点:
①朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率。
②对缺失数据不太敏感,算法也比较简单,常用于文本分类。
③分类准确度高,速度快
缺点:
①需要知道先验概率P(F1,F2,…|C),因此在某些时候会由于假设的先验,模型的原因导致预测效果不佳
②假设文章特征词之间独立不相关

分类模型性能评估

①准确率(最常见最常使用)

2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法
直接用score就行

②混淆矩阵—精确率、召回率(并不是所有的都需要)

2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法
精确率:
2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法
召回率;
2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法
API:
2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法
2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法

; 交叉验证与网格所有调参

①交叉验证(训练集划分—训练集、验证集)–将所有数据分成n等分—并不具备调参能力
4等分就是4折交叉验证; 一般采用10折交叉验证

2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法
2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法
如果有多个超参数:采用排列组合的方式,组合进行调参—穷举法

API:

2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法
2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法
例子:对knn进行超参数的调参
2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法

Original: https://blog.csdn.net/weixin_45526009/article/details/122524011
Author: YJF-NJU
Title: 2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/664708/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球