sklearn数据集
①sklearn数据集
load_ 小数据集
fetch_ 大数据集
②数据集划分:
训练集—建立模型:测试集—评估模型=7.5:2.5
API:默认乱序:
三个参数:特征值(二维数组:样本*特征值)、目标值(一维数组:标准值)、测试集占比
返回值:4个返回值(固定位置)
; 转换器、预估器
①转换器
不要重复fit,会改变transform标准
②预估器(predict预测结果,score计算准确率)
所有的算法都带有fit、predict、score这三个算法
KNN-k近邻算法
①原理:
(简略)通过计算与已知样本的距离来判断它的分类;
如果一个样本在特征空间中的K个最相似(特征空间最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别
如何求距离:欧式距离
样本特征之间的距离
样本计算前一定要进行标准化
API:
例子:
①数据处理
基本流程:每个算法下面都有fit、predict、score三个函数
算法特点
特点:
①k值取多大,有什么影响(n_neighbors)–属于超参数
K小—容易受异常点影响
K大—容易受k值数量(类别)波动影响
②性能问题
时间复杂度很高、耗时很长
算法优点
简单,易于理解实现,简单,易于理解,易于实现,无需估计参数,无需训练(一次计算得出结果,无需迭代)
算法缺点
懒惰算法,对测试样本分类时的计算量大,内存开销大
必须指定k值,k值选择不当,分类精度不能保证
使用场景:
几千-几万个样本
; 朴素贝叶斯(前提-特征独立,如果不独立结果不好)
①概率基础
②朴素贝叶斯()
预测目标属于所有类别中各个类别的概率,最大的就是所属分类
例;文档分类—词是特征值,
特殊处理:拉普拉斯平滑—未防止类别为0概率项影响全局
API:(没有超参数,影响结果较小)–只有超参数才会提高准确率
特点:
①训练集误差大,结果肯定不好,依赖训练集
②不需要调参—没有超参数
优点:
①朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率。
②对缺失数据不太敏感,算法也比较简单,常用于文本分类。
③分类准确度高,速度快
缺点:
①需要知道先验概率P(F1,F2,…|C),因此在某些时候会由于假设的先验,模型的原因导致预测效果不佳
②假设文章特征词之间独立不相关
分类模型性能评估
①准确率(最常见最常使用)
直接用score就行
②混淆矩阵—精确率、召回率(并不是所有的都需要)
精确率:
召回率;
API:
; 交叉验证与网格所有调参
①交叉验证(训练集划分—训练集、验证集)–将所有数据分成n等分—并不具备调参能力
4等分就是4折交叉验证; 一般采用10折交叉验证
如果有多个超参数:采用排列组合的方式,组合进行调参—穷举法
API:
例子:对knn进行超参数的调参
Original: https://blog.csdn.net/weixin_45526009/article/details/122524011
Author: YJF-NJU
Title: 2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/664708/
转载文章受原作者版权保护。转载请注明原作者出处!