2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法

2023年7月2日上午4:31 • 人工智能 • 阅读 86

sklearn数据集

①sklearn数据集

load_ 小数据集

fetch_ 大数据集

②数据集划分：
训练集—建立模型：测试集—评估模型=7.5：2.5
API:默认乱序：

三个参数：特征值（二维数组：样本*特征值）、目标值（一维数组：标准值）、测试集占比
返回值：4个返回值（固定位置）

; 转换器、预估器

①转换器

不要重复fit，会改变transform标准
②预估器（predict预测结果，score计算准确率）
所有的算法都带有fit、predict、score这三个算法

KNN-k近邻算法

①原理:
(简略）通过计算与已知样本的距离来判断它的分类；
如果一个样本在特征空间中的K个最相似（特征空间最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别
如何求距离：欧式距离
样本特征之间的距离

样本计算前一定要进行标准化
API:

例子：
①数据处理

基本流程：每个算法下面都有fit、predict、score三个函数

算法特点
特点：
①k值取多大，有什么影响（n_neighbors）–属于超参数
K小—容易受异常点影响
K大—容易受k值数量（类别）波动影响
②性能问题
时间复杂度很高、耗时很长

算法优点
简单，易于理解实现，简单，易于理解，易于实现，无需估计参数，无需训练（一次计算得出结果，无需迭代）

算法缺点
懒惰算法，对测试样本分类时的计算量大，内存开销大
必须指定k值，k值选择不当，分类精度不能保证

使用场景：
几千-几万个样本

; 朴素贝叶斯（前提-特征独立，如果不独立结果不好）

①概率基础

②朴素贝叶斯（）
预测目标属于所有类别中各个类别的概率，最大的就是所属分类
例；文档分类—词是特征值，

特殊处理：拉普拉斯平滑—未防止类别为0概率项影响全局

API:（没有超参数，影响结果较小）–只有超参数才会提高准确率

特点：
①训练集误差大，结果肯定不好，依赖训练集
②不需要调参—没有超参数
优点：
①朴素贝叶斯模型发源于古典数学理论，有稳定的分类效率。
②对缺失数据不太敏感，算法也比较简单，常用于文本分类。
③分类准确度高，速度快
缺点：
①需要知道先验概率P(F1,F2,…|C)，因此在某些时候会由于假设的先验，模型的原因导致预测效果不佳
②假设文章特征词之间独立不相关

分类模型性能评估

①准确率（最常见最常使用）

直接用score就行

②混淆矩阵—精确率、召回率（并不是所有的都需要）

精确率：

召回率；

API:

; 交叉验证与网格所有调参

①交叉验证（训练集划分—训练集、验证集）–将所有数据分成n等分—并不具备调参能力
4等分就是4折交叉验证； 一般采用10折交叉验证

如果有多个超参数：采用排列组合的方式，组合进行调参—穷举法

API:

例子：对knn进行超参数的调参

Original: https://blog.csdn.net/weixin_45526009/article/details/122524011
Author: YJF-NJU
Title: 2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/664708/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

机器学习分类问题指标评估内容详解（准确率、精准率、召回率、F1、ROC、AUC等）

文章目录前言一、混淆矩阵（confusion matrix）二、准确率，精准率，召回率，F1分数 * 1. 准确率（Accuracy） 2. 精确率（Precision） 3…

人工智能 2023年7月26日
0088
自注意力机制(Self-Attention)

目录一、注意力机制和自注意力机制的区别二、引入自注意力机制的目的三、Self-Attention详解 3.1 单个输出 3.2 矩阵形式四、Multi-head Self-…

人工智能 2023年7月29日
0089
YOLOv5、v7改进之二十七：解决小目标问题——校正卷积取代特征提取网络中的常规卷积

前言：作为当前先进的深度学习目标检测算法YOLOv5、v7系列算法，已经集合了大量的trick，但是在处理一些复杂背景问题的时候，还是容易出现错漏检的问题。此后的系列文章，将重点…

人工智能 2023年6月17日
0085
一文看懂数据分析各种图形（箱型图、数据分布图、线性回归图、相关关系图）（阿里天池）

1、箱形图 1.1箱型图的定义箱型图（Boxplot）也称箱须图（Box-whisker Plot）、盒式图或箱线图，是利用数据中的五个统计量：最小值、上四分位数、中位数、下四…

人工智能 2023年7月14日
00174
pandas教程05—DataFrame的进阶操作

文章目录欢迎关注公众号【Python开发实战】，免费领取Python学习电子书！工具-pandas * Dataframe对象 – DataFrame运算 Data…

人工智能 2023年7月7日
0062
多传感器融合定位第九章基于优化的建图方法

代码下载： https://github.com/kahowang/sensor-fusion-for-localization-and-mapping/tree/main/%E7…

人工智能 2023年6月11日
0084
梯度提升回归(Gradient boosting regression,GBR) 学习笔记以及代码实现&permutation_importance（PI）

文章目录 1.介绍 * 1.1 集成学习 1.2 Boosting与 Bagging区别 1.3 Gradient Boosting算法 1.4 终极组合GBR 2.代码实现特征…

人工智能 2023年6月16日
00168
Transformer编码器的理解与PyTorch实现

Transformer编码器的理解与PyTorch实现前言 Transformer模型的整体结构个人理解各部分PyTorch代码实现 * Encoder的代码实现 &#821…

人工智能 2023年7月21日
0084
【建模算法】基于遗传算法求解TSP问题（Python实现）

【建模算法】基于遗传算法求解TSP问题（Python实现） TSP (traveling salesman problem，旅行商问题)是典型的NP完全问题，即其最坏情况下的时间复…

人工智能 2023年7月30日
0067
HTML中华传统文化题材网页《中国民间年画》HTML+CSS+JavaScript

🎉精彩专栏推荐 💭文末获取联系✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战…

人工智能 2023年6月29日
00108
深度学习之concatenate和elementwise操作（二）

一、深度学习里面的element-wise特征相乘和相加到底有什么区别？很多深度学习模型在设计时，中间特征在分支处理后，然后可能会采用element-wise相乘或相加，不知道这…

人工智能 2023年6月16日
00170
为了摸鱼，我开发了一个工具网站

🏡 博客首页：派大星⛳️ 欢迎关注 🐳 点赞 🎒 收藏 ✏️ 留言🎢 本文由派大星原创编撰🚧 系列专栏：《开源专栏》🎈 本系列主要输出作者自创的开源项目🔗 作品：www.jso…

人工智能 2023年7月30日
0068
（12）目标检测_SSD主干网络基于pytorch搭建代码

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月9日
0090
Stimulsoft Reports 2023.1.1 Crack 根据自身需求选择

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月29日
0056
YOLOv5基础知识点——激活函数

什么是激活函数？什么是激活函数&该选哪种激活函数？_哔哩哔哩_bilibili 深度学习笔记：如何理解激活函数？（附常用激活函数） – 知乎 (…

人工智能 2023年6月25日
0081
如何在Keras中使用卷积神经网络

问题：如何在Keras中使用卷积神经网络？详细介绍卷积神经网络（Convolutional Neural Network，CNN）是一种在计算机视觉和图像处理任务中表现出色的深…

人工智能 2024年1月4日
0029

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31