我的机器学习笔记（三）— 分类问题与K近邻算法

2023年7月1日下午3:44 • 人工智能 • 阅读 87

文章目录

一、分类问题的定义
二、分类问题的类型
*
2.1 二分类问题
2.2 多分类问题
三、常用的分类算法
四、模型分类器的实现
*
4.1 模型的构建
4.2 模型的使用
五、K近邻算法
*
5.1 K近邻算法的概念
5.2 K近邻算法的伪代码
5.3 K近邻算法的原理
5.4 K近邻算法的举例
5.5 K近邻模型的特点
5.6 K近邻模型的语法
六、K近邻算法案例 — 鸢尾花分类
*
6.1 案例背景
6.2 案例实现

我的机器学习笔记（三）— 分类问题与K近邻算法

一、分类问题的定义；

二、分类问题的类型；

三、常用的分类算法；

四、模型分类器的实现；

五、K近邻算法；

六、K近邻算法案例 — 鸢尾花分类。

一、分类问题的定义

分类问题是 监督学习的一个核心问题，它从数据中学习一个分类决策函数或分类模型分类器（ classifier），对新的输入进行输出预测，输出变量取有限个离散值。

二、分类问题的类型

两种类型

二分类问题
多分类问题

2.1 二分类问题

银行根据客户以往贷款记录情况，学习得到分类器，将客户分为低风险客户和高风险客户。
对一个新来的申请者，根据分类器计算风险，决定接受或拒绝该申请。

2.2 多分类问题

分析影响变压器正常运行的因素，预测变压器是否有故障，若有故障，故障为放电故障、过热故障、短路故障的哪一种。

三、常用的分类算法

K近邻 – KNN
决策树
支持向量机模型 – SVM

四、模型分类器的实现

两个步骤

模型的构建
类别标记 — 预测变量、目标值
训练模型
表示
模型的使用
识别目标值
正确性评价
避免过拟合

4.1 模型的构建

对每个样本进行类别标记
训练集构成分类模型
分类模型可表示为
分类规则
决策树
数据公式

; 4.2 模型的使用

识别未知对象的所属类别
模型正确性评价
已标记分类的测试样本与模型的实际分类结果进行比较。
模型的正确率是指测试集中被正确分类的样本数与样本总数的百分比。
注意：测试集与训练集相分离，否则将出现过拟合（over-fitting）现象。

五、K近邻算法

5.1 K近邻算法的概念

K近邻算法（K Nearest Neighbors，简称KNN）通过计算每个训练数据到待分类元组的举例，取和待分类元组距离最近的K个训练数据，K个数据中哪个类别的训练数据占多数，则待分类元组就属于哪个类别。

5.2 K近邻算法的伪代码

; 5.3 K近邻算法的原理

给定一个训练数据集，无需训练
对新的输入实例，在训练数据集中找到与该实例最近邻的K个实例
根据这K个实例的类别做投票，哪个类的实例最多，就把该输入实例分到这个类中

5.4 K近邻算法的举例

例1

如果K=3，绿点最邻近的3个点分别是2红、1蓝，投票后判断绿点属于红色类。
如果K=5，绿点最邻近的5个点分别是2红、3蓝，投票后判定绿点属于蓝色类。
由此可见，K值的选择，对分类结果有很大影响!
例2
身高与脚码作为特征，判断性别。现有数据如下：
A[(179,42),男]
B[(178,43),男]
C[(165,36),女]
D[(177,42),男]
E[(160,35),女]
现在测试样本F[(167,43)]。
令K=3，分别算出F离训练样本距离（欧式距离）
选取最近的3个为C,D,E，2女1男，因此判断为女性。
很不合理！！！理由：特征”身高”的绝对值太大，很容易主导数据波动，从而影响结果。 —>通常需要做数据的 “归一化” 处理。

; 5.5 K近邻模型的特点

建模快 — 只是简单地存储数据
运行速度慢 — 需要计算很多的距离
占用内存多 — 数据集大时

5.6 K近邻模型的语法

导入包含分类方法的类： from sklearn.neighbors import KNeighborsClassifier
创建该类的一个对象： KNN = KNeighborsClassifier(n_neighbors=3)
拟合数据集，即训练KNN模型，并用训练好的模型预测数据的标签: KNN = KNN.fit(x_train,y_train) y_predict = KNN.predict(x_test)
具体含义可参见文档：
https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html

六、K近邻算法案例 — 鸢尾花分类

6.1 案例背景

150株鸢尾花样例
来自3个不同的属种
Setosa,Versicolor,Virginica
每种50株样例
用4个特征度量
分类问题：给定一株鸢尾花，判定其属种
鸢尾花案例数据如下：
Machine_Learning/iris.csv at master · itliming2000/Machine_Learning (github.com)

; 6.2 案例实现

导包

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

数据预处理
特征抽取
特征选择
降维
抽样

读取文件：

url = "iris.csv"

names = ['sepal-length','sepal-width','petal-length','petal-width','Class']

dataset = pd.read_csv(url,names=names)

dataset.head()

运行后，显示结果：

切片：

x = dataset.iloc[:,:-1].values
y = dataset.iloc[:,4].values

随机划分训练集和测试集：


from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.20)

归一化和标准化处理：


from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

scaler.fit(x_train)

x_train = scaler.transform(x_train)
x_test = scaler.transform(x_test)

学习

训练模型：


from sklearn.neighbors import KNeighborsClassifier
classifier = KNeighborsClassifier(n_neighbors=5)
classifier.fit(x_train,y_train)

运行后，显示结果：

测试：

y_pred = classifier.predict(x_test)

评价

对测试结果进行评价：


from sklearn.metrics import classification_report,confusion_matrix
print(confusion_matrix(y_test,y_pred))
print(classification_report(y_test,y_pred))

运行后，显示结果：

对不同的K取值评价：


error = []

for i in range(1,40):
    knn = KNeighborsClassifier(n_neighbors=i)
    knn.fit(x_train,y_train)
    pred_i = knn.predict(x_test)
    error.append(np.mean(pred_i != y_test))
error

运行后，显示结果：

可视化


plt.figure(figsize=(12,6))
plt.plot(range(1,40),error,color='red',linestyle='dashed',marker='o',
         markerfacecolor='blue',markersize=10)
plt.title('Error Rate K Value')
plt.xlabel('K Value')
plt.ylabel('Mean Error')

运行后，显示结果：

Original: https://blog.csdn.net/weixin_48927364/article/details/124193249
Author: 离明zh
Title: 我的机器学习笔记（三）— 分类问题与K近邻算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/663599/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

阿里云天池大数据长期赛：金融风控-贷款违约预测（含代码）

前言一、赛题介绍二、数据描述性统计 2.1.读取数据 2.2.查看重复值 2.3.统计目标变量比例 2.4.查看数据的统计量 2.5.统计每个变量的种类 2.6.查看训练集…

人工智能 2023年6月19日
0067
运行神经网络错误使用 struct: 无法从 double 转换为 struct

运行神经网络时提示错误使用 struct: 无法从 double 转换为 struct 的解决办法，亲测有效看到有人说是lssvm和神经网络冲突，自己尝试了一下，确实将lssv…

人工智能 2023年7月13日
00114
机器学习配套代码练习地址

在此 Codelab 中，您将学习机器学习的基础知识，您将构建一个基于数据进行训练的系统，以推断用于确定各种关系的规则，而不是使用 Java 或 C++ 等语言编程显式规则。考虑…

人工智能 2023年5月25日
0085
ROS————tf2介绍及教程

本文参考资料： tf2 – ROS Wiki http://wiki.ros.org/tf2 ; 目录前言一、tf2的作用以及为什么要使用tf2 1.安装demo …

人工智能 2023年6月24日
0053
java实现语音识别功能_Java实现的百度语音识别功能示例

本文实例讲述了Java实现的百度语音识别功能。分享给大家供大家参考，具体如下： SDK以及示例代码下载地址： http://yuyin.baidu.com/sdk 最近一直在搞ja…

人工智能 2023年5月25日
0092
R语言为dataframe添加新的数据列（横向拼接、Appending columns，Unioning columns）:使用R原生方法、data.table、dplyr等方案

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月16日
0057
使用BBC Datasets中的BBCSport数据集进行文本分类（新闻分类）

使用BBC Sport数据集的新闻文本分类，这个数据集比较古老，又是英文数据集，且不需要进行文本处理，之前在网络上并没有找到使用这个数据集的中文资料。所以写了一篇博客。本人初学者，…

人工智能 2023年7月2日
0079
时间序列分析 | Python时序数据滑动窗口和时间穿越问题分析

以下是使用时序_平滑 _窗口_后的LSTM _时间序列_预测 _Python_代码示例： _python_ import pandas as pd import numpy as…

人工智能 2023年7月18日
0058
【第十届“泰迪杯”数据挖掘挑战赛】C题：疫情背景下的周边游需求图谱分析问题三方案及Python实现

目录相关链接代码下载 1 题目 2 思路方案 3 Python实现 * 3.1 计算支持度作为相关度 3.1 给样本集的旅游产品one-hot编码 3.2 计算支持度、置信度、…

人工智能 2023年7月16日
0066
大数据进阶之算法——KMeans聚类算法

首先说一下分类和聚类的区别：分类： [TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:…

人工智能 2023年6月3日
0064
Zero-Reference Deep Curve Estimation for Low-Light Image Enhancement

摘要在低光照条件下拍摄的照片会降低图像的质量，影响图像传递信息，该文章提出了一种light-weight deep network的方法用于解决Low-Light图像增强问题。它…

人工智能 2023年6月21日
0070
基于DarkNet框架实现YOLOV4的训练

YOLOV4论文：《Yolov4: Optimal Speed and Accuracy of Object Detection》项目代码：AlexeyAB/darknet 一、编…

人工智能 2023年7月12日
0074
Windows Server系统 PaddleOCR失败解决方案

因PaddleOCR引用了Opencv,在windows server 上使用opencv出现 DLL load failed错误,发现缺失部分dll：MFPlat.dll、MF…

人工智能 2023年6月4日
0070
mnist手写数字模型训练、保存、加载及图片预测

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档非专业程序员，主业PLC单片机，2019年想扩充知识体系，紧跟潮流，带学生参加了人工智能大赛，才开始接触tenso…

人工智能 2023年5月23日
0060
TSTNN: TWO-STAGE TRANSFORMER BASED NEURAL NETWORK FOR SPEECH ENHANCEMENT IN THE TIME DOMAIN

[ICASSP 2021] Motivation 目前，LSTM和GRU等RNN常被用于基于顺序信息的长期序列建模。但基于RNN的模型的缺点是不能并行处理，计算复杂度较高。有作者提…

人工智能 2023年5月23日
0088
SNN学习笔记(一): LIF模型

核心思想 LIF模型的提出旨在模拟生物神经元模型的工作过程（生物神经元结构如下图所示）。回顾生物知识可知，生物神经元只有在获得外界刺激并且超过一定阈值时才会向与其相连的其他神经元传…

人工智能 2023年6月25日
00100

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

我的机器学习笔记（三）— 分类问题与K近邻算法

文章目录

2.1 二分类问题

2.2 多分类问题

4.1 模型的构建

; 4.2 模型的使用

5.1 K近邻算法的概念

5.2 K近邻算法的伪代码

; 5.3 K近邻算法的原理

5.4 K近邻算法的举例

; 5.5 K近邻模型的特点

5.6 K近邻模型的语法

6.1 案例背景

; 6.2 案例实现

大家都在看