☀️机器学习入门☀️(二) KNN分类算法 | 附加小练习

2023年6月15日下午2:47 • 人工智能 • 阅读 72

1.1 聚类

聚类是将数据对象的集合分成 相似的对象类的过程。使得同一个簇（或类）中的对象之间具有较高的相似性，而不同簇中的对象具有较高的 相异性，并且事先不知道数据集本身有多少类别，属于 无监督学习。

e.g：
比如预测某一学校的在校大学生的好朋友团体，我们不知道大学生和谁关系好或和谁关系不好，我们通过他们的相似度进行聚类，聚成 n个团体，这就是 聚类。

1.2 分类

分类就是事先已知道数据集中包含多少种类，从而对数据集中每一样本进行分类，且所分配的标签必须包含在已知的标签集中，属于 监督学习。

e.g：
比如对一个学校的在校大学生进行性别分类，我们会下意识很清楚知道分为”男”，”女”。对于一个分类器，通常需要你告诉它”这个东西被分为某某类”。

关于KNN算法

邻近算法，或者说 K最近邻分类算法是数据挖掘分类技术中最简单的方法之一。所谓 K最近邻，就是K个最近的邻居的意思，说的是每个样本都可以用它最接近的K个邻居来代表， KNN是通过测量不同特征值之间的 距离进行分类。(后续有 例题)

2.1 `Lp距离` 定义：

当p=1时，就是曼哈顿距离(对应L1范数)
当p=2时，就是欧氏距离（对应L2范数）

; 2.1 `K` 值的选取

如果选择较小的 K值，就相当于用较小的邻域中的训练实例进行预测，学习的近似误差会减小，只有与输入实例较近的训练实例才会对预测结果起作用，但缺点是学习的估计误差会增大，预测结果会对近邻的实例点分成敏感。如果邻近的实例点恰巧是噪声，预测就会出错。换句话说，K值减小就意味着整体模型变复杂，分的不清楚，就容易发生 过拟合。
如果选择较大 K值，就相当于用较大邻域中的训练实例进行预测，其优点是可以减少学习的估计误差，但近似误差会增大，也就是对输入实例预测不准确，K值得增大就意味着整体模型变的简单。
练习

使用 Sklearn中的 make_circles方法生成训练样本，随机生成测试样本，用 KNN分类并可视化。

第一题：

"""
Sklearn中的make_circles方法生成训练样本
并随机生成测试样本，用KNN分类并可视化。
"""

from sklearn.datasets import make_circles
from sklearn.neighbors import KNeighborsClassifier
import matplotlib.pyplot as plt
import numpy as np
import random

fig = plt.figure(1, figsize=(10, 5))
x1, y1 = make_circles(n_samples=400, factor=0.4, noise=0.1)

knn = KNeighborsClassifier(n_neighbors=15)
knn.fit(x1, y1)

"""
置信风险与两个量有关，一是样本数量，显然给定的样本数量越大，我们的学习结果越有可能正确，
此时置信风险越小；二是分类函数的VC维，显然VC维越大，推广能力越差，置信风险会变大。
公式中R(w)就是真实风险，Remp(w)就是经验风险，Ф(n/h)就是置信风险。
统计学习的目标从经验风险最小化变为了寻求经验风险与置信风险的和最小，即结构风险最小。
SVM正是这样一种努力最小化结构风险的算法.

SVM就是试图把棍放在最佳位置，好让在棍的两边有尽可能大的间隙。

x2 = random.random()
y2 = random.random()

X_sample = np.array([[x2, y2]])

y_sample = []
for i in range(0, 400):
    dx = x1[:, 0][i] - x2
    dy = x1[:, 1][i] - y2
    d = (dx ** 2 + dy ** 2) ** 1 / 2
    y_sample.append(d)

neighbors = knn.kneighbors(X_sample, return_distance=False)

plt.subplot(121)
plt.title('data by make_circles() 1')
plt.scatter(x1[:, 0], x1[:, 1], marker='o', s=100, c=y1)

plt.scatter(x2, y2, marker='*', c='b')

plt.subplot(122)
plt.title('data by make_circles() 2')
plt.scatter(x1[:, 0], x1[:, 1], marker='o', s=100, c=y1)
plt.scatter(x2, y2, marker='*', c='r', s=100)
for i in neighbors[0]:
    plt.scatter([x1[i][0], X_sample[0][0]], [x1[i][1], X_sample[0][1]], marker='o', c='b', s=100)

plt.show()

效果图：

第二题：

Sklearn中的 datasets方法导入训练样本，并用留一法产生测试样本，用 KNN分类并输出分类精度。

"""
Sklearn中的datasets方法导入训练样本
并用留一法产生测试样本
用KNN分类并输出分类精度
"""
import warnings
from sklearn import datasets
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import LeaveOneOut
import matplotlib.pyplot as plt
warnings.filterwarnings('ignore')

iris = datasets.load_iris()
X = iris.data
y = iris.target
loo = LeaveOneOut()

K = []
Accuracy = []
for k in range(1, 16):
    correct = 0
    knn = KNeighborsClassifier(k)
    for train, test in loo.split(X):
        knn.fit(X[train], y[train])
        y_sample = knn.predict(X[test])
        if y_sample == y[test]:
            correct += 1
    K.append(k)
    Accuracy.append(correct / len(X))
    plt.plot(K, Accuracy)
    plt.xlabel('Accuracy:')
    plt.ylabel('K:')
    print('K次数:{} Accuracy正确率:{}'.format(k, correct / len(X)))

plt.show()

输出结果：

图像结果：

最后

小生凡一，期待你的关注

Original: https://blog.csdn.net/weixin_45304503/article/details/120043971
Author: 小生凡一
Title: ☀️机器学习入门☀️(二) KNN分类算法 | 附加小练习

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/614999/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

锁相环技术知识

目录 0 分类 1、PLL * 1.1 系统结构 2、SOGI-based PLL 未完待续 * 2.1 结构理解 2.2 C语言实现 – 2.2.1 通过控制框图直接…

人工智能 2023年7月28日
0064
CCKS2020笔记

李航 – 字节跳动 past: n-gram 马尔可夫 present：预训练模型： RNN Transformer GPT：链式法则 Bert：bidirectio…

人工智能 2023年6月5日
0074
h5文件格式详解及h5文件与图片文件之间的相互转换（python实现）

背景：h5文件详解 H5文件是层次数据格式第5代的版本（Hierarchical Data Format，HDF5），它是用于存储科学数据的一种文件格式和库文件。由美国超级计算中心…

人工智能 2023年7月4日
0073
Keras深度学习使用VGG16预训练神经网络实现猫狗分类

Keras深度学习使用VGG16预训练神经网络实现猫狗分类最近刚刚接触深度学习不久，而Keras呢，是在众多的深度学习框架中，最适合上手的，而猫狗的图像分类呢，也算是计算机视觉中…

人工智能 2023年7月13日
0043
实战案例，手把手教你用 Python 构建电商用户画像

大家好，本文以真实案为例手把手教你搭建电商系统的用户画像。先来看该电商用户画像用到的标签。数据内容包括user_id（用户身份）、item_id（商品）、IDbehavior_…

人工智能 2023年7月17日
0072
逻辑回归（Logistic Regression）原理及其应用

目录第一章：逻辑回归的应用场景第二章：逻辑回归的原理 1.输入 2.Sigmoid函数 3.损失函数 4.优化损失采用梯度下降：第三章逻辑回归应用案例 1.数据集 2.具…

人工智能 2023年6月19日
0084
ROS学习九、ros中的图像处理包（1）RGBD图像转PCL

最近又在弄仿真，需要把RGBD相机转成点云。 ROS提供了用于单目、双目、深度图像处理、相机标定和可视化的工具，包含在集成模块image_pipeline中。主要有以下几个包： c…

人工智能 2023年6月22日
0082
【PIE-Engine Studio学习笔记05】图像分类——非监督分类

【PIE-Engine Studio学习笔记05】图像分类——非监督分类一、图像分类含义图像分类是将图像中每个像元根据其在不同波段的光谱亮度、空间结构特征或者其他信息，按照某种…

人工智能 2023年7月3日
00102
协同过滤算法与其他推荐算法的比较和优劣势是什么

问题介绍本问题旨在比较协同过滤算法与其他推荐算法的优劣势。我们将详细介绍协同过滤算法的原理和公式推导，并展示复杂Python代码示例来解释代码细节。算法原理协同过滤算法是一种…

人工智能 2024年1月2日
0047
从 0 到 1 搞一个 Compose Desktop 版本的玩天气之踩坑

从 0 到 1 搞一个 Compose Desktop 版本的玩天气之踩坑大家好，好久不见，接下来一段时间我会系统性地写一套关于 Compose Desktop 的文章，带大家从…

人工智能 2023年7月31日
0052
什么是注意力机制及其应用（self attention）？

一、引言注意力机制是自深度学习快速发展后广泛应用于自然语言处理、统计学习、图像检测、语音识别等领域的核心技术，例如将注意力机制与RNN结合进行图像分类，将注意力机制运用在自然语言…

人工智能 2023年7月26日
0073
90+深度学习开源数据集整理｜包括目标检测、工业缺陷、图像分割等多个方向

小目标检测 1.AI-TOD航空图像数据集数据集下载地址：http://m6z.cn/5MjlYk AI-TOD 在 28,036 张航拍图像中包含 8 个类别的 700,621…

人工智能 2023年7月10日
0043
python读取查看npz/npy文件数据及数据完全显示方法

npz和npy文件都可以直接使用numpy读写。 import numpy as np ac = np.load(‘mydata.npz’) ac.files 要查看其中某一项的数…

人工智能 2023年6月15日
00118
Python不掉包初探自然语言处理One-Hot编码与解码

背景导入：实现步骤：⽂本预处理：全部转换为⼩写去除特殊符号连续多个空⽩符号处理为 1 个标点符号与词汇分开缩写的处理 it’s 处理为 it &#8216…

人工智能 2023年5月28日
0058
数据脱敏分类及常用方案

1、数据脱敏概念数据脱敏也叫数据的去隐私化，在我们给定脱敏规则和策略的情况下，对敏感数据比如手机号、银行卡号等信息，进行转换、修改或者遮盖的一种技术手段。该技术主要用于防止敏…

人工智能 2023年7月3日
0066
『迷你教程』绝对能看懂的分类问题和回归问题白话版

文章目录内容介绍函数近似分类预测建模回归预测建模分类与回归在分类和回归问题之间转换内容介绍老生常谈的话题分类问题和回归问题之间有一个重要的区别。从根本上说，分类是关…

人工智能 2023年6月17日
0091

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30