AI遮天传 ML-KNN

2023年6月24日上午6:53 • 人工智能 • 阅读 70

我们之前学习的方法如决策树、回归分析、贝叶斯分析都可以看作是 三步走 的学习方法，即：

估计问题的特征(如分布)
做出模型假设(LSE、Decision、Tree、MAP、MLE )
找到最优的参数

那么有没有一种学习方法不遵循模型假设+参数估计呢？今天，基于实例的学习方法，它来了！

动机

人们通过记忆和行动来推理学习，思考即回忆、进行类比

近朱者赤近墨者黑

找到和这张图最相似的10张图片

找到两个基因组之间所有匹配的基因片段

那么机器也可以借鉴人类的这种方法，对于已有的记忆进行类比，看一看和记忆中的哪一部分最相像。

一些名词概念

参数化(Parametric) vs 非参数化(Non-parametric)

参数化：

设定一个特定的函数形式
优点：简单，容易估计和解释
缺点：可能存在很大的偏置：实际的数据分布可能不遵循假设的分布

非参数化：

分布或密度的估计是数据驱动的(data-driven)
需要事先对函数形式做的估计很少

基于实例的学习

无需构建模型–仅存储所有的训练样例

直到有新的样例需要分类才开始进行处理

概念表示：

简单来说就是我们给定一个范围，只要不超过这个范围，我们都认为A和B是一类。

一、最近邻(1-NN)

最近邻(1-NN)介绍：

我们描述一个相似度，可以用他们之间的距离来表示，如下图很明显上方的这个点距离中间的这个点是最近的：

下面我们看一个简单的例子：

如图是一张用户是否具有可信度的表格，四列分别表示姓名、每年延迟还款的次数、收入与花销的比值以及该用户是否可信。

在右边可信的用户为绿色，不可信用户为红色，假如这时候来了新的用户，经计算用户I、J坐标如图，那么可见用户I离F最近，认为他们是一类的，可信；用户J离H最近，认为他们是一类的，不可信；

当然谁离谁近这是我们看出来的，正常情况下我们应该通过距离公式去计算，比如：

注：这里之所以缩放距离是因为横纵坐标数值差异比较明显，结果容易受到影响。当然这里对于1-NN只是比较个距离不放缩也可以，但对于后面K-NN就可以通过这种加权的方式淡化差异。

理论结果：

无限多训练样本下1-NN的错误率界限：

因此1-NN的错误率不大于Bayes方法错误率的2倍，可见还是可行的。

思考：

1 . 假如一个点(如下图K)，即离F近又离H近怎么办？

答：常用的三种办法 a.随机选择一个 b.以概率选择 c.再去看下一个离谁近

2 . 最近的便是噪声怎么办？

答：用不止一个邻居，在邻居中进行”投票” —————> k-近邻(KNN)

二、k-近邻(KNN)

k-近邻(KNN)介绍：

使用不止一个点的距离进行计算, 示例：

还是用户是否可信，这次有三个变量：年龄、收入、卡片数，我们可以看到右侧以新用户David为基准点有三组数是比较小的(绿色)，说明这三者(John、Mary、Nellie)与David是一类的，经过投票：No、Yes、Yes—->Yes, 最后认为David是可新用户。

下面我们将会按以下顺序讨论KNN：

距离度量公式
属性的归一化与加权
连续取值目标函数
数字K的选择
打破平局(每个近邻都属于不同的类)
效率–>KD-Tree

1. 距离度量

选择合适的距离度量公式

2. 属性

邻居间的距离可能会被某些取值特别大的属性所支配

因此对特征进行归一化是非常重要的(把数值归一化到 [0-1])。

Log, Max-Min, Sum…

如图当进行归一化后，David的可信结果为Yes。

但仅是这样归一化后对于一些重要特征反而显得决定性作用不那么强了，因此需要进行 属性加权：

在距离空间对维度进行缩放，wk=0——>消除对应的维度(特征)

一个可能的加权方法：

使用互信息/(属性、类别)

H: 熵（entropy）

3. 连续取值目标函数

对于离散型输出，我们可以进行投票

对于连续型输出，可以观察k个近邻训练样例的均值

4. k的选择

多数情况下我们让k=3
取决于训练样例的数目，更大的k 不一定带来更好的效果
交叉验证，每次拿一个样例作为测试，所有其他的作为训练样例
KNN是稳定的，样例中小的混乱不会对结果有非常大的影响

5. 打破平局

如果K=3并且每个近邻都属于不同的类：

P(w|X) = 1/3
找一个新的邻居（第四个)
取最近的邻居所属类
随机选一个
…

之后会讨论一个更好的解决办法

6. 关于效率

KNN算法把所有的计算放在新实例来到时，实时计算开销大。

为了加速对最近邻居的选择

先检验临近的点，忽略比目前找到最近的点更远的点

通过 KD-tree 来实现：

KD-tree: k 维度的树（数据点的维度是 k）
基于树的数据结构
递归地将点划分到和坐标轴平行的方形区域内

KD-Tree构建：

比如空间中有一堆点：

我们可以选择一个维度 X 和分界值 V 将数据点分为两组：X > V 和 X

Original: https://blog.csdn.net/suic009/article/details/125670240
Author: 老师我作业忘带了
Title: AI遮天传 ML-KNN

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/648630/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

从 0 到 1 搞一个 Compose Desktop 版本的玩天气之踩坑

从 0 到 1 搞一个 Compose Desktop 版本的玩天气之踩坑大家好，好久不见，接下来一段时间我会系统性地写一套关于 Compose Desktop 的文章，带大家从…

人工智能 2023年7月30日
0045
机器学习中的数学——距离定义（一）：欧几里得距离（Euclidean Distance）

分类目录：《机器学习中的数学》总目录相关文章：· 距离定义：基础知识· 距离定义（一）：欧几里得距离（Euclidean Distance）· 距离定义（二）：曼哈顿距离（Manh…

人工智能 2023年6月23日
0075
apollo自动驾驶入门课-高精地图

高精度地图用于辅助自动驾驶汽车，与传统地图的区别主要在于两点：高精度地图使得定位精度达到厘米级，可以极大提升无人驾驶汽车的安全性。* 包含丰富的驾驶辅助信息。高精地图中最重要的信…

人工智能 2023年6月10日
0069
深度学习入门 | Self-attention&RNN&LSTM

文章目录词汇转为向量，即Word Embedding * – + cbow skip-gram 声音讯号转为向量 Self-attention * – 提…

人工智能 2023年7月13日
0062
1.python基础

文章目录第一章基础 * 1.注释 2.变量 3.输入输出 – 3.1 输入 3.2 输出 4.转换数据类型 5.运算符 6 条件语句(if) – 三⽬运…

人工智能 2023年7月4日
0040
改变conda虚拟环境的默认路径

anaconda下指定虚拟环境的创建路径conda环境默认安装在用户目录C:\Users\username.conda\envs下，如果选择默认路径，那么之后创建虚拟环境，也是安装…

人工智能 2023年6月16日
0064
RGB相机、深度相机以及LiDAR成像原理

RGB相机成像原理相机结构和原理（入门简版）知乎摄像机模型数学推导相机结构成像原理大名鼎鼎的”拜尔滤镜”CMOS滤镜排列像素尺寸、大小关系景深景…

人工智能 2023年5月26日
0079
使用恒源云服务器跑深度学习（使用pycharm_professional，FileZilla，xshell）

目录一、前言二、操作 1.创建账户 2.使用OSS将本地电脑的数据上传服务器 3.创建实例 4.将服务器数据上传我们的实例（1）开机（2）使用Xshell命令行远程登录（…

人工智能 2023年6月16日
00107
使用yolov5训练自动驾驶目标检测数据集BDD100K

文章目录 * – 一、什么是BDD100K – 二、数据预处理 – 三、环境配置 – 四、修改模型结构 – 五、迁移学习…

人工智能 2023年7月10日
0064
备战数学建模17-回归分析算法

一、一元线性回归 1-一元线性回归及最小二乘法 2-回归方程的显著性检验 3-回归系数的置信区间 4-预测与控制 5-可线性化的一元非线性回归(曲线回归) 二、多元线性回归 1-多…

人工智能 2023年6月17日
0071
机器学习之支持向量机（SVM）的求解方法

文章目录前言梯度下降法 SMO算法参考前言支持向量机就是寻找一个超平面，将不同的样本分分隔开来，其中间隔分为硬间隔和软间隔，硬间隔就是不允许样本分错，而软间隔就是允许一定…

人工智能 2023年6月15日
00170
WGAN(Wasserstein GAN)看这一篇就够啦，WGAN论文解读

WGAN论文地址：[1701.07875] Wasserstein GAN (arxiv.org) WGAN解决的问题原始GAN训练过程中经常遇到的问题：模式崩溃，生成器生成非…

人工智能 2023年6月16日
00114
DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection翻译

摘要我们提出了 DINO(是DETR with Improved deNoising anchOr boxes中的大写字母的缩写)，一个目前最好的端到端的目标检测模型。 DINO…

人工智能 2023年6月17日
0073
OpenCV warpAffine做图像旋转变换90度黑边问题

OpenCV提供两种图像旋转函数，一个是cv2::rotate，只提供90，180，270三种角度的旋转。另一个是使用仿射变换的方式，实现任意角度的变换。为了通用，我们都使用仿射变…

人工智能 2023年7月20日
0084
Spark DataFrame列的合并与拆分

版本说明：Spark-2.3.0 使用Spark SQL在对数据进行处理的过程中，可能会遇到对一列数据拆分为多列，或者把多列数据合并为一列。这里记录一下目前想到的对DataFram…

人工智能 2023年6月2日
0060
电商盲返模式的核心玩法

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月29日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31