KNN学习

2023年7月30日下午1:30 • 人工智能 • 阅读 56

学习B站【什么是KNN（K近邻算法）？【知多少】】 https://www.bilibili.com/video/BV1Ma411F7Y4/?share_source=copy_web&vd_source=d928ac2eb2c6b562d9488d15f78dfbf4

什么是KNN

NN neural network
并不是
KNN 是k-Nearest Neighbors
K 近邻算法是机器学习中常见的分类算法
K-Nearest neighbors for classification

要判断一个新数据的类别
就要看他的邻居都是谁

KNN 中的K指的是【K个】邻居
eg: K=3 就是通过离得最近得3个样本，来判断新数据的类别
大小、颜色是数据的特征
苹果和梨是数据的【标签】

欧式距离：两点之间的直线距离
坐标轴距离的绝对值的和：曼哈顿距离

K的值太小，会受到个别因素的影响
K的值太大，又会受距离较远的特殊数据影响

K的取值受问题自身和数据集大小决定

KNN算法能做什么
讲文本分词、统计词频等处理后判断文章的类型
电商、视频网站可以找到与你类似的用户

But
计算新样本与所有样本的距离
按由近及远的顺序排列后
再按K值进行分类
因此数据越多KNN的计算量越大
效率就越低
很难

# sklearn中的k近邻分类器在sklearn库中，可以使sklearn.neighbors.KNeighborsClassifier
from sklearn.neighbors import KNeighborsClassifier
#设置最近的3个邻居作为分类的依据
neigh = KNeighborsClassifier(n_neighbors= 3, weights = 'uniform', algorithm = 'auto')
#
X=[[0],[1],[2],[3]]
y=[0,0,1,1]
#
neigh.fit(X,y)
#
text = [[1.1],[2.1]]
data = neigh.predict(text)
print(data)
print(neigh.score(X,y))

import csv

读取
import random

with open('Prostate_Cancer.csv','r') as file:
    # 以一个字典的形式来读取文件
    reader = csv.DictReader(file)

    # for row in reader:
        # orderdict 是有序的字典
        # print(row)

    # for row in reader是做一个推到
    # row把所有的row都给抽出来
    # 存到一个datas里面
    datas = [row for row in reader]

    #读取
    # [{'id': '1', 'diagnosis_result': 'M', 'radius': '23', 'texture': '12', 'perimeter': '151', 'area': '954', 'smoothness': '0.143', 'compactness': '0.278', 'symmetry': '0.242', 'fractal_dimension': '0.079'},
    # print(datas)

分组
先打乱顺序
random.shuffle(datas)
一个训练组，一个测试组
确保我的算法是有效的
出来是个小数，用整除
n = len(datas)
print(n)

test_set = datas[0:n]
train_set= datas[n:]

距离
def distance(d1,d2):
    res = 0

    for key in ("radius","texture","perimeter","area","smoothness","compactness","symmetry","fractal_dimension"):
        res+=(float(d1[key])-float(d2[key]))**2

    return res**0.5

K = 5
def knn(data):
    #距离
    res=[
        {"result":train['diagnosis_result'],"distance":distance(data,train)}
        for train in train_set
    ]
    #升序排列
    sorted(res,key=lambda item:item['distance'])
    # print(res)

    #取前K个
    res2 = res[0:K]
    # print(res2)
    #加权平均
    result = {'B':0,'M':0}
    # 总距离
    sum=0
    for r in res2:
        sum+=r['distance']

    for r in res2:
        result[r['result']]+=1-r['distance']/sum

    if result['B']>result['M']:
        return 'B'
    else:
        return 'M'

correct = 0
for test in test_set:
    result = test['diagnosis_result']
    result2 = knn(test)

    if result == result2:
        correct += 1

print("准确率:{:2f}%".format(100*correct/len(test_set)))

knn(test_set[0])

Original: https://blog.csdn.net/weixin_44522477/article/details/128351227
Author: weixin_44522477
Title: KNN学习

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/724144/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

为什么回归直线过平均值点_如何理解线性回归方程？

下面是机器学习的《监督式学习》课程的一篇试读文章，进行了一下重新排版，然后展示在这里。由于格式的限制，缺少了一些习题、可运行的代码、证明、注释等，可能会导致解释差强人意，所以介意的…

人工智能 2023年6月18日
00117
相机标定参数格式Halcon转Opencv

一、Opencv相机标定格式：内参矩阵：内参矩阵参数含义： f：焦距，单位毫米；dx：像素x方向宽度，单位毫米；1/dx:x方向1mm内有多少个像素； f/dx：使用像素来描述…

人工智能 2023年7月20日
0065
信息论、通信系统模型

参考：《信息论与编码》邓家先什么是信息论？信息论 (Information Theory) 是通信中的数学理论，是研究信息的传输、存储和处理的科学主要回答两个问题：有效…

人工智能 2023年5月27日
00122
基于N-gram模型的中文文本纠错研究

中文拼写检查(CSC)在今天仍然是一个热门话题，也是一个悬而未决的问题。N元语法语言建模(LM)以其简单性和强大功能在CSC中得到了广泛的应用。 1. 整体概述下图为系统的整体流…

人工智能 2023年5月31日
0072
win10安装TensorRT（C++，Python）

文章目录前言一、先决条件二、TensorRT下载 * 1.官网下载 2.C++ 3.Python 总结前言本偏文章主要用于记录Win10上TensorRT的安装过程。C+…

人工智能 2023年6月17日
00104
Python之Pandas

Python之pandas 文章目录 * – Python之pandas – + 环境：jupyter Notebook(Anaconda) + * 1.引…

人工智能 2023年7月15日
0065
【数据挖掘】2022年深信服科技机器学习工程师笔试

企业：深信服科技机器学习工程师 1、均衡二叉树，概念是n-1层的数是满二叉树，当有400个节点，树的高度为多少？答案：9n-1是完全二叉树，则高度为n-1的完全二叉树结点数为…

人工智能 2023年6月15日
0086
roc曲线spss怎么做_SPSS单因素ROC曲线及多因素联合诊断ROC曲线绘制（原创手把手） – 医学统计和生物统计讨论版 -丁香园论坛…

最近被好几个师弟师妹问到ROC曲线的绘制，尤其是多因素联合诊断ROC曲线的绘制(如下图这样的怎么做)，所以干脆好好总结一下：一、单因素ROC曲线其实这个最简单，估计很多人也会，…

人工智能 2023年6月18日
0088
数字图像处理之校园交通标志检测与识别

文章目录背景综述设计目的实现过程 * 第一步为了更好地进行信息的交互，需要先设计基于Matlab的GUI界面设计第二步其次我们需要读入含有交通标志的图像第三步接下来是对原…

人工智能 2023年6月17日
00104
Operations on Null Values in Pandas

Detecting null values pandas data structures have two useful methods for detecting null da…

人工智能 2023年6月11日
0095
【机器学习sklearn】高斯朴素贝叶斯 Gaussian naive bayes

贝叶斯Bayes – Thomas Bayes 前言一、贝叶斯决策论（Bayesian decision theory）二、实例：高斯朴素贝叶斯 Gaussian …

人工智能 2023年6月30日
0089
基于Java的图书管理系统（附源码和课件）

项目介绍图书管理系统作为图书馆数字化、智能化平台,是提升书籍管理能力的重要举措,为更好地发挥管理系统的技术优势,针对管理系统使用需求,本文尝试以Java技术为框架,通过必要的编码…

人工智能 2023年7月29日
0069
CIFAR-100数据集卷积神经网络训练

目录 1. CIFAR-10数据集介绍 2. 问题说明 3. 模型训练过程 4. 结果可视化 1. CIFAR-100数据集介绍这个数据集就像CIFAR-10，除了它有100个类…

人工智能 2023年7月21日
0086
PPLiteSeg实时语义分割预测结果输出控制无人车转向角度方向实现沿车道无人驾驶

一、前言承接上文已经完成对数据集的训练和对框架的修改实现实时输出mask的预测结果，但是仅仅做到这些是无法实现无人驾驶的。 PPLiteSeg训练自己的数据集实现自动驾驶并爆改制…

人工智能 2023年7月19日
0084
PIE Engine系列2 数据的上传、调用及下载（附源码超详细）

目录一、数据上传 1.矢量数据上传 2.栅格数据上传二、数据的调用 1.矢量数据的调用 2.影像数据的调用三、数据导出下载 1.矢量数据导出下载 2.栅格数据导出下载 3.导…

人工智能 2023年7月15日
0084
语义分割系列11-DAnet（pytorch实现）

DAnet：Dual Attention Network for Scene Segmentation 发布于CVPR2019，本文将进行DAnet的论文讲解和复现工作。论文部分…

人工智能 2023年7月21日
0083

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

KNN学习

大家都在看