KNN算法推理与实现

2023年7月1日下午2:58 • 人工智能 • 阅读 87

Overview

K近邻值算法 KNN (K — Nearest Neighbors) 是一种机器学习中的分类算法；K-NN是一种 非参数的 惰性学习算法。非参数意味着没有对基础数据分布的假设，即模型结构是从数据集确定的。

它被称为 惰性算法的原因是，因为它不需要任何训练数据点来生成模型。所有训练数据都用于测试阶段，这使得训练更快，测试阶段更慢且成本更高。

如何工作

KNN 算法是通过计算新对象与训练数据集中所有对象之间的距离，对新实例进行分类或回归预测。然后选择训练数据集中距离最小的 K 个示例，并通过平均结果进行预测。

如图所示：一个未分类的数据（红色）和所有其他已分类的数据（黄色和紫色），每个数据都属于一个类别。因此，计算未分类数据与所有其他数据的距离，以了解哪些距离最小，因此当K= 3 （或K= 6 ）最接近的数据并检查出现最多的类，如下图所示，与新数据最接近的数据是在第一个圆圈内（圆圈内）的数据，在这个圆圈内还有 3 个其他数据（已经用黄色分类），我们将检查其中的主要类别，会被归类为紫色，因为有2个紫色球，1个黄色球。

; KNN算法要执行的步骤

将数据分为训练数据和测试数据
选择一个值 K
确定要使用的距离算法
从需要分类的测试数据中选择一个样本，计算到它的 n 个训练样本的距离。
对获得的距离进行排序并取 k最近的数据样本。
根据 k 个邻居的多数票将测试类分配给该类。

影响KNN算法性能的因素

用于确定最近邻居的距离的算法
用于从 K 近邻派生分类的决策规则
用于对新示例进行分类的邻居 *数

如何计算距离

测量距离是KNN算法的核心，总结了问题域中两个对象之间的相对差异。比较常见的是，这两个对象是描述主题（例如人、汽车或房屋）或事件（例如购买、索赔或诊断）的数据行。

汉明距离

汉明距离（ Hamming Distance）计算两个二进制向量之间的距离，也简称为二进制串 binary strings 或位串 bitstrings；换句话说，汉明距离是将一个字符串更改为另一个字符串所需的最小替换次数，或将一个字符串转换为另一个字符串的最小错误数。

示例：如一列具有类别 “红色”、”绿色” 和 “蓝色”，您可以将每个示例独热编码为一个位串，每列一个位。

注：独热编码 one-hot encoding：将分类数据，转换成二进制向量表示，这个二进制向量用来表示一种特殊的bit（二进制位）组合，该字节里，仅容许单一bit为1，其他bit都必须为0
如：
applebananapineapple100010001100 表示苹果，100就是苹果的二进制向量
010 表示香蕉，010就是香蕉的二进制向量

red = [1, 0, 0]
green = [0, 1, 0]
blue = [0, 0, 1]

而red和green之间的距离就是 两个等长bitstrings之间bit差（对应符号不同的位置）的总和或平均数，这就是汉明距离

H a m m i n g D i s t a n c e d ( a , b ) = s u m ( x i ! = y i f o r x i , y i i n z i p ( x , y ) ) Hamming Distance d(a, b)\ =\ sum(xi\ !=\ yi\ for\ xi,\ yi\ in\ zip(x, y))H a m m i n g D i s t a n c e d (a ,b )=s u m (x i !=y i f o r x i ,y i i n z i p (x ,y ))

上述的实现为：

def hammingDistance(a, b):
    if len(a) != len(b):
        raise ValueError("Undefined for sequences of unequal length.")
    return sum(abs(e1 - e2) for e1, e2 in zip(a, b))

row1 = [0, 0, 0, 0, 0, 1]
row2 = [0, 0, 0, 0, 1, 0]

dist = hammingDistance(row1, row2)
print(dist)

可以看到字符串之间有两个差异，或者 6 个位位置中有 2 个不同，平均 (2/6) 约为 1/3 或 0.333。


from scipy.spatial.distance import hamming

row1 = [0, 0, 0, 0, 0, 1]
row2 = [0, 0, 0, 0, 1, 0]

dist = hamming(row1, row2)
print(dist)

欧几里得距离

欧几里得距离（ Euclidean distance）是计算两个点之间的距离。在计算具体的数值（例如浮点数或整数）的两行数据之间的距离时，您最有可能使用欧几里得距离。

欧几里得距离计算公式为两个向量之间的平方差之和的平方根。

E u c l i d e a n D i s t a n c e = ∑ ( a − b ) 2 EuclideanDistance=\sqrt[]{\sum(a-b)^2}E u c l i d e a n D i s t a n c e =∑(a −b )2

如果要执行数千或数百万次距离计算，通常会去除平方根运算以加快计算速度。修改后的结果分数将具有相同的相对比例，并且仍然可以在机器学习算法中有效地用于查找最相似的示例。

E u c l i d e a n D i s t a n c e = s u m f o r i t o N ( v 1 [ i ] – v 2 [ i ] ) 2 EuclideanDistance = sum\ for\ i\ to\ N\ (v1[i]\ –\ v2[i])^2 E u c l i d e a n D i s t a n c e =s u m f o r i t o N (v 1 [i ]–v 2 [i ])2


from math import sqrt
from scipy.spatial.distance import euclidean

def euclidean_distance(a, b):
    return sqrt(sum((e1-e2)**2 for e1, e2 in zip(a,b)))

row1 = [10, 20, 15, 10, 5]
row2 = [12, 24, 18, 8, 7]

dist = euclidean_distance(row1, row2)
print(dist)
print(euclidean(row1, row2))

曼哈顿距离

曼哈顿距离（ Manhattan distance ）又被称作出租车几何学 Taxicab geometry；用于计算两个向量之间的距离。

对于描述网格上的对象（如棋盘或城市街区）的向量可能更有用。出租车在城市街区之间采取的最短路径（网格上的坐标）。

粗略地说，欧几里得几何是中学常用的平面几何和立体几何 Plane geometry

曼哈顿距离可以理解为：欧几里得空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和。

图中：红、蓝与黄线分别表示所有曼哈顿距离都拥有一样长度（12），绿线表示欧几里得距离 6 × 2 ≈ 8.48 6×\sqrt2 ≈ 8.48 6 ×2 ≈8 .4 8

对于整数特征空间中的两个向量，应该计算曼哈顿距离而不是欧几里得距离

曼哈顿距离在二维平面的计算公式是，在X轴的亮点

M a n h a t t a n d i s t a n c e d ( x , y ) = ∣ x 1 − x 2 ∣ + ∣ y 1 − y 2 ∣ Manhattandistance\ d(x,y)=\left|x_{1}-x_{2}\right|+\left|y_{1}-y_{2}\right|M a n h a t t a n d i s t a n c e d (x ,y )=∣x 1 −x 2 ∣+∣y 1 −y 2 ∣

如果所示，描述格子和格子之间的距离可以用曼哈顿距离，如国王移动到右下角的距离是？

K i n g = ∣ 6 − 8 ∣ + ∣ 6 − 1 ∣ = 7 King=|6-8|+|6-1| = 7 K i n g =∣6 −8 ∣+∣6 −1 ∣=7

两个向量间的距离可以表示为 M D = Σ ∣ A i – B i ∣ MD\ =\ Σ|Ai – Bi|M D =Σ∣A i –B i ∣

python中的公式可以表示为： sum(abs(val1-val2) for val1, val2 in zip(a,b))

from scipy.spatial.distance import cityblock

def manhattan_distance(a, b):
    return sum(abs(e1-e2) for e1, e2 in zip(a,b))

row1 = [10, 20, 15, 10, 5]
row2 = [12, 24, 18, 8, 7]

dist = manhattan_distance(row1, row2)
print(dist)
print(cityblock(row1, row2))

闵可夫斯基距离

闵可夫斯基距离（ Minkowski distance）并不是一种距离而是对是 欧几里得距离和 曼哈顿距离的概括，用来计算两个向量之间的距离。

闵可夫斯基增并添加了一个参数，称为” 阶数“或 p：KaTeX parse error: Expected ‘}’, got ‘EOF’ at end of input: …)^p)^\frac{1}{p

在python中的公式：

(sum for i to N (abs(v1[i] – v2[i]))^p)^(1/p)

p 是一个有序的参数，当 p = 1 p=1 p =1 时，计算的是曼哈顿距离。当 p = 2 p=2 p =2 时，计算的是欧几里得距离。

在实现使用距离度量的机器学习算法时，通常会使用闵可夫斯基距离，因为可以通过调整参数” p “控制用于向量的距离度量算法的类型。

from scipy.spatial import minkowski_distance

def minkowski_distance(a, b, p):
    return sum(abs(e1-e2)**p for e1, e2 in zip(a,b))**(1/p)

row1 = [10, 20, 15, 10, 5]
row2 = [12, 24, 18, 8, 7]

dist = minkowski_distance(row1, row2, 1)

print(dist)

dist = minkowski_distance(row1, row2, 2)
print(dist)

print(minkowski_distance(row1, row2, 1))
print(minkowski_distance(row1, row2, 2))

KNN算法实现

Prerequisite

首先会用示例来实现KNN算法的每个步骤，并加以分析，然后将所有步骤关联在在一起，形成一个适用于真实数据集的实现。

KNN在实现起来主要有三个步骤：

计算距离（这里选择欧几里得距离）
获得临近邻居
做出预测

这三个步骤是KNN算法用以解决分类和回归预测建模问题的基础知识

计算距离

第一步计算数据集中两行之间的距离。在数据集中的数据行主要由数字组成，计算两行或数字向量之间的距离的一种简单方法是画一条直线。这在 2D 或 3D 平面中都是很好地选择，并且可以很好地扩展到更高的维度。

这里使用的是比较流行的计算距离的算法， 欧几里得距离来计算两个向量之间的直线距离。欧几里得距离的公式是，两个向量的平方差的平方根，E u c l i d e a n D i s t a n c e = ∑ ( a − b ) 2 Euclidean\ Distance=\sqrt[]{\sum(a-b)^2}E u c l i d e a n D i s t a n c e =∑(a −b )2 ；在python中可以表示为： sqrt(sum i to N (x1 – x2)^2) ；其中 x1 是第一行数据， x2 是第二行数据， i 表示特定列的索引，因为可能需要对所有行进行计算。

在欧几里得距离中，值越小，两条记录就越相似； 0 表示两条记录之间没有差异。

那么使用python实现一个计算欧几里得距离的算法

def euclidean_distance(row1, row2):
    distance = 0.0
    for i in range(len(row1)-1):
        distance += (row1[i] - row2[i])**2
    return sqrt(distance)

准备一部分测试数据，来对测试距离算法

X1              X2                  Y
2.7810836       2.550537003         0
1.465489372     2.362125076         0
3.396561688     4.400293529         0
1.38807019      1.850220317         0
3.06407232      3.005305973         0
7.627531214     2.759262235         1
5.332441248     2.088626775         1
6.922596716     1.77106367          1
8.675418651     -0.242068655        1
7.673756466     3.508563011         1

那么来测试这些数据，需要做到的是第一行与所有行之间的距离，对于第一行与自己的距离应该为 0

from math import sqrt

def euclidean_distance(row1, row2):
    distance = 0.0
    for i in range(len(row1)-1):
        distance += (row1[i] - row2[i])**2
    return sqrt(distance)

dataset = [
    [2.7810836,2.550537003,0],
    [1.465489372,2.362125076,0],
    [3.396561688,4.400293529,0],
    [1.38807019,1.850220317,0],
    [3.06407232,3.005305973,0],
    [7.627531214,2.759262235,1],
    [5.332441248,2.088626775,1],
    [6.922596716,1.77106367,1],
    [8.675418651,-0.242068655,1],
    [7.673756466,3.508563011,1]
]
row0 = dataset[0]
for row in dataset:
    distance = euclidean_distance(row0, row)
    print(distance)

获取最近邻居

数据集中新数据的邻居是k个最接近的实例（行），这个实例由距离定义。现在诞生的问题： 如何找到最近的邻居？以及怎么找到最近的邻居？

为了在数据集中找到 K 的邻居，首先必须计算数据集中每条记录与新数据之间的距离。
有了距离之后，必须按照 K 的距离对训练集中的所有实例排序。然后选择前 k 个作为最近的邻居。

这里实现起来是通过将数据集中每条记录的距离作为一个元组来跟踪，通过对元组列表进行排序（距离降序），然后检索最近邻居。下面是一个实现这些步骤的函数


def get_neighbors(train, test_row, num_neighbors):
"""
    计算训练集train中所有元素到test_row的距离
    :param train: list, 数据集，可以是训练集
    :param test_row: list, 新的实例，也就是K
    :param num_neighbors:int，需要多少个邻居
    :return: None
"""
    distances = list()
    for train_row in train:

        dist = euclidean_distance(test_row, train_row)
        distances.append((train_row, dist))
    distances.sort(key=lambda knn: knn[1])
    neighbors = list()
    for i in range(num_neighbors):
        neighbors.append(distances[i][0])
    return neighbors

下面是完整的示例

from math import sqrt

def euclidean_distance(row1, row2):
    distance = 0.0
    for i in range(len(row1)-1):
        distance += (row1[i] - row2[i])**2
    return sqrt(distance)

def get_neighbors(train, test_row, num_neighbors):
"""
    计算训练集train中所有元素到test_row的距离
    :param train: list, 数据集，可以是训练集
    :param test_row: list, 新的实例，也就是K
    :param num_neighbors:int，需要多少个邻居
    :return: None
"""
    distances = list()
    for train_row in train:

        dist = euclidean_distance(test_row, train_row)
        distances.append((train_row, dist))
    distances.sort(key=lambda knn: knn[1])
    neighbors = list()
    for i in range(num_neighbors):
        neighbors.append(distances[i][0])
    return neighbors

dataset = [
    [2.7810836,2.550537003,0],
    [1.465489372,2.362125076,0],
    [3.396561688,4.400293529,0],
    [1.38807019,1.850220317,0],
    [3.06407232,3.005305973,0],
    [7.627531214,2.759262235,1],
    [5.332441248,2.088626775,1],
    [6.922596716,1.77106367,1],
    [8.675418651,-0.242068655,1],
    [7.673756466,3.508563011,1]
]

neighbors = get_neighbors(dataset, dataset[0], 3)
for neighbor in neighbors:
    print(neighbor)

可以看到，运行后会将数据集中最相似的 3 条记录按相似度顺序打印。和预测的一样，第一个记录与其本身最相似，并且位于列表的顶部。

预测结果

预测结果在这里指定是，通过分类拿到了最近的邻居的实例，对邻居进行分类，找到邻居中最大类别的一类，作为预测值。这里使用的是对邻居值执行 max() 来实现这一点，下面是实现方式


def predict_classification(train, test_row, num_neighbors):
"""
    计算训练集train中所有元素到test_row的距离
    :param train: list, 数据集，可以是训练集
    :param test_row: list, 新的实例，也就是K
    :param num_neighbors:int，需要多少个邻居
    :return: None
"""
    neighbors = get_neighbors(train, test_row, num_neighbors)
    output_values = [row[-1] for row in neighbors]
    prediction = max(set(output_values), key=output_values.count)
    return prediction

下面是完整的示例

from math import sqrt

def euclidean_distance(row1, row2):
    distance = 0.0
    for i in range(len(row1)-1):
        distance += (row1[i] - row2[i])**2
    return sqrt(distance)

def get_neighbors(train, test_row, num_neighbors):
"""
    计算训练集train中所有元素到test_row的距离
    :param train: list, 数据集，可以是训练集
    :param test_row: list, 新的实例，也就是K
    :param num_neighbors:int，需要多少个邻居
    :return: None
"""
    distances = list()
    for train_row in train:

        dist = euclidean_distance(test_row, train_row)
        distances.append((train_row, dist))
    distances.sort(key=lambda knn: knn[1])
    neighbors = list()
    for i in range(num_neighbors):
        neighbors.append(distances[i][0])
    return neighbors

def predict_classification(train, test_row, num_neighbors):
"""
    计算训练集train中所有元素到test_row的距离
    :param train: list, 数据集，可以是训练集
    :param test_row: list, 新的实例，也就是K
    :param num_neighbors:int，需要多少个邻居
    :return: None
"""
    neighbors = get_neighbors(train, test_row, num_neighbors)
    output_values = [row[-1] for row in neighbors]
    prediction = max(set(output_values), key=output_values.count)
    return prediction

dataset = [
    [2.7810836,2.550537003,0],
    [1.465489372,2.362125076,0],
    [3.396561688,4.400293529,0],
    [1.38807019,1.850220317,0],
    [3.06407232,3.005305973,0],
    [7.627531214,2.759262235,1],
    [5.332441248,2.088626775,1],
    [6.922596716,1.77106367,1],
    [8.675418651,-0.242068655,1],
    [7.673756466,3.508563011,1]
]

for n in range(len(dataset)):
    prediction = predict_classification(dataset, dataset[n], 5)
    print('Expected %d, Got %d.' % (dataset[n][-1], prediction))

运行结果打印了预期分类与从数据集中 3 个相进邻居预测结果是一直的。

鸢尾花种实例

这里使用的是 Iris Flower Species 数据集。

鸢尾花数据集是根据鸢尾花的测量值预测花卉种类。这是一个多类分类问题。每个类的观察数量是平衡的。有 150 个观测值，有 4 个输入变量和 1 个输出变量。变量名称如下：

萼片长度以厘米为单位。
萼片宽度以厘米为单位。
花瓣长度以厘米为单位。
花瓣宽度以厘米为单位。
真实类型

更多的关于数据集的说明可以参考：Iris-databases数据集的说明

Prerequisite

实验的步骤大概分为如下：

加载数据集并将数据转换为可用于均值和标准差计算的数字。将属性转为float，将类别转换为int。
使 5折的 K折较差验证（ K-Fold CV）评估该算法。

Start

from random import seed
from random import randrange
from csv import reader
from math import sqrt

def load_csv(filename):
    dataset = list()
    with open(filename, 'r') as file:
        csv_reader = reader(file)
        for row in csv_reader:
            if not row:
                continue
            dataset.append(row)
    return dataset

def str_column_to_float(dataset, column):
    for row in dataset:
        row[column] = float(row[column].strip())

def str_column_to_int(dataset, column):
    class_values = [row[column] for row in dataset]
    unique = set(class_values)
    lookup = dict()
    for i, value in enumerate(unique):
        lookup[value] = i
    for row in dataset:
        row[column] = lookup[row[column]]
    return lookup

def cross_validation_split(dataset, n_folds):
    dataset_split = list()
    dataset_copy = list(dataset)

    fold_size = int(len(dataset) / n_folds)
    for _ in range(n_folds):
        fold = list()
        while len(fold) < fold_size:
            index = randrange(len(dataset_copy))
            fold.append(dataset_copy.pop(index))
        dataset_split.append(fold)
    return dataset_split

def accuracy_metric(actual, predicted):
    correct = 0
    for i in range(len(actual)):
        if actual[i] == predicted[i]:
            correct += 1
    return correct / float(len(actual)) * 100.0

def evaluate_algorithm(dataset, algorithm, n_folds, *args):
"""
    评估算法，计算算法的精确度
    :param dataset: list, 数据集
    :param algorithm: function, 算法名
    :param n_folds: int，折数
    :param args: 用于algorithm的参数
    :return: None
"""
    folds = cross_validation_split(dataset, n_folds)
    scores = list()
    for fold in folds:
        train_set = list(folds)
        train_set.remove(fold)
        train_set = sum(train_set, [])
        test_set = list()
        for row in fold:
            row_copy = list(row)
            test_set.append(row_copy)
            row_copy[-1] = None
        predicted = algorithm(train_set, test_set, *args)
        actual = [row[-1] for row in fold]
        accuracy = accuracy_metric(actual, predicted)
        scores.append(accuracy)
    return scores

def euclidean_distance(row1, row2):
    distance = 0.0
    for i in range(len(row1)-1):
        distance += (row1[i] - row2[i])**2
    return sqrt(distance)

def get_neighbors(train, test_row, num_neighbors):
"""
    计算训练集train中所有元素到test_row的距离
    :param train: list, 数据集，可以是训练集
    :param test_row: list, 新的实例，也就是K
    :param num_neighbors:int，需要多少个邻居
    :return: None
"""
    distances = list()
    for train_row in train:
        dist = euclidean_distance(test_row, train_row)
        distances.append((train_row, dist))
    distances.sort(key=lambda tup: tup[1])
    neighbors = list()
    for i in range(num_neighbors):
        neighbors.append(distances[i][0])
    return neighbors

def predict_classification(train, test_row, num_neighbors):
"""
    计算训练集train中所有元素到test_row的距离
    :param train: list, 数据集，可以是训练集
    :param test_row: list, 新的实例，也就是K
    :param num_neighbors:int，需要多少个邻居
    :return: None
"""
    neighbors = get_neighbors(train, test_row, num_neighbors)
    output_values = [row[-1] for row in neighbors]
    prediction = max(set(output_values), key=output_values.count)
    return prediction

def k_nearest_neighbors(train, test, num_neighbors):
    predictions = list()
    for row in test:
        output = predict_classification(train, row, num_neighbors)
        predictions.append(output)
    return(predictions)

seed(1)
filename = 'iris.csv'
dataset = load_csv(filename)
for i in range(len(dataset[0])-1):
    str_column_to_float(dataset, i)

str_column_to_int(dataset, len(dataset[0])-1)

n_folds = 5
num_neighbors = 5
scores = evaluate_algorithm(dataset, k_nearest_neighbors, n_folds, num_neighbors)
print('Scores: %s' % scores)
print('Mean Accuracy: %.3f%%' % (sum(scores)/float(len(scores))))

上述是对整个数据集的预测百分比，也可以对对应的类的信息进行输出

首先在类别转换函数 str_column_to_int 中增加打印方法

for i, value in enumerate(unique):
    lookup[value] = i
    print('[%s] => %d' % (value, i))

然后在定义一个新的实例，这个实例是用于预测的信息 row = [5.7,2.9,4.2,1.3] ; 然后修改需要预测的数据，进行预测


row = [5.7,2.9,4.2,1.3]

label = predict_classification(dataset, row, num_neighbors)
print('Data=%s, Predicted: %s' % (row, label))

通过预测，可以看出预测结果属于第 1 类，就知道该花为 Iris-setosa 。

Reference
distance measures

Original: https://blog.csdn.net/sinat_24092079/article/details/124351959
Author: Hermokrates
Title: KNN算法推理与实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/663534/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

我在阿里做测试，入职5个月的回顾与总结

初来阿里实习的时候，我对测试人员的职责知之甚少，在校时更是从未接触过测试工作。一头雾水之际，主管说：”做项目吧，在实战中快速成长”。从学生到校招生，我在思维…

人工智能 2023年7月29日
0073
Pandas: 数据合并

1.记录合并记录合并是指将两个结构相同的数据框合并成一个数据框，也就是在一个数据框中追加另一个数据框的数据记录。 1.1 concat 函数函数说明：concat方法相当于数据…

人工智能 2023年7月8日
0066
简单的聊天机器人（软件机器人）拥有QA机器人，闲聊机器人，任务机器人，场景机器人等等一些。

一、智能聊天机器人 1.智能聊天机器人使用自然语言来模拟一种形式的人类对话。人机对话的流程。 [En] Use natural language to simulate a fo…

人工智能 2023年5月25日
0080
用于执行分类、回归、聚类和密度估计的机器学习算法列表

监督学习一般使用两种类型的目标变量：标称型和数值型。标称型目标变量的结果只从有限目标集中取值，主要用于分类；数值型目标变量从无限的数值集合中取值，主要用于回归分析。《机器学习基础…

人工智能 2023年6月18日
00105
Waymo数据集使用介绍（waymo-open-dataset）

关于waymo数据集的介绍很多博客都有详细说明了，但是具体有哪些数据？waymo可视化工具如何使用？这些信息又如何读取？浏览了一圈发现寥寥无几，这里简单做个整理，方便读者理解也方便…

人工智能 2023年5月26日
00197
10个Pandas的小技巧

pandas是数据科学家必备的数据处理库，我们今天总结了10个在实际应用中肯定会用到的技巧 1、Select from table where f1=’a’…

人工智能 2023年7月8日
0086
半监督学习算法在图像识别任务中的应用是什么

问题：半监督学习算法在图像识别任务中的应用是什么？详细介绍半监督学习是一种机器学习方法，能够在标记样本有限的情况下，利用大量的未标记样本进行模型训练。在图像识别任务中，半监督学…

人工智能 2024年1月1日
0039
路径规划与优化学习系列（一）—路径规划算法

路径规划与优化学习系列（一）—路径规划算法前言几个月来浑浑噩噩，人生这张地图实在太大了，顿时觉得人生之路障碍重重、迷茫不清，故此受人启发，一学路径规划之法，以解心头之困，以便找…

人工智能 2023年7月26日
0075
六、Pandas高级处理（缺失值、离散化、合并、交叉表与透视表、分组和聚合）

文章目录 python编程快速上手（持续更新中…） * 5.7 高级处理-缺失值处理 – 1 如何处理nan 2 电影数据的缺失值处理 + 2.1 判断缺失…

人工智能 2023年7月18日
0075
f.grid_sample

SPATIAL TRANSFORMER NETWORKS TUTORIAL Author: Ghassen HAMROUNI In this tutorial, you will …

人工智能 2023年7月21日
0064
ubuntu18.04配置ORB-SLAM3（包含ROS）完整版教程

ORB_SLAM3安装教程 ORB_SLAM3安装准备 * 1、C++11 or C++0x Compiler 2、Pangolin ==出现的问题== 3、OpenCV安装 4、…

人工智能 2023年6月1日
0099
深度学习第8天–线性模型1

重点1：一元线性回归与多元线性回归在记录这次学习笔记之前，先回顾一下线性模型的基本形式：在数学上，线性函数是只拥有一个变量的一阶多项式函数，我们把能够用f(ax+by)=af(x…

人工智能 2023年6月18日
00105
OpenCV之高通滤波

高通滤波最主要的作用是检测边缘Sobel（索贝尔）（高斯）：对噪音适用性很强，在内部首先使用了高斯滤波对噪音进行过滤，之后再通过一阶导求得图像边缘。【若卷积核size设置为-1，则…

人工智能 2023年7月20日
0066
从0手撸Gamma回归

模型公式线性回归、逻辑回归、泊松回归。。。各种各样的回归可以抽象出一个通用线性回归通用线性回归模型 [Generalized Linear Models (GLM)]： y ^…

人工智能 2023年6月18日
0060
pytorch :OSError: [WinError 1455] 页面文件太小，无法完成操作。 Error loading 【已解决】

OSError: [WinError 1455] 页面文件太小，无法完成操作。 Error loading “D:\ProgramData\Anaconda3\envs…

人工智能 2023年7月23日
0055
机器学习相关解答

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月17日
0076

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

KNN算法推理与实现

Overview

如何工作

; KNN算法要执行的步骤

影响KNN算法性能的因素

如何计算距离

汉明距离

欧几里得距离

曼哈顿距离

闵可夫斯基距离

KNN算法实现

Prerequisite

计算距离

获取最近邻居

预测结果

鸢尾花种实例

Prerequisite

Start

大家都在看