机器学习实战|使用K-临近算法改进约会网站的配对效果

2023年9月5日上午3:16 • Python • 阅读 37

1 准备数据：从文本文件中解析数据

datingTestSet.txt:

每列分别代表每年获得的飞行常客里程数、玩游戏视频所耗时间百分比、每周消费的冰淇淋公升数、不喜欢/魅力一般/极具魅力（即标签）

datingTestSet2.txt:

使用file2matrix函数处理输入格式问题，使分类器可以接受：
输入为文件名字符串，输出为训练样本矩阵和类标签向量。代码如下：

def file2matrix(filename):
    fr = open(filename)
    arrayOLines = fr.readlines()
    numberOfLines = len(arrayOLines)
    returnMat = zeros((numberOfLines, 3))
    classLabelVector = []
    index = 0
    for line in arrayOLines:
        line = line.strip()
        listFromLine = line.split('\t')

        returnMat[index, :] = listFromLine[0:3]

        classLabelVector.append(int(listFromLine[-1]))

        index += 1
    return returnMat, classLabelVector

命令行中运行：

2 分析数据：使用matplotlib创建散点图

涉及的一些函数：
add_subplot(abc):将画布分割成a行b列，图象画在从左到右从上到下的第c块
scatter(x,y) 在向量 x 和 y 指定的位置创建一个包含圆形的散点图。该类型的图形也称为气泡图

绘制出散点图如图：

该散点图使用datingDataMat矩阵的第二列、第三列数据，分别表示特征值”玩视频所耗时间百分比”和”每周所消费冰淇淋公升书”
此时没有使用样本分类的特征值，不能获得有效信息。
一般会采用色彩或其他记号来标记不同样本分类，以更好理解数据信息

ax.scatter(datingDataMat[:, 1], datingDataMat[:, 2], 15.0 * array(datingLabels), 15.0 * array(datingLabels))

注：*15用于放大散点的尺寸，便于观察

; 3 准备数据：归一化数值

常用方法：将取值范围处理为0到1或-1到1之间
如转化为0-1区间内的值可用公式：

newValue=(oldValue-min)/(max-min)

min、max分别为数据集中的最小特征值和最大特征值。
下面使用autoNorm()函数自动将数字特征值转化为0到1的区间

def autoNorm(dataSet):
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals
    normDataSet = zeros(shape(dataSet))
    m = dataSet.shape[0]
    normDataSet = dataSet - tile(minVals, (m, 1))
    normDataSet = normDataSet / tile(ranges, (m, 1))

    return normDataSet, ranges, minVals

在命令行中执行：

normMat,ranges,minVals=kNN.autoNorm(datingDataMat)

注：返回ranges,minVals是为了后序测试数据

4 测试算法：作为完整程序验证分类器

此处使用错误率来检测分类器的性能：分类器给出错误结果的次数除以测试数据的总数

def datingClassTest():
    hoRatio = 0.20
    datingDataMat, datingLabels = file2matrix('datingTestSet2.txt')
    normMat, ranges, minVals = autoNorm(datingDataMat)
    m = normMat.shape[0]
    numTestVecs = int(m * hoRatio)
    errorCount = 0.0
    for i in range(numTestVecs):
        classifierResult = classify0(normMat[i, :], normMat[numTestVecs:m, :], datingLabels[numTestVecs:m], 3)

        print("the classifier came back with: %d,the real answer is: %d" % (classifierResult, datingLabels[i]))
        if classifierResult != datingLabels[i]:
            errorCount += 1.0
    print("the total error rate is: %f" % (errorCount / float(numTestVecs)))

kNN.datingClassTest()

5 使用算法：构建完整可用系统

def classifyPerson():
    resultList = ['not at all', 'in small doses', 'in large doses']
    percentTats = float(input("percentage of time spent playing video games?"))
    ffMiles = float(input("frequent filter miles earned per year?"))
    iceCream = float(input("liters of ice cream consumed per year?"))
    datingDataMat, datingLabels = file2matrix('datingTestSet2.txt')
    normMat, ranges, minVals = autoNorm(datingDataMat)
    inArr = array([ffMiles, percentTats, iceCream])
    classifierResult = classify0((inArr - minVals) / ranges, normMat, datingLabels, 3)
    print("You will probably like this person:", resultList[classifierResult - 1])

kNN.classifyPerson()

附：完整代码

kNN.py

from numpy import *
import numpy as np
import operator
import matplotlib
import matplotlib.pyplot as plt

def createDataSet():
    group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
    labels = ['A', 'A', 'B', 'B']
    return group, labels

def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]
    diffMat = tile(inX, (dataSetSize, 1)) - dataSet

    sqDiffMat = diffMat ** 2
    sqDistances = sqDiffMat.sum(axis=1)

    distances = sqDistances ** 0.5
    sortedDistIndicies = distances.argsort()
    classCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1

    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)

    return sortedClassCount[0][0]

def file2matrix(filename):
    fr = open(filename)
    arrayOLines = fr.readlines()
    numberOfLines = len(arrayOLines)
    returnMat = zeros((numberOfLines, 3))
    classLabelVector = []
    index = 0
    for line in arrayOLines:
        line = line.strip()
        listFromLine = line.split('\t')

        returnMat[index, :] = listFromLine[0:3]

        classLabelVector.append(int(listFromLine[-1]))

        index += 1
    return returnMat, classLabelVector

def autoNorm(dataSet):
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals
    normDataSet = zeros(shape(dataSet))
    m = dataSet.shape[0]
    normDataSet = dataSet - tile(minVals, (m, 1))
    normDataSet = normDataSet / tile(ranges, (m, 1))

    return normDataSet, ranges, minVals

def datingClassTest():
    hoRatio = 0.20
    datingDataMat, datingLabels = file2matrix('datingTestSet2.txt')
    normMat, ranges, minVals = autoNorm(datingDataMat)
    m = normMat.shape[0]
    numTestVecs = int(m * hoRatio)
    errorCount = 0.0
    for i in range(numTestVecs):
        classifierResult = classify0(normMat[i, :], normMat[numTestVecs:m, :], datingLabels[numTestVecs:m], 3)

        print("the classifier came back with: %d,the real answer is: %d" % (classifierResult, datingLabels[i]))
        if classifierResult != datingLabels[i]:
            errorCount += 1.0
    print("the total error rate is: %f" % (errorCount / float(numTestVecs)))

def classifyPerson():
    resultList = ['not at all', 'in small doses', 'in large doses']
    percentTats = float(input("percentage of time spent playing video games?"))
    ffMiles = float(input("frequent filter miles earned per year?"))
    iceCream = float(input("liters of ice cream consumed per year?"))
    datingDataMat, datingLabels = file2matrix('datingTestSet2.txt')
    normMat, ranges, minVals = autoNorm(datingDataMat)
    inArr = array([ffMiles, percentTats, iceCream])
    classifierResult = classify0((inArr - minVals) / ranges, normMat, datingLabels, 3)
    print("You will probably like this person:", resultList[classifierResult - 1])

main.py

import kNN

if __name__ == '__main__':
    datingDataMat, datingLabels = kNN.file2matrix('datingTestSet2.txt')
    kNN.classifyPerson()

Original: https://blog.csdn.net/weixin_43340821/article/details/122043911
Author: 不要秃头、
Title: 机器学习实战|使用K-临近算法改进约会网站的配对效果

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/768260/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

理解numpy数组的维度、轴及其运用

目录 1 numpy数组的维度是什么？如何表示数组维度？ 1.1 什么是维度？ 1.2 如何表示维度？ 2 numpy数组的轴(axis)是什么？ 2.1 数组的轴的定义 2.2二…

Python 2023年8月25日
0038
90个Pandas案例

文章很长，高低要忍一下，如果忍不了，那就收藏吧，总会用到的为了方便查找，先提供目录，一步定位！如何使用列表和字典创建 Series * 使用列表创建 Series 使用 nam…

Python 2023年8月7日
0039
【MySQL基础教程】DDL语句详细介绍

前言本文为【MySQL基础教程】DDL语句相关内容进行介绍，下边将对 数据库操&amp…

Python 2023年11月5日
0069
[Pandas]Dataframe赋值

在进行Titanic幸存者预测的过程中，数据预处理涉及到空值填充。我的想法是以Pclass分组，为Age的空值填充随机值x~ U(mean-σ,mean+σ) 开始是参考其他文章的…

Python 2023年8月7日
0057
Python之Numpy（1）

import numpy as np array=np.array([[1,2,3], [4,5,6]]) print(array)#打&#x5370…

Python 2023年8月25日
0046
【python-pandas】利用pandas操作Excel.xlsx数据，写入可覆盖，无法追加数据（版本过低）（踩坑）

前言：今天遇到个问题，项目上有个Excel输出文件需要进行二次读写，对已存在的.xlsx文件追加一张sheet表，但是实际操作过程中发现利用pandas.to_excel()操作失…

Python 2023年8月16日
0070
机器学习-习题(一)

1.1 表1.1中若只包含编号为1和4的两个样例，试给出相应的版本空间表1.1 西瓜数据集求假设空间 (1)每一个属性的所有取值分别组合形成所有可能性结果。 “色泽…

Python 2023年10月26日
0039
用undetected_chromedriver代替selenium解决浏览器打不开网页

关于Python爬虫代码打开网页的方法，教科书以及前辈们都推荐requests和selenium两种途径来打开网页。但现在越来越多网站建立反爬虫机制，比如我最近爬的一个机构网站，…

Python 2023年8月1日
0054
完整的Python Matplotlib的教程

所使用的的数据集链接：https://pan.baidu.com/s/1LW-km_5nGh6SVFm7kgnxCQ提取码：nyhd 导入相关的包 Load Necessary L…

Python 2023年9月1日
0056
Pytest测试框架的基本使用和allure测试报告

一、测试用例的识别与运行目录识别通过pytest.ini配置文件配置如果未指定任何参数，则收集从testpaths(如已配置)或当前目录开始。另外，命令行参数可以在目录、文件…

Python 2023年9月11日
0084
python scrapy框架详解_初学者必看的scrapy框架简介

一、安装scrapy框架pip install scrapy 二、创建一个scrapy项目安装完成后，python会自动将 scrapy命令添加到环境变量中去，这时我们就可以使用…

Python 2023年10月5日
0075
Django面试题汇总

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月4日
0046
【零基础学爬虫】第五章：scrapy框架的使用（一）

目录一、安装scrapy 二、创建scrapy工程三、执行工程一、安装scrapy ①我使用anaconda安装，步骤如下：注意：如果手动pip安装，需要安装很多依赖包，所…

Python 2023年10月6日
0031
神经辐射场NeRF之Instant-ngp环境搭建与应用

1.环境搭建硬件环境：ubuntu1804，nvidia-470，cuda-11.1，Docker-19.03这里采用的Docker的方式进行搭建，便于移植部署，涉及cuda和d…

Python 2023年9月29日
0038
Linux+conda+R+Rstudio下载安装环境全方面配置

很多小伙伴不习惯在R中用到conda环境，其实这可能是因为你还没有使用到对环境有更高要求的包。假如我们想安装R包A，它要求的R版本是4.3.0，但是你现在R版本是4.2.0，并且…

Python 2023年9月7日
0080
Pytest的fixture的应用

目录 fixture在ui自动化中的应用： fixture在api自动化中的应用： conftest.py Conftest.py使用范围 fixture是在测试函数运行前后 …

Python 2023年9月14日
0039

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31