广州大学机器学习与数据挖掘实验一

2023年6月19日上午10:30 • 人工智能 • 阅读 80

实验一线性回归
一、实验目的
本实验课程是计算机、人工智能、软件工程等专业学生的一门专业课程，通过实验，帮助学生更好地掌握数据挖掘与机器学习相关概念、技术、原理、应用等；通过实验提高学生编写实验报告、总结实验结果的能力；使学生对机器学习模型、算法等有比较深入的认识。要掌握的知识点如下：

掌握机器学习中涉及的相关概念、模型、算法；
熟悉机器学习模型训练、验证、测试的流程；
熟悉常用的数据预处理方法；
掌握线性回归优化问题的表示、求解及编程。

二、基本要求
5. 实验前，复习《数据挖掘与机器学习》课程中的有关内容。
6. 准备好实验数据，编程完成实验内容，收集实验结果。
7. 独立完成实验报告。

三、实验软件
推荐使用Python编程语言（允许使用numpy库，需实现详细实验步骤，不允许直接调用scikit-learn中关于回归、分类等高层API）。

四、实验内容：
基于California Housing Prices数据集，完成关于房价预测的线性回归模型训练、测试与评估。
1 准备数据集并认识数据
下载California Housing Prices数据集https://www.kaggle.com/camnugent/california-housing-prices
了解数据集各个维度特征及预测值的含义

2 探索数据并预处理数据
观察数据集各个维度特征及预测值的数值类型与分布
预处理各维度特征（如将类别型维度ocean_proximity转换为one-hot形式的数值数据），参考：https://blog.csdn.net/SanyHo/article/details/105304292
划分70%的样本作为训练数据集，30%的样本作为测试数据集

3 求解模型参数
编程实现线性回归模型的闭合形式参数求解
编程实现线性回归模型的梯度下降参数优化

4 测试和评估模型
在测试数据集上计算所训练模型的R2指标

五、学生实验报告要求
实验报告需要包含以下几个部分
（1）简要介绍线性回归闭合形式参数求解的原理
直接让损失函数J(θ)对参数θ求偏导并令其等于0，来算出损失函数最小时的参数。即令：

对于多元线性回归来说，拟合函数为:

损失函数为:

令

= 0，得到：

（2）简要介绍线性回归梯度下降参数求解的原理
类似于下山，每次选定一段距离，从当前位置高度下降最快的方向走。每走一段距离，就重新确定当前高度下降最快的方向走。这个思想引入到线性回归，就是找到参数矩阵θ值使得损失函数J(θ)最小。山底就是损失函数最小的地方，求解参数矩阵θ的过程，就是人走道山底的过程。

对于多元线性回归来说，拟合函数为:

损失函数为:

损失函数的偏导数为：

θ每次更新参数的操作为

每一次θ的更新，就相当于下山走的每一段，学习率就类似下山走的步长，而损失函数的偏导数就类似于每段下山时当前位置高度下降最快的方向。

（3）程序清单（包含详细求解步骤）
①要引进的库

1.  import pandas as pd
2.  import numpy as np
3.  import matplotlib.pyplot as plt
4.  from sklearn.preprocessing import OneHotEncoder
5.  from sklearn.model_selection import train_test_split

②导入数据集，观察数据特点

1.  data=pd.read_csv("housing.csv")
2.  print(data)
3.  data.info()
4.  print(data['ocean_proximity'].value_counts())

1. print(data)

1.  data.info()

1.  print(data['ocean_proximity'].value_counts())

发现total_rooms的数据有207个位空值,ocean_proximity特征为object类型，特征变量之间的值不在一个相近的范围内，需要对特征变量进行特征缩放

③预处理各维度特征
1′ 将类别型维度ocean_proximity转换为one-hot形式的数值数据

2’处理维度total_rooms中的缺失值，将为缺失值的数据行从数据集中删除

3’调整数据集列位置

④划分样本（划分70%的样本作为训练数据集，30%的样本作为测试数据集）

⑤将训练集和测试集分别整理成拟合函数中的X矩阵，y矩阵和X_test矩阵,y_test矩阵

1’取出数据

X.shape:
(14303,13)
y.shape:
(14303,1)

2’只对X,X_test矩阵中的特征进行特征缩放，不对y,y_test矩阵进行特征缩放

3’X,X_test矩阵塞入一列值为1的特征列

X.shape:
(14303,14)

⑥准备梯度下降的数据

theta.shape:
(14,1)

⑦定义代价函数costfun()

⑧定义梯度下降函数gradient_descent()

其中@符号用于矩阵乘法

⑦定义正规方程函数

⑧求解theta及theta1并画图

得出图形如下：

⑨定义计算R^2的函数

⑩在测试集、训练集上分别计算梯度下降和正规方程求得的拟合函数的R^2

结果分别为：

（4）展示实验结果，比较两种求解方式的优劣
①因为R^2 值越大代表函数的拟合程度越好，则由以上在训练集上梯度下降和正规方程求得的拟合函数的R^2分别为0.6400256017617079和0.6504027229609346得知，相比梯度下降求得的函数，正规方程的拟合程度更好。

②

输出结果如下：

会发现最小二乘法会比梯度下降求得的loss值小，因为正规方程求得的解一定是最优解，而梯度下降求得的只是局部最优解。

③由在测试集上正规方程求得的R^2
值0.6344067718662287和梯度下降求得的R^2值0.6444513749468619可知，在将由训练集训练出的拟合函数套用到测试集上进行测试是，仍是正规方程求得的函数拟合更好

④随着特征维度的上升，正规方程的计算难度会愈加复杂，不一定可解；但梯度下降是一种优化算法，总能求得局部最小值，甚至有可能逼近全局最小值。正规方程更适用于特征维度低的情况

⑤机器学习笔记中对梯度下降算法和正规方程的比较

（5）讨论实验结果，分析各个特征与目标预测值的正负相关性
计算数据集上各个特征与房价的相关系数

输出结果如下：

发现median_income特征与房价正相关，并且影响最大。

（6）源代码
使用pycharm编译器

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split

data=pd.read_csv("housing.csv")
print(data)
data.info()
print(data['ocean_proximity'].value_counts())

s=(data.dtypes=='object')
object_cols=list(s[s].index)
OH_encoder=OneHotEncoder(handle_unknown='ignore',sparse=False)
OH_cols_data=pd.DataFrame(OH_encoder.fit_transform(data[object_cols]))
print(OH_cols_data)

num_data=data.drop(object_cols,axis=1)
data1=pd.concat([num_data,OH_cols_data],axis=1)

data1=data1.dropna(axis=0,subset=["total_bedrooms"])

housing=data1.drop('median_house_value',axis=1)
housing_labels=data1['median_house_value']

Final_data=pd.concat([housing,housing_labels],axis=1)

train_set, test_set = train_test_split(Final_data, test_size=0.3, random_state=42)

col=train_set.shape[1]

X=train_set.iloc[:,0:col-1]
y=train_set.iloc[:,col-1:col]
X_test=test_set.iloc[:,0:col-1]
y_test=test_set.iloc[:,col-1:col]

X = np.matrix(X.values)
y=np.matrix(y.values)
X_test = np.matrix(X_test.values)
y_test=np.matrix(y_test.values)

print(X.shape)
print(y.shape)

m = y.size
n=y_test.size
print(m)

def norm(X):
    sigma = np.std(X, axis=0)
    mu = np.mean(X, axis=0)
    X = (X-mu)/sigma
    return X, mu, sigma

X, mu, sigma = norm(X)
X_test,mu,sigma=norm(X_test)

X = np.c_[np.ones(m), X]
X_test=np.c_[np.ones(n),X_test]
print(X_test)
print(X)
print(X.shape)

theta=(np.matrix([0,0,0,0,0,0,0,0,0,0,0,0,0,0])).T
theta1=theta
print(theta.shape)
num_iteration = 2000
alpha = 0.01

J = np.zeros(num_iteration)

def costfun(theta, X=X, y=y, m=m):
    h_x=X@theta
    inner=np.sum(np.power(h_x-y,2))
    return inner/(2*m)

def gradient_descent(theta, alpha):
    for i in range(num_iteration):
        J[i]=costfun(theta,X)
        theta=theta-(alpha/m)*(X.T@(X@theta-y))
    return theta

def NormalEquation(theta1):
    theta1= np.linalg.inv(X.T@X)@X.T@y
    return theta1

theta = gradient_descent(theta, alpha)

theta1=NormalEquation(theta1)

plt.figure(0)
plt.plot(J)
plt.xlabel('Number of Iterations')
plt.ylabel('Cost Function Value')
plt.title('The Rate of Convergence')
plt.show()

def R_2(X_test,y_test,theta):

    y_pred=X_test*theta
    mu=np.mean(y_test,axis=0)
    SSE=np.sum(np.power(y_test-y_pred,2))
    SSR=np.sum(np.power(y_pred-mu,2))
    SST=SSR+SSE
    r_2=1-SSE/SST
    return r_2

print("测试集上梯度下降的R2:")
print(R_2(X_test,y_test,theta))

print("测试集上正规方程的R2:")
print(R_2(X_test,y_test,theta1))

print("训练集上梯度下降的R2:")
print(R_2(X,y,theta))

print("训练集上正规方程的R2:")
print(R_2(X,y,theta1))

print("梯度下降方法的代价值:")
print(costfun(theta))
print("正规方程的代价值:")
print(costfun(theta1))

print("theta:")
print(theta)
print("theta1:")
print(theta1)

temp=data.copy()
corr=temp.corr()
score=corr['median_house_value'].sort_values()
print(score)

Original: https://blog.csdn.net/faith312/article/details/122545032
Author: faith312
Title: 广州大学机器学习与数据挖掘实验一

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/638795/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pytorch创建自己的数据集(一)

定义自己的数据集 * – 1、Dataset+DataLoader实现自定义数据集读取方法 – + * 1.1、整体框架 * 1.2、例子讲解 * 1.3、…

人工智能 2023年7月13日
0085
AISHELL Speaker Verification Challenge 2019

赛事简介智能语音市场处于大幅增长前期，逐渐成熟的语音技术使得智能语音的商业化落地成为可能。随着智能音箱以及智能语音交互的设备不断落地，声纹识别的技术成为人体物理特征验证的一项重要…

人工智能 2023年5月25日
0083
AI之DS/CV/NLP：Python与人工智能相关的库/框架(机器学习&深度学习&数据科学/计算机视觉/自然语言处理)的简介、案例应用之详细攻略

AI之DS/CV/NLP：Python与人工智能相关的库/框架(数据可视化常用库、机器学习常用库、数据科学常用库、深度学习常用库、计算机视觉常用库、自然语言处理常用库)的简介、案例…

人工智能 2023年7月28日
0062
数据分析实战——淘宝母婴用品购买情况

文章目录 1.数据说明 2.数据清洗 * 2.1导入数据 2.2选择子集 2.3缺失值处理 2.4重复值处理 2.5新建年龄列 2.6去除异常值 3.消费者行为分析 * 3.1数据…

人工智能 2023年7月8日
00105
Python机器学习–回归算法–线性回归算法

线性回归算法线性回归算法类型: 线性回归算法属于有监督学习的回归算法，可以处理标签为连续数据类型的数据。线性回归算法原理: 通过寻找特征和标签之间的关系，生成一个线性方程，…

人工智能 2023年6月17日
0066
SPARQL查询语句入门

SPARQL查询语句 * – + * 1. 基本语法 * 2. 使用维基数据进行示例查询 1. 基本语法 SELECT<variables> WHERE {…

人工智能 2023年6月1日
0096
LDA主题提取+可视化分析（PyLDAavis）

文本评论分析包括很多步骤，本文讲述的是主题提取+结果可视化分析，”可视化分析部分”较多内容借鉴于这篇博文，大家可以去他那里看看，当然这位博主中也有一个问题我…

人工智能 2023年6月19日
0096
Python绘制520表白代码——永恒的心动

一年一度的520又来了，时光往复，祝陪在你身边的人始终如初。希望单身的朋友顺利脱单，有男/女朋友的朋友约会甜蜜~ 实现本文效果的整体思路是：加载库—选择背景音乐—绘制心的外轮廓—…

人工智能 2023年7月3日
0075
混淆矩阵（Confusion Matrix）

假设现在有一个分类器A,这个分类器A的作用是告诉一张图片是不是汉堡，那我想知道这个分类器A的效果好不好，应该怎么办呢？最简单的方法是将大量的样本放进到费雷其A当中，让他自己判断这…

人工智能 2023年7月25日
0054
论文阅读：《Compositional Attention Networks for Machine Reasoning》

标题：机器推理的合成注意网络来源：ICLR 2018 https://arxiv.org/abs/1803.03067代码：https://github.com/stanfordn…

人工智能 2023年6月4日
0092
回归模型的score得分为负_[机器学习] 最实用的算法：回归

朴素贝叶斯，决策树，支持向量机等都是属于离散型的监督分类，本文要讲的是连续型监督分类：回归（regression）其实回归太常见不过了，我们学过的一元一次方程，x作为自变量，y作…

人工智能 2023年6月18日
0073
PyTorch安装成功，但不能使用GPU功能：PyTorch no longer supports this GPU. CUDA error: no kernel image is available

导师配了一个台式机，便着手配置PyTorch环境。根据台式机的显卡驱动(472.12)、CUDA、cuDNN版本安装好PyTorch之后，调用torch.cuda.is_avail…

人工智能 2023年6月17日
0074
pytorch官方教程（详细版）

由于在写DQN代码时发现对细节不够了解，因此又详细学习了一下pytorch相关内容，以下内容来自官网教程，此前的pytorch笔记： pytorch训练分类器pytorch基础入门…

人工智能 2023年7月24日
0070
神经网络案例编程实战

课程导语：人工智能可谓是现阶段最火的行业，在资本和技术协同支持下正在进入高速发展期。当今全球市值前五大公司都指向同一发展目标:人工智能。近几年，人工智能逐渐从理论科学落地到现实中…

人工智能 2023年7月13日
0083
逻辑回归模型的哪些参数需要设置

问题概述逻辑回归是一种广泛应用于分类问题的机器学习算法。在使用逻辑回归模型时，我们需要设置一些参数来对模型进行调整以获得更好的性能和准确性。这里我们将详细介绍逻辑回归模型中需要设…

人工智能 2023年12月31日
0043
NVIDIA Jetson YOLOv5应用与部署

前言在NVIDIA Jetson AGX Xavier 部署YOLOv5的深度学习环境，然后能正常推理跑模型。首先介绍在NVIDIA Jetson 安装类似于Conda的虚拟环…

人工智能 2023年5月26日
00124

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

广州大学机器学习与数据挖掘实验一

大家都在看