机器学习入门之线性回归（3）- 波士顿房价预测（python实现）

2023年6月15日上午3:00 • 人工智能 • 阅读 116

一、知识储备

本次主要完成了线性回归的经典模型-波士顿房价预测，一共十三个特征，假设函数如下：
h θ ( x ) = [ 1 x 1 1 x 2 1 ⋯ x 13 1 1 x 1 2 x 2 2 ⋯ x 13 2 ⋮ ⋮ ⋯ ⋯ ⋮ 1 x 1 m x 2 m ⋯ x 13 m ] [ θ 0 θ 1 θ 2 ⋮ θ 13 ] (1) h_\theta(x)=\left[ \begin{matrix} 1 & x_1^1 & x_2^1 & \cdots & x_{13}^1 \ 1 &x_1^2 & x_2^2 & \cdots & x_{13}^2\ \vdots & \vdots & \cdots & \cdots & \vdots\ 1 &x_1^m & x_2^m & \cdots & x_{13}^m \end{matrix} \right]\left[ \begin{matrix} \theta_0 \ \theta_1 \ \theta_2 \ \vdots \ \theta_{13} \end{matrix} \right]\tag{1}h θ(x )=⎣⎢⎢⎢⎡1 1 ⋮1 x 1 1 x 1 2 ⋮x 1 m x 2 1 x 2 2 ⋯x 2 m ⋯⋯⋯⋯x 1 3 1 x 1 3 2 ⋮x 1 3 m ⎦⎥⎥⎥⎤⎣⎢⎢⎢⎢⎢⎡θ0 θ1 θ2 ⋮θ1 3 ⎦⎥⎥⎥⎥⎥⎤(1 )
也可以表达成函数形式，读者可自行转化，较为简单。
批量梯度下降
批量梯度下降的相关知识请读者去看线性回归系列的第一篇文章，这里不详细介绍相关知识，下面主要介绍一下怎么实现正则化（ 关于需要正则化原因请看线性回归系列的第二篇），来减少高阶、维度高对拟合、模型的影响，添加的地方有损失函数与梯度下降函数：
J ( θ ) = 1 2 m ( ∑ i = 0 m ( h θ ( x ( i ) ) − y ( i ) ) 2 ) + λ 2 m ∑ j = 1 n θ j 2 J(\theta)=\frac{1}{2m}(\sum_{i=0}^m(h_\theta(x^{(i)})-y^{(i)})^2)+\frac{\lambda}{2m}\sum_{j=1}^n\theta_j^2 J (θ)=2 m 1 (i =0 ∑m (h θ(x (i ))−y (i ))2 )+2 m λj =1 ∑n θj 2
实际上上式是可以合并的，为了读者更容易理解，写开了形式。注意:我们规定进行正则化时的θ \theta θ 是从 1开始的，也就是只有特征的系数才会参与正则化。λ \lambda λ 的作用是维护损失函数与正则化参数之间的平衡关系，更好的去拟合训练集的目标和将参数控制得更小的目标，保持假设模型的相对简单。
有读者应该现在已经明白了下一个需要改变的地方，是的，我们的J ( θ ) J(\theta)J (θ)发生了改变，那么我们梯度下降的减数项也应该发生变化，因为减数项时通过J ( θ ) J(\theta)J (θ)求导得来的（ 这块有问题的请移步到线性回归第一篇，梯度下降的知识点）
θ j : = θ j − 1 m ( ∑ i = 0 m ( h θ ( x ( i ) ) − y ( i ) ) x ( i ) + λ θ j ) \theta_j:=\theta_j – \frac{1}{m}(\sum_{i=0}^m(h_\theta(x^{(i)})-y^{(i)})x^{(i)}+\lambda\theta_j)θj :=θj −m 1 (i =0 ∑m (h θ(x (i ))−y (i ))x (i )+λθj )
上面就是加上正则化变化的地方，建议读者从第一篇看过来，这样应该不会有什么障碍，如果哪地方有错或说的不详细，欢迎大家留言。

二、代码实现

读取与处理数据、拟合图、误差图代码，文件名： housegradient.p

from ftplib import error_reply
import imp
from math import ceil
from pydoc import doc
from turtle import right, shape
import numpy as  np
import matplotlib.pyplot as plt
from housegradient import gradientFun

theta = np.array([0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,0.1,0.2,0.3,0.4])
theta_0 = 0.5

lamda = 0.02
origin_data = np.loadtxt(fname='housing.data')
np.random.shuffle(origin_data)
trans_data = origin_data[0:int(0.8*(np.size(origin_data)/14))]
test_data = origin_data[-ceil(0.2*(np.size(origin_data)/14)):]

trans_data_std = np.std(trans_data[:,0:13],axis=0)

trans_data_std = np.insert(trans_data_std,13,values=[1],axis=0)
trans_data_average = np.mean(trans_data[:,0:13],axis=0)

trans_data_average = np.insert(trans_data_average,13,values=[0],axis=0)
trans_data_handled = (trans_data-trans_data_average)/trans_data_std
trans_data_y = trans_data_handled[:,-1]
error_array_j = np.array([])
for i in range(100):
    if i !=0:

        np.random.shuffle(trans_data_handled)
    trans_data_x = trans_data_handled[:,0:13]
    trans_data_y = trans_data_handled[:,-1]
    current_tran_ones = np.ones((1,np.size(trans_data_y)))

    trans_data_x_batch = np.array_split(trans_data_x,10)
    trans_data_y_batch = np.array_split(trans_data_y,10)

    for j in range(10):
        current_trans_data_x = trans_data_x_batch[j]
        current_trans_data_y = trans_data_y_batch[j]
        y = np.dot(theta,current_trans_data_x.T)+theta_0
        error_array = y-current_trans_data_y
        theta,theta_0= gradientFun(current_trans_data_x,error_array,theta,theta_0=theta_0,lamda=lamda)

    error_y = (np.dot(theta,trans_data_x.T)+theta_0) - trans_data_y

    error_j  = (np.dot(error_y,error_y.T)+lamda*np.dot(theta,theta.T))/(2*np.size(trans_data_y))

    error_array_j=np.concatenate((error_array_j,np.array([error_j])),axis=0)
index = np.arange(0,np.size(error_array_j)).reshape(np.size(error_array_j))

plt.plot(index,error_array_j)
plt.show()

test_data_std = np.std(test_data[:,0:13],axis=0)

test_data_std = np.insert(test_data_std,13,values=[1],axis=0)
test_data_average = np.mean(test_data[:,0:13],axis=0)

test_data_average = np.insert(test_data_average,13,values=[0],axis=0)
test_data_handled = (test_data-test_data_average)/test_data_std
test_data_x = test_data_handled[:,0:13]
test_data_y = test_data_handled[:,-1]

error_test_y = (np.dot(theta,test_data_x.T)+theta_0) - test_data_y

index = np.arange(0,np.size(error_test_y)).reshape(np.size(error_test_y))
error_j  = np.dot(error_test_y,error_test_y.T)/(2*np.size(test_data_y))
print(error_test_y)
plt.figure()
plt.plot(index,error_test_y)
plt.show()

下面是梯度下降函数，文件名为： housegradient.py

import numpy as np
def gradientFun(x,error_array,theta,theta_0,lamda):
    alpha = 0.006
    theta_0 = theta_0  - alpha * (np.sum(error_array)/np.size(error_array))
    theta = theta - alpha * ((np.dot(error_array,x)+lamda*theta.T)/np.size(error_array))
    print('损失为{}'.format(error_array))
    print('\ntheta的值为{}'.format(theta))
    print('theta_0的值为{}'.format(theta_0))
    return theta,theta_0

下图是误差函数的图像：

下图是测试集的误差，基本在 -5~5之间

以上若有问题，请大佬指出，感激不尽，共同进步。

Original: https://blog.csdn.net/qq_43583319/article/details/125696467
Author: Small White
Title: 机器学习入门之线性回归（3）- 波士顿房价预测（python实现）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/613490/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习中的常用的归一化方法汇总

深度学习中的归一化一. 归一化解决什么问题? 在训练的时候，输入分布的变化要求较低的学习率和较为严谨的参数初始化，使得训练模型困难。此外，各层输入分布的变化带来了一个问题，因为各…

人工智能 2023年6月25日
00142
数据挖掘-实战记录（一）糖尿病python数据挖掘及其分析

目录一、准备数据 1.查看数据二、数据探索性分析 1.数据描述型分析 2.各特征值与结果的关系 a)研究各个特征值本身类别 b)研究怀孕次数特征值与结果的关系 c)其他特征值 …

人工智能 2023年6月19日
00176
windows Server 2012 安装导入opencv-python 提示DLL找不到

系统环境：win server 2012 R2 + python3.6+opencv4.4.0+ffmpeg 实现视频图像处理问题描述：import cv2 报错dll找不到1….

人工智能 2023年7月19日
0049
在jupyter notebook导入tensorflow出错：No module named tensorflow 解决办法

要解决这个问题需要付出很大的努力。 [En] It takes a lot of effort to solve this problem. 首先我卸载重装了我的Anaconda …

人工智能 2023年5月23日
0081
数据投毒攻防对抗技术-1.数据投毒简介

文章目录前言课程简介大数据和机器学习 * 大数据机器学习大数据和机器学习结合大数据和机器学习潜在的安全威胁 * 数据分析流程机器学习流程及安全威胁数据投毒 * 什么…

人工智能 2023年6月16日
0065
工业镜头、相机的结构、参数解释及选型指南

提示：本文参考了网上其他相关文章，如有侵权，请联系作者。文章目录前言一、镜头的工艺制作原理 * 1.镜头组成部分 2.什么是焦距？ 3.焦距与镜头厚薄的关系？ 4.焦距与镜头…

人工智能 2023年6月18日
0061
从开发角度看羊了个羊

写在前面：博主是一只经过实战开发历练后投身培训事业的”小山猪”，昵称取自动画片《狮子王》中的”彭彭”，总是以乐观、积极的心态对待周边…

人工智能 2023年6月2日
0062
PCL实现对点云指定区域的分割

PCL实现对点云指定区域的分割通常我们从激光雷达或者深度相机中拿到的数据中包含有大量的背景区域，而我们想要的数据有时候时候可能只是其中的一小部分。对于目标区域的提取通常采用算法的…

人工智能 2023年7月18日
0069
python数据清洗入门教程（完整版）

数据清洗是整个数据分析过程的第一步，也是整个数据分析项目中最耗费时间的一步。数据清洗的过程决定了数据分析的准确性。随着大数据的越来越普及，数据清洗是必备的技能之一，本教程将较为完整…

人工智能 2023年7月3日
0076
遥感场景识别数据集（场景分类）

场景识别数据（场景分类）场景识别通常指对图像整体的常见语义分析和理解，是计算机视觉领域标志性任务之一，在对象识别的基础上，场景识别能够结合上下文信息，从而实现场景主要内容的精确识…

人工智能 2023年6月30日
0055
【论文阅读】DPLVO: Direct Point-Line Monocular Visual Odometry

一、公式及符号约定这篇文章与之前看的EDPLVO是同一个作者，EDPLVO是在这篇文章的基础上改进的，符号约定方面，DPLVO同样采用R和t表示旋转矩阵和平移向量，使用Π表示投影…

人工智能 2023年6月27日
00106
数据探索与数据预处理的实验报告

数据探索与数据预处理提示参考书：张良均《Python数据分析与挖掘实战》等。数据文件：课本自带数据。使用软件：Pycharm。类别：实验。温馨提示：该实验是跟张良均这本…

人工智能 2023年6月19日
0083
tensorflow Lite 2—- 移动端部署–yolov5+训练自己的数据集

一、模型移动端环境部署可以参考： tensorflow lite 1—- 移动端部署–object detection 官方历程手把手教程_行码阁119的…

人工智能 2023年5月23日
0078
Logistic算法中的正则化方法包括L1正则化和L2正则化，用于解决模型过拟合问题

问题背景在机器学习中，经常会出现模型过拟合的问题。过拟合是指模型在训练集上表现良好，但在新数据集上表现较差的现象。为了解决这个问题，在Logistic算法中引入了正则化方法，其中…

人工智能 2023年12月31日
0027
CNN中常用的优化器有哪些？它们是如何影响模型的训练和收敛速度的

优化器介绍在深度学习中，优化器是用来更新模型参数以最小化损失函数的算法。在卷积神经网络 (CNN) 中，常用的优化器有梯度下降法 (Gradient Descent)、动量 (M…

人工智能 2024年1月5日
0029
Pytorch机器学习（八）—— YOLOV5中NMS非极大值抑制与DIOU-NMS等改进

Pytorch机器学习（八）—— YOLOV5中NMS非极大值抑制与DIOU-NMS等改进目录 Pytorch机器学习（八）—— YOLOV5中NMS非极大值抑制与DIOU-NM…

人工智能 2023年6月22日
0088

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

机器学习入门之线性回归（3）- 波士顿房价预测（python实现）

大家都在看