【实战】——以波士顿房价为例进行数据的相关分析和回归分析

2023年6月19日上午8:55 • 人工智能 • 阅读 104

1、概念

研究各个因素之间是否存在相互影响以及找出这种影响的数学描述方法，是数据挖掘的重要工作之一。判定或量化各因素之间联系的强弱，就是属于 相关分析的范畴。

2、数据来源及处理

数据采集了美国波士顿地区房价与周边环境因素的量化值，共有14个字段：

字段名含义crim地区人均犯罪率zn住宅用地>25000英尺比例indus非零售商业用地比例chas查尔斯河空变量（地区边界是河，值取1，否则为0）nox一氧化氮浓度rm每套住宅平均房间数age1940年后建成自用房比例dis与波士顿中心区距离rad与主要公路的接近指数tax财产税率ptratio师生比b1000*（
B k B_k B k

-0.63)
2 ^2 2

，B
k _k k

为非洲裔美国人比例lstat低地位人口比例medv自住房平均房价，以千美元计

import numpy as np
import pandas as pd
from sklearn.datasets import load_boston

boston = load_boston()

col = ['crim','zn','indus','chas','nox','rm','age','dis','rad','tax','ptratio','b','lstat']
bostondf = pd.DataFrame(boston.data,columns=col)
bostondf['medv']=boston.target
bostondf.head()

3、分析

3.1、协方差

协方差是衡量两个变量的总体误差

设（X,Y）是二元随机变量，随机变量X与Y的协方差记为： cov(X,Y)=E{[X-E(X)][Y-E(Y)]},其中E(X)为X的均值。协方差是没有单位的量，具有以下数学性质：

cov(X,Y)=cov(Y,X)
如果cov(X,Y)>0，则称随机变量X和Y之间存在正相关；如果cov(X,Y)


bostondf.cov()

对于DataFrame数据对象，可以直接调用pandas提供的 cov函数，进行简便的协方差计算。其中字段相同的是方差，不同的则是协方差。

3.2、相关系数

相关系数是研究变量之间线性相关程度的量

相关系数记为： p(X,Y)=cov(X,Y)/(var(X)*var(Y))^0.5，其中var(X)为X的方差。相关系数是没有单位的量，，具有以下数学性质：


bostondf.corr()

从表中可以看出，自变量rm与因变量medv的相关系数为0.695360，正的线性关系比较强；而自变量lstat与因变量medv的相关系数为-0.737663，负的线性关系比较明显。

即可得出结论：每套住宅平均房间数越多，房屋均价越高；该地区的低地位人口比例越大，房屋均价越低。

二、回归分析

1、概念

基于大量数据观察，利用数理统计方法建立因变量与自变量之间的回归关系函数（也称回归方程），属于 回归分析的范畴。

2、一元线性回归

以一元线性方程来讨论回归的数学内涵：如现有k个观察数据对（x i _i i ,y i _i i )，求一元线性方程，且希望方程与观测值数据尽可能地重合

假设拟合方程为 y = a*x + b，将观察数据中的x代入，得到 y1 = a*x + b，与观察数据中的y的误差为 error = y - y1 = y - (a*x + b)

设目标函数为：

为了使error更小，即C取极小值时，对a、b偏导为0：

解得：

由此，可以得到回归方程： y = a*x + b

import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False
sns.set_style('whitegrid',{'font.sans-serif':['simhei','Arial']})

sns.pairplot(bostondf,x_vars=['rm','lstat'],y_vars='medv',height=7,aspect=0.8,kind='reg')
plt.savefig('回归分析.png',dpi=300,bbox_inches='tight')
plt.show()


from sklearn.linear_model import LinearRegression

bostonrm = pd.DataFrame()
modelrm = LinearRegression()
modelrm.fit(bostondf['rm'].values.reshape(-1,1),bostondf['medv'].values.reshape(-1,1))
print("系数：",modelrm.coef_)
print("截距：",modelrm.intercept_)
print("rm与medv的线性回归方程：")
print('y = %+.4f*x% + .4f'%(modelrm.coef_[0][0],modelrm.intercept_[0]))

以rm为自变量的一元回归方程： medv = 9.1021 * (rm) - 34.6706

modellstat = LinearRegression()
modellstat.fit(bostondf['lstat'].values.reshape(-1,1),bostondf['medv'].values.reshape(-1,1))
print("系数：",modellstat.coef_)
print("截距：",modellstat.intercept_)
print("lstat与medv的线性回归方程：")
print('y = %+.4f*x% + .4f'%(modellstat.coef_[0][0],modellstat.intercept_[0]))

同理，以lstat为自变量的一元回归方程： medv = -0.9500 * (lstat) + 34.5538

3、多元回归

进一步，可以以rm、lstat为自变量计算得出多元回归方程


modelmulti = LinearRegression()
modelmulti.fit(bostondf[['lstat','rm']].values,bostondf['medv'].values.reshape(-1,1))
print("系数：",modelmulti.coef_)
print("截距：",modelmulti.intercept_)
print("lstat与medv的线性回归方程：")
print('y = %+.4f*(lstat)%+.4f*(rm)% +.4f'%(modelmulti.coef_[0][0],modelmulti.coef_[0][1],modelmulti.intercept_[0]))

如上，多元回归方程为： y = -0.6424 * (lstat) + 5.0948 * (rm) - 1.3583

三、逻辑回归

1、概念

逻辑回归是一种广义的线性回归分析方法，回归方程输出的不是连续值，而是离散的分类结果，本质上是一种分类的方法。

逻辑回归问题虽然采用同样的线性方程作为数学描述，但输出的y是在线性方程结果上加工而来的，是离散值，一般是0或1：

但经研究，直接用线性方程的值作为阀值存在一些不足，进而发展出一个应用广泛的阀值表示函数 Sigmoid函数：f(x) = 1/(1 + e-x)

; 2、逻辑回归

以上节数据为例


bostondf['medv'].describe()

假设当房价高于17.025（1/4分位数）时，为贵价房屋；反之为平价房屋

bostondf['normalprice']=bostondf['medv'].apply(lambda s:np.float(s>=17.025))
bostondf.head()

模型代码就不细讲了，在前言提到的那一篇中已经写得比较清楚了

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

X = bostondf.drop(labels=['medv','normalprice'],axis=1)
Y = bostondf['normalprice']
x_train,x_test,y_train,y_test = train_test_split(X,Y,test_size=0.1)

scaler = StandardScaler().fit(x_train)
x_train = pd.DataFrame(scaler.transform(x_train),columns=x_train.columns)
x_test = pd.DataFrame(scaler.transform(x_test),columns=x_test.columns)
houselr = LinearRegression()
houselr.fit(x_train,y_train)
print("系数：",houselr.coef_)
print("截距：",houselr.intercept_)

最终得出结果：

结合Sigmoid函数就可以得出逻辑回归方程了

3、拟合效果


print('R值（训练集准确率）：',houselr.score(x_train,y_train))
print('R值（测试集准确率）：',houselr.score(x_test,y_test))

Out：    R值（训练集准确率）： 0.5804979485121928
        R值（测试集准确率）： 0.5804471010809136

y_pred = houselr.predict(x_test)
x = range(len(x_test))
plt.figure(figsize=(14,7),facecolor='w')
plt.ylim(-0.1,1.5)
plt.axhline(y=0.5,ls='dotted',color='k')
plt.plot(x,y_test,'ro',marker='*',markersize=16,label='真实值')
plt.plot(x,y_pred,'go',markersize=14,label='预测值，$R^2$=%.3f'%houselr.score(x_test,y_test))
plt.legend(loc='best')

plt.xlabel('训练集样本编号',fontsize=18)
plt.ylabel('是否平价房屋',fontsize=18)
plt.title('Logistic算法对数据进行分类',fontsize=20)
plt.savefig('Logistic算法.png',dpi=300,bbox_inches='tight')
plt.show()

这样看起来也许不是很明显，我们以0.5为界，将预测值也改为0和1的值：

y_pred1 = y_pred
for i,x in enumerate(y_pred1):
    if x>0.5:
        y_pred1[i]=1
    if x<0.5:
        y_pred1[i]=0

x = range(len(x_test))
plt.figure(figsize=(14,7),facecolor='w')
plt.ylim(-0.1,1.1)
plt.plot(x,y_test,'ro',marker='*',markersize=16,label='真实值')
plt.plot(x,y_pred1,'go',markersize=14,label='bool预测值',alpha=0.4)
plt.legend(loc='best')

plt.xlabel('训练集样本编号',fontsize=18)
plt.ylabel('是否平价房屋',fontsize=18)
plt.title('Logistic算法对数据进行分类',fontsize=20)
plt.savefig('Logistic算法1.png',dpi=300,bbox_inches='tight')
plt.show()

可以看出结果是不错的！

四、时间序列分析

1、概念

在回归分析中，专门有一类研究将时间、周期作为自变量，其他数据作为因变量的问题，称之为 时间序列分析。

股票数据可以说是典型的时间序列数据，之前已经写过了，在这里就不过多的赘述python金融数据分析及可视化

结语

以上所有内容就是关于利用python进行相关分析和回归分析的基本方法。通常情况下，相关分析属于数据挖掘的前期准备工作，通过它可以初步发现和研究对象关系比较密切的影响因素。在此基础上，选择合适的模型进行回归分析。

大家如果觉得文章不错的话，记得收藏、点赞、关注三连~

Original: https://blog.csdn.net/weixin_47974364/article/details/124019624
Author: 貮叁
Title: 【实战】——以波士顿房价为例进行数据的相关分析和回归分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/638387/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

使用Bert预训练模型进行中文文本分类（基于pytorch）

前言最近在做一个关于图书系统的项目，需要先对图书进行分类，想到Bert模型是有中文文本分类功能的，于是打算使用Bert模型进行预训练和实现下游文本分类任务数据预处理 2.1 输…

人工智能 2023年7月22日
0065
小样本目标检测（few-shot object detection）网络结构

文章目录 * – 论文一：带有注意力RPN和多关系检测器的小样本目标检测网络 – 论文二：Frustratingly Simple Few-Shot Obj…

人工智能 2023年6月18日
0096
python 查看程序的GPU显存占用

显示GPU显存占用方法引言一、nvidia-smi 二、windows下的任务管理器三、pynvml库四、显存不够用又没钱怎么办引言主要针对显卡：nvidia初衷：想要…

人工智能 2023年6月16日
00105
双目视觉定位方案设计

双目视觉定位总体方案设计主要步骤说明： 1）双目相机标定，获取左右摄像头内参、外参，得到图像坐标到世界坐标的映射模型。 2）图像预处理，根据标定得到畸变参数对采集到的图像去畸变，…

人工智能 2023年5月28日
0089
数据分析——天猫用户购买行为分析

数据分析数据分析——天猫用户购买行为分析 * – 数据分析* 导读* 主题——天猫用户购买行为可视化* – 订单交易金额 – 地区消费水平 &…

人工智能 2023年6月11日
0091
VS2022永久配置OpenCV开发环境

在VS2022中配置opencv开发环境本文通过在VS2022中添加并配置项目属性表，实现Opencv永久配置。在不更改opencv文件位置的前提下，只需要在新的项目中添加配置…

人工智能 2023年7月19日
0065
高斯分布&正态分布

文章目录 0 高斯分布定义 1 高斯分布意义 2 高斯分布的概率密度函数推导高斯分布又叫正态分布，是统计学中最重要的连续概率分布。有的地方将正态分布也称为常态分布，什么意思呢？从…

人工智能 2023年6月24日
0093
[附源码]java毕业设计电影影评网

项目运行环境配置： Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX（Webstorm也行）+ Eclispe（IntelliJ IDEA,Eclis…

人工智能 2023年6月29日
0086
机器学习——长短期记忆（LSTM）

相关文章链接：机器学习——人工神经网络（NN）机器学习——卷积神经网络（CNN）机器学习——循环神经网络（RNN）机器学习——决策树（decision tree）机器学习…

人工智能 2023年7月13日
0099
Python 字符串str详解（超详细）

文章目录 Python内置函数/方法详解—字符串str * 1、创建字符串 – 1.1 使用 ‘ ‘ 或 ” ” 创建字…

人工智能 2023年7月4日
00171
MXNe

介绍在MXNet中，MXNet Engine (MXNE) 是一个用于深度学习的高性能开源框架。该框架使用动态计算图和自动微分技术来加速模型训练和推理，同时支持多种硬件和操作系统…

人工智能 2023年12月31日
0055
京东面试题：ElasticSearch深度分页解决方案

前言 Elasticsearch 是一个实时的分布式搜索与分析引擎，在使用过程中，有一些典型的使用场景，比如分页、遍历等。在使用关系型数据库中，我们被告知要注意甚至被明确禁止使用…

人工智能 2023年6月28日
0089
大数据安全目前面临得主要挑战有哪些

大数据安全风险伴随大数据应用而生。随着互联网、大数据应用的爆发，数据丢失和个人信息泄漏事件频发，地下数据交易黑灰产造成数据滥用和网络诈骗，并引发恶性社会事件，甚至危害国家安全。如 …

人工智能 2023年6月19日
0075
目标检测的Tricks | 【Trick9】nms非极大值抑制处理（包括变体merge-nms、and-nms、soft-nms、diou-nms等介绍）

如有错误，恳请指出。用这篇博客记录一下nms，也就是非极大值抑制处理，算是目标检测后处理的一个难点。在训练阶段是不需要nms处理的，只有在验证或者是测试阶段才需要将预测结果进行…

人工智能 2023年7月10日
0097
Python dcm转jpg与jpg转dcm

DCM文件是一种医学影像文件，除了文件信息，还包含影像数据，即图像信息，只要能够提取到这个图像信息，就可以将其转换为如JPG等图片格式。在医学影像处理中，常用到MASK掩膜，即勾画…

人工智能 2023年6月27日
0081
一个极简的Http请求client推荐，一行搞玩外部请求

在Java的世界中，Http客户端之前一直是Apache家的HttpClient占据主导，但是由于此包较为庞大，API又比较难用，因此并不使用很多场景。而新兴的OkHttp、Jod…

人工智能 2023年6月26日
0077

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【实战】——以波士顿房价为例进行数据的相关分析和回归分析

目录

1、概念

2、数据来源及处理

3、分析

3.1、协方差

3.2、相关系数

1、概念

2、一元线性回归

3、多元回归

1、概念

; 2、逻辑回归

3、拟合效果

1、概念

大家都在看