实操针对房屋数据集“house_prices.csv”的多元线性回归

2023年6月17日下午2:06 • 人工智能 • 阅读 185

文章目录

*
– 1、、数据清洗
–
+
* 1.1、数据缺失，即存在某些数据等于0
* 1.2、存在重复数据
* 1.3、存在非数值性属性
– 2、多元线性回归代码实现
–
+
* 2.1、基础包、数据导入
* 2.2、数据处理、探索
* 2.3、模型拟合
– 二、Excel实现多元线性回归，求解回归方程
– 三、Sklearn库实现多元线性回归，对结果进行对比分析
–
+
* 3.1、初次线性回归
* 3.2、数据处理并再次模拟

1、、数据清洗

1.1、数据缺失，即存在某些数据等于0

然后点击删除行即可以删除数据

同样的操作删除后一列bathroom的缺失值。

; 1.2、存在重复数据

1.3、存在非数值性属性

原始数据中的neighborhood和style为非数值型数据，需要转换成数值型数据才能够进行回归分析。
解决办法：选中开始——查找和替换——替换

全部替换完成所有A的转换，同理进行B和C以及style的替换

对数据进行保存

; 2、多元线性回归代码实现

2.1、基础包、数据导入

import pandas as pd
import numpy as np
import seaborn as sns
from sklearn import datasets
from sklearn.linear_model import LinearRegression
df = pd.read_csv('house_prices.csv')
df.info()
df.head(6)

导入包并读取导入包读取文件house_prices.csv’数据

2.2、数据处理、探索

进行数据处理


def outlier_test(data, column, method=None, z=2):
    """ 以某列为依据，使用 上下截断点法 检测异常值(索引) """
"""
    full_data: 完整数据
    column: full_data 中的指定行，格式 'x' 带引号
    return 可选; outlier: 异常值数据框
    upper: 上截断点;  lower: 下截断点
    method：检验异常值的方法（可选, 默认的 None 为上下截断点法），
            选 Z 方法时，Z 默认为 2
"""

    if method == None:
        print(f'以 {column} 列为依据，使用 上下截断点法(iqr) 检测异常值...')
        print('=' * 70)

        column_iqr = np.quantile(data[column], 0.75) - np.quantile(data[column], 0.25)

        (q1, q3) = np.quantile(data[column], 0.25), np.quantile(data[column], 0.75)

        upper, lower = (q3 + 1.5 * column_iqr), (q1 - 1.5 * column_iqr)

        outlier = data[(data[column]  lower) | (data[column] >= upper)]
        print(f'第一分位数: {q1}, 第三分位数：{q3}, 四分位极差：{column_iqr}')
        print(f"上截断点：{upper}, 下截断点：{lower}")
        return outlier, upper, lower

    if method == 'z':
        """ 以某列为依据，传入数据与希望分段的 z 分数点，返回异常值索引与所在数据框 """
"""
        params
        data: 完整数据
        column: 指定的检测列
        z: Z分位数, 默认为2，根据 z分数-正态曲线表，可知取左右两端的 2%，
           根据您 z 分数的正负设置。也可以任意更改，知道任意顶端百分比的数据集合
"""
        print(f'以 {column} 列为依据，使用 Z 分数法，z 分位数取 {z} 来检测异常值...')
        print('=' * 70)

        mean, std = np.mean(data[column]), np.std(data[column])
        upper, lower = (mean + z * std), (mean - z * std)
        print(f"取 {z} 个 Z分数：大于 {upper} 或小于 {lower} 的即可被视为异常值。")
        print('=' * 70)

        outlier = data[(data[column]  lower) | (data[column] >= upper)]
        return outlier, upper, lower

调用函数

outlier, upper, lower = outlier_test(data=df, column='price', method='z')
outlier.info(); outlier.sample(5)

删除错误数据


df.drop(index=outlier.index, inplace=True)

定义变量进行数据分析


nominal_vars = ['neighborhood', 'style']

for each in nominal_vars:
    print(each, ':')
    print(df[each].agg(['value_counts']).T)

    print('='*35)

调用热力图查看各变量之间的关联性


def heatmap(data, method='pearson', camp='RdYlGn', figsize=(10 ,8)):
"""
    data: 整份数据
    method：默认为 pearson 系数
    camp：默认为：RdYlGn-红黄蓝；YlGnBu-黄绿蓝；Blues/Greens 也是不错的选择
    figsize: 默认为 10，8
"""

    plt.figure(figsize=figsize, dpi= 80)
    sns.heatmap(data.corr(method=method), \
                xticklabels=data.corr(method=method).columns, \
                yticklabels=data.corr(method=method).columns, cmap=camp, \
                center=0, annot=True)

然后调用函数输出结果

heatmap(data=df, figsize=(6,5))

查看其热力图，通过热力图可以看出 area，bedrooms，bathrooms 等变量与房屋价格 price 的关系都还比较强
所以值得放入模型，但分类变量 style 与 neighborhood 两者与 price 的关系未知

2.3、模型拟合

利用回归模型中的方差分析，从线性回归结果中提取方差分析结果
代码：


import statsmodels.api as sm
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm

随机抽取600条数据样本

df = df.copy().sample(600)

lm = ols('price ~ C(neighborhood) + C(style)', data=df).fit()
anova_lm(lm)

得到

建立多元线性回归模型

from statsmodels.formula.api import ols

lm = ols('price ~ area + bedrooms + bathrooms', data=df).fit()
lm.summary()

二、Excel实现多元线性回归，求解回归方程

1、在上图的回归统计子表中，字段Multiple R代表复相关系数R，也就是R2的平方根，又称相关系数，用来衡量自变量x与y之间的相关程度的大小。本次数据集回归分析得到的R=0.818661，这表明x和y之间的关系为高度正相关。R Square是复测定系数，也就是相关系数R的平方。Adjusted R Square是调整后的复测定系数R2，该值为0.670205，说明自变量能说明因变量y的67.02%，因变量y的32.98%要由其他因素来解释。标准误差用来衡量拟合程度的大小，也用于计算与回归相关的其它统计量，此值为306690.576138747，此值越小，而306690.576138747偏大，说明拟合程度不太理想。观察值是用于估计回归方程的数据的观察值个数，本次数据集抽取了前100条数据，所以观察值为100。

2、设因变量房屋售价为y，自变量房屋编号为x1，自变量街区为x2，自变量卧室面积为x3，自变量总面积为x4，自变量浴室面积为x5，自变量房屋风格为x6，在上图的表中，Coefficients为常数项和X Variable的值，据此便可以估算得出回归方程为：y= 37.1024 x1+ 239.1956 x2+391.3354 x3-19165.5 _x4+66373.13_x5-2231.02x6-331017。但根据Coefficients估算出的回归方程可能存在较大的误差，在第三张子表中更为重要的一列是P-value列，P-value为回归系数t统计量的P值。由表中P-value的值可以发现，自变量房屋总面积的P值小于显著性水平0.05，因此这个自变量与y相关。浴室面积和卧室面积的P值大于显著性水平0.05，说这两个自变量与y相关性较弱，甚至不存在线性相关关系。

; 三、Sklearn库实现多元线性回归，对结果进行对比分析

3.1、初次线性回归

导入相关包和没有处理过的数据数据

import pandas as pd
import numpy as np
import seaborn as sns
from sklearn import datasets
from sklearn.linear_model import LinearRegression
df = pd.read_csv('house_prices.csv')
df.info()
df.head(7)

实现多元线性回归


data_x=df[['area','bedrooms','bathrooms']]
data_y=df['price']

model=LinearRegression()
l_model=model.fit(data_x,data_y)
print('回归系数')
print(model.coef_)
print('截距')
print(model.intercept_)
print('回归方程: Y=(',model.coef_[0],')*x1 +(',model.coef_[1],')*x2 +(',model.coef_[2],')*x3 +(',model.intercept_,')')

3.2、数据处理并再次模拟

进行异常数据处理


def outlier_test(data, column, method=None, z=2):
    """ 以某列为依据，使用 上下截断点法 检测异常值(索引) """
"""
    full_data: 完整数据
    column: full_data 中的指定行，格式 'x' 带引号
    return 可选; outlier: 异常值数据框
    upper: 上截断点;  lower: 下截断点
    method：检验异常值的方法（可选, 默认的 None 为上下截断点法），
            选 Z 方法时，Z 默认为 2
"""

    if method == None:
        print(f'以 {column} 列为依据，使用 上下截断点法(iqr) 检测异常值...')
        print('=' * 70)

        column_iqr = np.quantile(data[column], 0.75) - np.quantile(data[column], 0.25)

        (q1, q3) = np.quantile(data[column], 0.25), np.quantile(data[column], 0.75)

        upper, lower = (q3 + 1.5 * column_iqr), (q1 - 1.5 * column_iqr)

        outlier = data[(data[column]  lower) | (data[column] >= upper)]
        print(f'第一分位数: {q1}, 第三分位数：{q3}, 四分位极差：{column_iqr}')
        print(f"上截断点：{upper}, 下截断点：{lower}")
        return outlier, upper, lower

    if method == 'z':
        """ 以某列为依据，传入数据与希望分段的 z 分数点，返回异常值索引与所在数据框 """
"""
        params
        data: 完整数据
        column: 指定的检测列
        z: Z分位数, 默认为2，根据 z分数-正态曲线表，可知取左右两端的 2%，
           根据您 z 分数的正负设置。也可以任意更改，知道任意顶端百分比的数据集合
"""
        print(f'以 {column} 列为依据，使用 Z 分数法，z 分位数取 {z} 来检测异常值...')
        print('=' * 70)

        mean, std = np.mean(data[column]), np.std(data[column])
        upper, lower = (mean + z * std), (mean - z * std)
        print(f"取 {z} 个 Z分数：大于 {upper} 或小于 {lower} 的即可被视为异常值。")
        print('=' * 70)

        outlier = data[(data[column]  lower) | (data[column] >= upper)]
        return outlier, upper, lower
outlier, upper, lower = outlier_test(data=df, column='price', method='z')
outlier.info(); outlier.sample(5)

df.drop(index=outlier.index, inplace=True)

再次进行回归模型模拟


data_x=df[['area','bedrooms','bathrooms']]
data_y=df['price']

model=LinearRegression()
l_model=model.fit(data_x,data_y)
print('回归系数')
print(model.coef_)
print('截距')
print(model.intercept_)
print('回归方程: Y=(',model.coef_[0],')*x1 +(',model.coef_[1],')*x2 +(',model.coef_[2],')*x3 +(',model.intercept_,')')

参考：回归模型

Original: https://blog.csdn.net/qq_46689721/article/details/120860984
Author: an-ning
Title: 实操针对房屋数据集“house_prices.csv”的多元线性回归

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/630337/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

知识图谱 — jieba、pyhanlp、smoothnlp工具实现中文分词（词性表）

最近也是在预研知识图谱相关技术。这里面涉及到了一些关于自然语言处理方面的内容和技术。目前已经调研了一些分词、命名体识别相关技术。今天记录下分词工具的使用。一、什么是知识图谱？笔…

人工智能 2023年5月30日
0087
学习C++图像处理最快最好的途径

学习C++图像处理前首先的明确图像处理是什么，它是如何定义的？它能给我们带来哪些便利？之后根据需求选择合适的编程语言，C++ or python？图像处理(image proce…

人工智能 2023年6月18日
0074
在windows下安装nnUnet，并制作数据集以及运行（让隔壁奶奶也能学会的教程）

1.前言 nnUnet原代码是在Linux下运行，如果现在windows下安装的话，会报各种错误，得改很多的地方，所以可以直接下载nnUnet_windows文件，这是我已经在wi…

人工智能 2023年7月26日
0069
OpenCvSharp (C# OpenCV) 用鼠标在图像窗口绘图SetMouseCallback响应鼠标事件(附源码)

点击下方卡片，关注” OpenCV与AI深度学习“公众号！视觉/图像重磅干货，第一时间送达! 前言 Python和C++版本的OpenCV中都封装了滑动…

人工智能 2023年7月19日
0059
基于强化学习的图像配准 – Image Registration: Reinforcement Learning Approaches

配准定义给定参考图像 I_f 和浮动图像 I_m ，所谓的配准就是寻找一个图像变换T，将浮动图像I_m变换到和 I_f 相同的坐标空间下，使得两个图像中对应的点处于同一坐标下，从…

人工智能 2023年6月20日
0069
基于百度AI和QT的景物识别系统

2022.07.20：最近在学习JAVA的知识，以后就踏上JAVA的道路了。本人QT方面自认为还学的比较好，但是以后应该不会更这方面了，把以前写过QT方面的项目，写出来分享给大家。…

人工智能 2023年6月22日
0095
数据分析实战项目练习——餐厅订单数据

餐厅订单数据分析本文将从以下几个方面对餐厅订单数据进行可视化展示及剖析，旨在为营业者提供一定的决策和建议。餐厅最受欢迎菜品TOP10 订单ID点菜种类TOP10（消费维度分析）…

人工智能 2023年7月15日
00124
【云原生 • Kubernetes】认识 k8s、k8s 架构、核心概念点介绍

目录一、Kubernetes 简介二、Kubernetes 架构三、Kunbernetes 有哪些核心概念？ 1. 集群 Cluster 2. 容器 Container 3….

人工智能 2023年7月31日
00105
python导入Graphviz库-画决策树图

学习决策树时，发现如果要用python画决策树，python需要导入Graphviz库，看了几篇csdn，发现个别文章不是很全，会出错误，这里简单记录下完整过程。文章目录 0.下…

人工智能 2023年7月6日
0071
[论文笔记]Geometrically Constrained Trajectory Optimization for Multicopters

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月24日
00120
PySpark | PySpark库 | 本机开发环境搭建 | 分布式代码执行分析

文章目录 * – + 一、PySpark库 + * 1.框架与类库 * 2.什么是PySpark * 3. PySpark安装 + 二、本机开发环境搭建 + * 1.本…

人工智能 2023年7月5日
00106
代码随想录算法训练营第53天 | 1143.最长公共子序列 1035.不相交的线 53. 最大子序和

代码随想录系列文章目录动态规划篇 —— 线性dp 文章目录代码随想录系列文章目录 1143.最长公共子序列 1035.不相交的线 53.最大子序和 1143.最长公共子序列题…

人工智能 2023年6月27日
0074
pyinstaler打包paddle

项目场景：使用pyinstaller打包paddle程序1、遇到打不到CV，需要将openCV重装版本opencv-python：4.5.1.482、将C:\Program Fi…

人工智能 2023年7月19日
0049
Python处理Excel——筛选并标出符合的描述词

目录问题描述思路运用到的库用到的方法问题描述大概是这样的一张表格我们需要找到符合的形容词并标上1，并且这个excel文件里有两个sheet 思路读取excel文件 …

人工智能 2023年7月6日
0078
OpenCV学习笔记14-计算机视觉中的背景减除介绍及代码实现

参考文章：https://blog.csdn.net/tengfei461807914/article/details/81588808 https://zhuanlan.zhih…

人工智能 2023年6月18日
0049
MXNet是否支持模型剪枝和压缩

人工智能 2024年1月1日
0023

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31