基于多元线性回归的房价预测

2023年6月17日下午3:17 • 人工智能 • 阅读 78

预测房价

Excel预测房价
*
数据清洗
筛选删除无效值
数值转换
回归分析
python进行回归分析
*
导入包
运行结果
变量探索
删除错误数据
热力图
拟合
–
- 随机选择600条数据
多元线性回归建模
模型优化
–
- 拼接
- 再次建模
处理多元共线性
sklearn多元线性回归预测房价
*
–
使用清洗后的数据
–
参考资料

Excel预测房价

数据清洗

检查发现数据有问题，

; 筛选删除无效值

选中

数据-筛选删除重复值0

同样的方法删除bathrooms

数值转换

开始-查找和替换-替换
选中neighborhood所在的列进行替换，把原数据的A、B、C替换为10、20、30

以同样的方式替换style，将原数据的victorian、ranch、lodge替换为100、200、300

; 回归分析

数据-数据分析-回归-确定

以price为Y值输入
以neighborhood、area、bedrooms、bathrooms、style作为X值输入区间

结果

python进行回归分析

导入包

; 运行结果

变量探索

; 删除错误数据

&#x8FD9;&#x91CC;&#x7B80;&#x5355;&#x7684;&#x4E22;&#x5F03;&#x5373;&#x53EF;
df.drop(index=outlier.index, inplace=True)

&#x7C7B;&#x522B;&#x53D8;&#x91CF;&#xFF0C;&#x53C8;&#x79F0;&#x4E3A;&#x540D;&#x4E49;&#x53D8;&#x91CF;&#xFF0C;nominal variables
nominal_vars = ['neighborhood', 'style']

for each in nominal_vars:
    print(each, ':')
    print(df[each].agg(['value_counts']).T)
    # &#x76F4;&#x63A5; .value_counts().T &#x65E0;&#x6CD5;&#x5B9E;&#x73B0;&#x4E0B;&#x9762;&#x7684;&#x6548;&#x679C;
     ## &#x5FC5;&#x987B;&#x5F97; agg&#xFF0C;&#x800C;&#x4E14;&#x91CC;&#x9762;&#x7684;&#x4E2D;&#x62EC;&#x53F7; [] &#x4E5F;&#x4E0D;&#x80FD;&#x5C11;
    print('='*35)
    # &#x53D1;&#x73B0;&#x5404;&#x7C7B;&#x522B;&#x7684;&#x6570;&#x91CF;&#x4E5F;&#x90FD;&#x8FD8;&#x53EF;&#x4EE5;&#xFF0C;&#x4E3A;&#x4E0B;&#x9762;&#x7684;&#x65B9;&#x5DEE;&#x5206;&#x6790;&#x505A;&#x51C6;&#x5907;

热力图

&#x70ED;&#x529B;&#x56FE;
def heatmap(data, method='pearson', camp='RdYlGn', figsize=(10 ,8)):
"""
    data: &#x6574;&#x4EFD;&#x6570;&#x636E;
    method&#xFF1A;&#x9ED8;&#x8BA4;&#x4E3A; pearson &#x7CFB;&#x6570;
    camp&#xFF1A;&#x9ED8;&#x8BA4;&#x4E3A;&#xFF1A;RdYlGn-&#x7EA2;&#x9EC4;&#x84DD;&#xFF1B;YlGnBu-&#x9EC4;&#x7EFF;&#x84DD;&#xFF1B;Blues/Greens &#x4E5F;&#x662F;&#x4E0D;&#x9519;&#x7684;&#x9009;&#x62E9;
    figsize: &#x9ED8;&#x8BA4;&#x4E3A; 10&#xFF0C;8
"""
    ## &#x6D88;&#x9664;&#x659C;&#x5BF9;&#x89D2;&#x989C;&#x8272;&#x91CD;&#x590D;&#x7684;&#x8272;&#x5757;
    #     mask = np.zeros_like(df2.corr())
    #     mask[np.tril_indices_from(mask)] = True
    plt.figure(figsize=figsize, dpi= 80)
    sns.heatmap(data.corr(method=method), \
                xticklabels=data.corr(method=method).columns, \
                yticklabels=data.corr(method=method).columns, cmap=camp, \
                center=0, annot=True)
    # &#x8981;&#x60F3;&#x5B9E;&#x73B0;&#x53EA;&#x662F;&#x7559;&#x4E0B;&#x5BF9;&#x89D2;&#x7EBF;&#x4E00;&#x534A;&#x7684;&#x6548;&#x679C;&#xFF0C;&#x62EC;&#x53F7;&#x5185;&#x7684;&#x53C2;&#x6570;&#x53EF;&#x4EE5;&#x52A0;&#x4E0A; mask=mask

拟合

&#x521A;&#x624D;&#x7684;&#x63A2;&#x7D22;&#x6211;&#x4EEC;&#x53D1;&#x73B0;&#xFF0C;style &#x4E0E; neighborhood &#x7684;&#x7C7B;&#x522B;&#x90FD;&#x662F;&#x4E09;&#x7C7B;&#xFF0C;
 ## &#x5982;&#x679C;&#x53EA;&#x662F;&#x4E24;&#x7C7B;&#x7684;&#x8BDD;&#x6211;&#x4EEC;&#x53EF;&#x4EE5;&#x8FDB;&#x884C;&#x5361;&#x65B9;&#x68C0;&#x9A8C;&#xFF0C;&#x6240;&#x4EE5;&#x8FD9;&#x91CC;&#x6211;&#x4EEC;&#x4F7F;&#x7528;&#x65B9;&#x5DEE;&#x5206;&#x6790;

## &#x5229;&#x7528;&#x56DE;&#x5F52;&#x6A21;&#x578B;&#x4E2D;&#x7684;&#x65B9;&#x5DEE;&#x5206;&#x6790;
## &#x53EA;&#x6709; statsmodels &#x6709;&#x65B9;&#x5DEE;&#x5206;&#x6790;&#x5E93;
## &#x4ECE;&#x7EBF;&#x6027;&#x56DE;&#x5F52;&#x7ED3;&#x679C;&#x4E2D;&#x63D0;&#x53D6;&#x65B9;&#x5DEE;&#x5206;&#x6790;&#x7ED3;&#x679C;
import statsmodels.api as sm
from statsmodels.formula.api import ols # ols &#x4E3A;&#x5EFA;&#x7ACB;&#x7EBF;&#x6027;&#x56DE;&#x5F52;&#x6A21;&#x578B;&#x7684;&#x7EDF;&#x8BA1;&#x5B66;&#x5E93;
from statsmodels.stats.anova import anova_lm

随机选择600条数据

&#x6570;&#x636E;&#x96C6;&#x6837;&#x672C;&#x6570;&#x91CF;&#xFF1A;6028&#xFF0C;&#x8FD9;&#x91CC;&#x968F;&#x673A;&#x9009;&#x62E9; 600 &#x6761;&#xFF0C;&#x5982;&#x679C;&#x5E0C;&#x671B;&#x5206;&#x5C42;&#x62BD;&#x6837;&#xFF0C;&#x53EF;&#x53C2;&#x8003;&#x6587;&#x7AE0;&#xFF1A;
df = df.copy().sample(600)

C &#x8868;&#x793A;&#x544A;&#x8BC9; Python &#x8FD9;&#x662F;&#x5206;&#x7C7B;&#x53D8;&#x91CF;&#xFF0C;&#x5426;&#x5219; Python &#x4F1A;&#x5F53;&#x6210;&#x8FDE;&#x7EED;&#x53D8;&#x91CF;&#x4F7F;&#x7528;
## &#x8FD9;&#x91CC;&#x76F4;&#x63A5;&#x4F7F;&#x7528;&#x65B9;&#x5DEE;&#x5206;&#x6790;&#x5BF9;&#x6240;&#x6709;&#x5206;&#x7C7B;&#x53D8;&#x91CF;&#x8FDB;&#x884C;&#x68C0;&#x9A8C;
## &#x4E0B;&#x9762;&#x51E0;&#x884C;&#x4EE3;&#x7801;&#x4FBF;&#x662F;&#x4F7F;&#x7528;&#x7EDF;&#x8BA1;&#x5B66;&#x5E93;&#x8FDB;&#x884C;&#x65B9;&#x5DEE;&#x5206;&#x6790;&#x7684;&#x6807;&#x51C6;&#x59FF;&#x52BF;
lm = ols('price ~ C(neighborhood) + C(style)', data=df).fit()
anova_lm(lm)

Residual &#x884C;&#x8868;&#x793A;&#x6A21;&#x578B;&#x4E0D;&#x80FD;&#x89E3;&#x91CA;&#x7684;&#x7EC4;&#x5185;&#x7684;&#xFF0C;&#x5176;&#x4ED6;&#x7684;&#x662F;&#x80FD;&#x89E3;&#x91CA;&#x7684;&#x7EC4;&#x95F4;&#x7684;
df: &#x81EA;&#x7531;&#x5EA6;&#xFF08;n-1&#xFF09;- &#x5206;&#x7C7B;&#x53D8;&#x91CF;&#x4E2D;&#x7684;&#x7C7B;&#x522B;&#x4E2A;&#x6570;&#x51CF;1
sum_sq: &#x603B;&#x5E73;&#x65B9;&#x548C;&#xFF08;SSM&#xFF09;&#xFF0C;residual&#x884C;&#x7684; sum_eq: SSE
mean_sq: msm, residual&#x884C;&#x7684; mean_sq: mse
F&#xFF1A;F &#x7EDF;&#x8BA1;&#x91CF;&#xFF0C;&#x67E5;&#x770B;&#x5361;&#x65B9;&#x5206;&#x5E03;&#x8868;&#x5373;&#x53EF;
PR(>F): P &#x503C;

&#x53CD;&#x590D;&#x5237;&#x65B0;&#x51E0;&#x6B21;&#xFF0C;&#x53D1;&#x73B0;&#x90FD;&#x5F88;&#x663E;&#x8457;&#xFF0C;&#x6240;&#x4EE5;&#x8FD9;&#x4E24;&#x4E2A;&#x53D8;&#x91CF;&#x4E5F;&#x633A;&#x503C;&#x5F97;&#x653E;&#x5165;&#x6A21;&#x578B;&#x4E2D;

多元线性回归建模

from statsmodels.formula.api import ols

lm = ols('price ~ area + bedrooms + bathrooms', data=df).fit()
lm.summary()

模型优化

&#x8BBE;&#x7F6E;&#x865A;&#x62DF;&#x53D8;&#x91CF;
&#x4EE5;&#x540D;&#x4E49;&#x53D8;&#x91CF; neighborhood &#x8857;&#x533A;&#x4E3A;&#x4F8B;
nominal_data = df['neighborhood']

&#x8BBE;&#x7F6E;&#x865A;&#x62DF;&#x53D8;&#x91CF;
dummies = pd.get_dummies(nominal_data)
dummies.sample()  # pandas &#x4F1A;&#x81EA;&#x52A8;&#x5E2E;&#x4F60;&#x547D;&#x540D;

&#x6BCF;&#x4E2A;&#x540D;&#x4E49;&#x53D8;&#x91CF;&#x751F;&#x6210;&#x7684;&#x865A;&#x62DF;&#x53D8;&#x91CF;&#x4E2D;&#xFF0C;&#x9700;&#x8981;&#x5404;&#x4E22;&#x5F03;&#x4E00;&#x4E2A;&#xFF0C;&#x8FD9;&#x91CC;&#x4EE5;&#x4E22;&#x5F03;C&#x4E3A;&#x4F8B;
dummies.drop(columns=['C'], inplace=True)
dummies.sample()

拼接

&#x5C06;&#x7ED3;&#x679C;&#x4E0E;&#x539F;&#x6570;&#x636E;&#x96C6;&#x62FC;&#x63A5;
results = pd.concat(objs=[df, dummies], axis='columns')  # &#x6309;&#x7167;&#x5217;&#x6765;&#x5408;&#x5E76;
results.sample(3)
&#x5BF9;&#x540D;&#x4E49;&#x53D8;&#x91CF; style &#x7684;&#x5904;&#x7406;&#x53EF;&#x81EA;&#x884C;&#x5C1D;&#x8BD5;

再次建模

&#x518D;&#x6B21;&#x5EFA;&#x6A21;
lm = ols('price ~ area + bedrooms + bathrooms + A + B', data=results).fit()
lm.summary()

处理多元共线性

&#x81EA;&#x5B9A;&#x4E49;&#x65B9;&#x5DEE;&#x81A8;&#x80C0;&#x56E0;&#x5B50;&#x7684;&#x68C0;&#x6D4B;&#x516C;&#x5F0F;
def vif(df, col_i):
"""
    df: &#x6574;&#x4EFD;&#x6570;&#x636E;
    col_i&#xFF1A;&#x88AB;&#x68C0;&#x6D4B;&#x7684;&#x5217;&#x540D;
"""
    cols = list(df.columns)
    cols.remove(col_i)
    cols_noti = cols
    formula = col_i + '~' + '+'.join(cols_noti)
    r2 = ols(formula, df).fit().rsquared
    return 1. / (1. - r2)

test_data = results[['area', 'bedrooms', 'bathrooms', 'A', 'B']]
for i in test_data.columns:
    print(i, '\t', vif(df=test_data, col_i=i))
&#x53D1;&#x73B0; bedrooms &#x548C; bathrooms &#x5B58;&#x5728;&#x5F3A;&#x76F8;&#x5173;&#x6027;&#xFF0C;&#x53EF;&#x80FD;&#x8FD9;&#x4E24;&#x4E2A;&#x53D8;&#x91CF;&#x662F;&#x89E3;&#x91CA;&#x540C;&#x4E00;&#x4E2A;&#x95EE;&#x9898;

丢弃膨胀因子

&#x679C;&#x7136;&#xFF0C;bedrooms &#x548C; bathrooms &#x8FD9;&#x4E24;&#x4E2A;&#x53D8;&#x91CF;&#x7684;&#x65B9;&#x5DEE;&#x81A8;&#x80C0;&#x56E0;&#x5B50;&#x8F83;&#x9AD8;&#xFF0C;
 # &#x4E5F;&#x5370;&#x8BC1;&#x4E86;&#x65B9;&#x5DEE;&#x81A8;&#x80C0;&#x56E0;&#x5B50;&#x5927;&#x591A;&#x6210;&#x5BF9;&#x51FA;&#x73B0;&#x7684;&#x539F;&#x5219;&#xFF0C;&#x8FD9;&#x91CC;&#x6211;&#x4EEC;&#x4E22;&#x5F03;&#x81A8;&#x80C0;&#x56E0;&#x5B50;&#x8F83;&#x5927;&#x7684; bedrooms &#x5373;&#x53EF;
lm = ols(formula='price ~ area + bathrooms + A + B', data=results).fit()
lm.summary()

再次进行多元共线性检测

&#x518D;&#x6B21;&#x8FDB;&#x884C;&#x591A;&#x5143;&#x5171;&#x7EBF;&#x6027;&#x68C0;&#x6D4B;
test_data = df[['area', 'bathrooms']]
for i in test_data.columns:
    print(i, '\t', vif(df=test_data, col_i=i))

sklearn多元线性回归预测房价

导入包和数据

import pandas as pd
import numpy as np
import math
import matplotlib.pyplot as plt # &#x753B;&#x56FE;
from sklearn import linear_model # &#x7EBF;&#x6027;&#x6A21;&#x578B;
data = pd.read_csv('C:/Users/86199/Jupyter/house_prices_second.csv') #&#x8BFB;&#x53D6;&#x6570;&#x636E;
data.head() #&#x6570;&#x636E;&#x5C55;&#x793A;

去除第一列house_id

new_data=data.iloc[:,1:] #&#x9664;&#x6389;id&#x8FD9;&#x4E00;&#x5217;
new_data.head()

关系系数矩阵显示

new_data.corr() # &#x76F8;&#x5173;&#x7CFB;&#x6570;&#x77E9;&#x9635;,&#x53EA;&#x7EDF;&#x8BA1;&#x6570;&#x503C;&#x5217;

变量赋值

x_data = new_data.iloc[:, 0:5] #area&#x3001;bedrooms&#x3001;bathroom&#x5BF9;&#x5E94;&#x5217;
y_data = new_data.iloc[:, -1] #price&#x5BF9;&#x5E94;&#x5217;
print(x_data, y_data, len(x_data))

建模并输出

&#x5E94;&#x7528;&#x6A21;&#x578B;
model = linear_model.LinearRegression()
model.fit(x_data, y_data)
print("&#x56DE;&#x5F52;&#x7CFB;&#x6570;&#xFF1A;", model.coef_)
print("&#x622A;&#x8DDD;&#xFF1A;", model.intercept_)
print('&#x56DE;&#x5F52;&#x65B9;&#x7A0B;: price=',model.coef_[0],'*neiborhood+',model.coef_[1],'*area +',model.coef_[2],'*bedrooms +',model.coef_[3],'*bathromms +',model.coef_[4],'*sytle ',model.intercept_)

使用清洗后的数据

赋值新变量

new_data_Z=new_data.iloc[:,0:]
new_data_IQR=new_data.iloc[:,0:]

异常值处理

================ &#x5F02;&#x5E38;&#x503C;&#x68C0;&#x9A8C;&#x51FD;&#x6570;&#xFF1A;iqr & z&#x5206;&#x6570; &#x4E24;&#x79CD;&#x65B9;&#x6CD5; =========================
def outlier_test(data, column, method=None, z=2):
    """ &#x4EE5;&#x67D0;&#x5217;&#x4E3A;&#x4F9D;&#x636E;&#xFF0C;&#x4F7F;&#x7528; &#x4E0A;&#x4E0B;&#x622A;&#x65AD;&#x70B9;&#x6CD5; &#x68C0;&#x6D4B;&#x5F02;&#x5E38;&#x503C;(&#x7D22;&#x5F15;) """
"""
    full_data: &#x5B8C;&#x6574;&#x6570;&#x636E;
    column: full_data &#x4E2D;&#x7684;&#x6307;&#x5B9A;&#x884C;&#xFF0C;&#x683C;&#x5F0F; 'x' &#x5E26;&#x5F15;&#x53F7;
    return &#x53EF;&#x9009;; outlier: &#x5F02;&#x5E38;&#x503C;&#x6570;&#x636E;&#x6846;
    upper: &#x4E0A;&#x622A;&#x65AD;&#x70B9;;  lower: &#x4E0B;&#x622A;&#x65AD;&#x70B9;
    method&#xFF1A;&#x68C0;&#x9A8C;&#x5F02;&#x5E38;&#x503C;&#x7684;&#x65B9;&#x6CD5;&#xFF08;&#x53EF;&#x9009;, &#x9ED8;&#x8BA4;&#x7684; None &#x4E3A;&#x4E0A;&#x4E0B;&#x622A;&#x65AD;&#x70B9;&#x6CD5;&#xFF09;&#xFF0C;
            &#x9009; Z &#x65B9;&#x6CD5;&#x65F6;&#xFF0C;Z &#x9ED8;&#x8BA4;&#x4E3A; 2
"""
    # ================== &#x4E0A;&#x4E0B;&#x622A;&#x65AD;&#x70B9;&#x6CD5;&#x68C0;&#x9A8C;&#x5F02;&#x5E38;&#x503C; ==============================
    if method == None:
        print(f'&#x4EE5; {column} &#x5217;&#x4E3A;&#x4F9D;&#x636E;&#xFF0C;&#x4F7F;&#x7528; &#x4E0A;&#x4E0B;&#x622A;&#x65AD;&#x70B9;&#x6CD5;(iqr) &#x68C0;&#x6D4B;&#x5F02;&#x5E38;&#x503C;...')
        print('=' * 70)
        # &#x56DB;&#x5206;&#x4F4D;&#x70B9;&#xFF1B;&#x8FD9;&#x91CC;&#x8C03;&#x7528;&#x51FD;&#x6570;&#x4F1A;&#x5B58;&#x5728;&#x5F02;&#x5E38;
        column_iqr = np.quantile(data[column], 0.75) - np.quantile(data[column], 0.25)
        # 1&#xFF0C;3 &#x5206;&#x4F4D;&#x6570;
        (q1, q3) = np.quantile(data[column], 0.25), np.quantile(data[column], 0.75)
        # &#x8BA1;&#x7B97;&#x4E0A;&#x4E0B;&#x622A;&#x65AD;&#x70B9;
        upper, lower = (q3 + 1.5 * column_iqr), (q1 - 1.5 * column_iqr)
        # &#x68C0;&#x6D4B;&#x5F02;&#x5E38;&#x503C;
        outlier = data[(data[column] <= lower) | (data[column]>= upper)]
        print(f'&#x7B2C;&#x4E00;&#x5206;&#x4F4D;&#x6570;: {q1}, &#x7B2C;&#x4E09;&#x5206;&#x4F4D;&#x6570;&#xFF1A;{q3}, &#x56DB;&#x5206;&#x4F4D;&#x6781;&#x5DEE;&#xFF1A;{column_iqr}')
        print(f"&#x4E0A;&#x622A;&#x65AD;&#x70B9;&#xFF1A;{upper}, &#x4E0B;&#x622A;&#x65AD;&#x70B9;&#xFF1A;{lower}")
        return outlier, upper, lower
    # ===================== Z &#x5206;&#x6570;&#x68C0;&#x9A8C;&#x5F02;&#x5E38;&#x503C; ==========================
    if method == 'z':
        """ &#x4EE5;&#x67D0;&#x5217;&#x4E3A;&#x4F9D;&#x636E;&#xFF0C;&#x4F20;&#x5165;&#x6570;&#x636E;&#x4E0E;&#x5E0C;&#x671B;&#x5206;&#x6BB5;&#x7684; z &#x5206;&#x6570;&#x70B9;&#xFF0C;&#x8FD4;&#x56DE;&#x5F02;&#x5E38;&#x503C;&#x7D22;&#x5F15;&#x4E0E;&#x6240;&#x5728;&#x6570;&#x636E;&#x6846; """
"""
        params
        data: &#x5B8C;&#x6574;&#x6570;&#x636E;
        column: &#x6307;&#x5B9A;&#x7684;&#x68C0;&#x6D4B;&#x5217;
        z: Z&#x5206;&#x4F4D;&#x6570;, &#x9ED8;&#x8BA4;&#x4E3A;2&#xFF0C;&#x6839;&#x636E; z&#x5206;&#x6570;-&#x6B63;&#x6001;&#x66F2;&#x7EBF;&#x8868;&#xFF0C;&#x53EF;&#x77E5;&#x53D6;&#x5DE6;&#x53F3;&#x4E24;&#x7AEF;&#x7684; 2%&#xFF0C;
           &#x6839;&#x636E;&#x60A8; z &#x5206;&#x6570;&#x7684;&#x6B63;&#x8D1F;&#x8BBE;&#x7F6E;&#x3002;&#x4E5F;&#x53EF;&#x4EE5;&#x4EFB;&#x610F;&#x66F4;&#x6539;&#xFF0C;&#x77E5;&#x9053;&#x4EFB;&#x610F;&#x9876;&#x7AEF;&#x767E;&#x5206;&#x6BD4;&#x7684;&#x6570;&#x636E;&#x96C6;&#x5408;
"""
        print(f'&#x4EE5; {column} &#x5217;&#x4E3A;&#x4F9D;&#x636E;&#xFF0C;&#x4F7F;&#x7528; Z &#x5206;&#x6570;&#x6CD5;&#xFF0C;z &#x5206;&#x4F4D;&#x6570;&#x53D6; {z} &#x6765;&#x68C0;&#x6D4B;&#x5F02;&#x5E38;&#x503C;...')
        print('=' * 70)
        # &#x8BA1;&#x7B97;&#x4E24;&#x4E2A; Z &#x5206;&#x6570;&#x7684;&#x6570;&#x503C;&#x70B9;
        mean, std = np.mean(data[column]), np.std(data[column])
        upper, lower = (mean + z * std), (mean - z * std)
        print(f"&#x53D6; {z} &#x4E2A; Z&#x5206;&#x6570;&#xFF1A;&#x5927;&#x4E8E; {upper} &#x6216;&#x5C0F;&#x4E8E; {lower} &#x7684;&#x5373;&#x53EF;&#x88AB;&#x89C6;&#x4E3A;&#x5F02;&#x5E38;&#x503C;&#x3002;")
        print('=' * 70)
        # &#x68C0;&#x6D4B;&#x5F02;&#x5E38;&#x503C;
        outlier = data[(data[column] <= lower) | (data[column]>= upper)]
        return outlier, upper, lower
</=></=>

price 列为依据，使用 Z 分数法，z 分位数取 2 来检测异常值

outlier, upper, lower = outlier_test(data=new_data_Z, column='price', method='z')
outlier.info(); outlier.sample(5)

&#x8FD9;&#x91CC;&#x7B80;&#x5355;&#x7684;&#x4E22;&#x5F03;&#x5373;&#x53EF;
new_data_Z.drop(index=outlier.index, inplace=True)

.price 列为依据，使用上下截断点法(iqr) 检测异常值

outlier, upper, lower = outlier_test(data=new_data_IQR, column='price')
outlier.info(); outlier.sample(6)

&#x8FD9;&#x91CC;&#x7B80;&#x5355;&#x7684;&#x4E22;&#x5F03;&#x5373;&#x53EF;
new_data_IQR.drop(index=outlier.index, inplace=True)

输出数据矩阵

print("&#x539F;&#x6570;&#x636E;&#x76F8;&#x5173;&#x6027;&#x77E9;&#x9635;")
new_data.corr()

Z方法处理相关性矩阵

&#x5728;&#x8FD9;&#x91CC;&#x63D2;&#x5165;&#x4EE3;&#x7801;&#x7247;print("Z&#x65B9;&#x6CD5;&#x5904;&#x7406;&#x7684;&#x6570;&#x636E;&#x76F8;&#x5173;&#x6027;&#x77E9;&#x9635;")
new_data_Z.corr()

IQR方法处理的数据相关性矩阵

print("IQR&#x65B9;&#x6CD5;&#x5904;&#x7406;&#x7684;&#x6570;&#x636E;&#x76F8;&#x5173;&#x6027;&#x77E9;&#x9635;")
new_data_IQR.corr()

建模输出

x_data = new_data_Z.iloc[:, 0:5]
y_data = new_data_Z.iloc[:, -1]
&#x5E94;&#x7528;&#x6A21;&#x578B;
model = linear_model.LinearRegression()
model.fit(x_data, y_data)
print("&#x56DE;&#x5F52;&#x7CFB;&#x6570;&#xFF1A;", model.coef_)
print("&#x622A;&#x8DDD;&#xFF1A;", model.intercept_)
print('&#x56DE;&#x5F52;&#x65B9;&#x7A0B;: price=',model.coef_[0],'*neiborhood+',model.coef_[1],'*area +',model.coef_[2],'*bedrooms +',model.coef_[3],'*bathromms +',model.coef_[4],'*sytle ',model.intercept_)

参考资料

多元线性回归预测
 sklearn线性回归实现房价预测模型
 基于多元线性回归的房价预测

Original: https://blog.csdn.net/qq_33700652/article/details/122459361
Author: 竹月弓
Title: 基于多元线性回归的房价预测

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/630630/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

10 【Express基本使用】

10 【Express基本使用】 https://www.expressjs.com.cn/ 基于 Node.js 平台，快速、开放、极简的 web 开发框架。 1.Express…

人工智能 2023年6月28日
0070
【项目实战】Python实现Catboost回归模型(CatBoostRegressor算法)项目实战

说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。 1.项目背景 CatBoost是一种基于对称决策树（o…

人工智能 2023年6月18日
0083
Yolov5-deepsort人车流统计RTMP推流直播

Yolov5-deepsort人车流统计RTMP推流直播整体框架分为三个部分：（1）目标检测追踪代码（需要英伟达显卡）。（2）ffmpeg推流（需要英伟达显卡）。（3）Nginx服…

人工智能 2023年7月9日
0085
[CG从零开始] 1. 安装 pyopengl

因为只是为了验证原理和想法，实在不愿意折腾 C++ 去编译、链接找库……，并且为了配合今后一系列关于 CG 的文章，决定用 python 的 opengl …

人工智能 2023年6月4日
0074
假设检验方法-T检验、Z检验、F检验、卡方检验

假设检验问题是统计推断中的一类重要问题，小编在之前给大家整理，分享过假设检验的基本步骤，今天给大家带来的是常见的假设检验方法，希望对大家有所帮助。一、假设检验基本概念假设检验是…

人工智能 2023年7月15日
0076
从零学习目标检测，YOLOv3代码学习（1）

文章目录 * – 1 写在前面 – 2 文件夹分析 – + assets文件夹 + config文件夹 + data文件夹 + pytorchy…

人工智能 2023年7月12日
0044
《了解CV和RoboMaster视觉组》完结啦！

加入RoboMaster视觉/算法组必看/你的最后一本计算机视觉入门书在今天完成了基本的编写工作。全书共三十五万六千零四字，相当于一本长篇小说。导出成PDF后共327页，光是目录就…

人工智能 2023年6月24日
0065
ArcGIS与地理加权回归GWR【二】以及MGWR软件下载

原文链接 ArcGIS与地理加权回归GWR【二】以及MGWR软件下载https://mp.weixin.qq.com/s/IslFNMrulsmBYgd7aa26xQ ; 带宽，即…

人工智能 2023年6月17日
0087
VsCode配置c/c++环境

文章目录 1. vsCode配置C/C++环境 * 1. vsCode下载和安装 – 1. 下载Microsoft vsCode 2. 安装vsCode 3. 下载中文…

人工智能 2023年6月26日
0088
python数据分析——简单且有用的代码

时隔多天，终于又要开始我的博客生涯了，经过这个月的python数据分析和机器学习，总结了一些经验，同时也收获了一些大佬的优秀博客，感兴趣的可以观看我的收藏夹，废话不多说，直接进入正…

人工智能 2023年7月7日
0048
如何看懂2021 Gartner 新兴技术和趋势影响雷达

每年Gartner都会对当前热点趋势进行追踪，并且探究其背后所依赖的技术，并通过将未来发展趋势与新兴技术作结合，将新兴技术划分成了三个雷达象限：界面和体验：从根本上改变我们与世界…

人工智能 2023年5月31日
0064
自定义starter出现Unable to read meta-data for class 这样解决

错误：在自己写了一个stater包后，在其他工程进行调用。正常情况是自定义的stater包打包完毕，在另一个工程maven里面调用就行。但是这次调用的时候出现了以下情况。这种情…

人工智能 2023年6月29日
00331
RK3399平台开发系列讲解（FLASH篇）内核MTD层数据结构体

平台内核版本安卓版本 RK3399 Linux4.4 Android7.1 🚀返回专栏总目录; 文章目录一、mtd_info结构二、mtd_part结构三、mtd_par…

人工智能 2023年6月30日
0079
使用Keras的面部表情识别

使用Keras的面部表情识别项目实施… 介绍和概述 Keras是一个非常强大的开源Python库，它运行在TensorFlow、Theano等其他开源机器库之上，用于…

人工智能 2023年6月27日
0062
将Labelme标注的数据做成COCO格式的数据集（实例分割的数据集）

这里说明一下： Labelme标注数据时候是用的多边形框，关于标注，可以看前面的博客文章下面制作的COCO数据集是用于实例分割的数据集。 COCO格式数据集的制作 1、label…

人工智能 2023年5月26日
0077
＜＜从零入门机器学习＞＞最基础的分类的算法-KNN（K近邻算法）

目录 * – 1. 文章主要内容 – 2. KNN算法(K近邻算法) – + 2.1 定义（大白话） + 2.2 欧拉距离 + 2.3 KNN算…

人工智能 2023年7月18日
0070

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30