机器学习在房屋价格预测上的应用

2023年8月13日上午2:48 • Python • 阅读 60

前言

Python 在机器学习方面有天然的优势，那么我们今天也来涉足一下机器学习方面的技术，以下是在学习过程中的一些笔记，里面有大量的注释说明，用于理解为什么这样操作。

涉及到的数据见资源共享的文章–机器学习-数据集(预测房价)

代码实现如下：

Numpy & Pandas & Matplotlib & Ipython

#NumPy(Numerical Python) 是 Python 语言的一个扩展程序库，支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。
import numpy as np

#Pandas 可以对各种数据进行运算操作，比如归并、再成形、选择，还有数据清洗和数据加工特征
import pandas as pd

#Matplotlib 是 Python 的绘图库。 它可与 NumPy 一起使用，提供了一种有效的 MatLab 开源替代方案
import matplotlib.pyplot as plt

#Ipython.display的库是用来展示图片的
from IPython.display import Image
from sklearn.model_selection import train_test_split

import  warnings
warnings.filterwarnings('ignore')

data = pd.read_csv("train.csv")
print(type(data))
print(data.info())
print(data.shape)
print(data.head())
print(data[['MSSubClass','LotArea']])

数据集合&缺失值

#选择数据集合中的几个重要特征
data_select = data[['BedroomAbvGr','LotArea','Neighborhood','SalePrice']]

#对数据集中的字段进行重命名
data_select = data_select.rename(columns={'BedroomAbvGr':'room','LotArea':'area'})
print(data_select)
print(data_select.shape)
print("*"*100)

#判断缺失值一般采用 isnull()，然而生成的却是所有数据的true／false矩阵
print(data_select.isnull())

#df.isnull().any()则会判断哪些"列"存在缺失值
print(data_select.isnull().any())

#只显示存在缺失值的行列，清楚的确定缺失值的位置
print(data_select.isnull().values==True)

#对缺失的数据进行过滤
data_select=data_select.dropna(axis=0)
print(data_select.shape)
print(data_select.head())

#print(np.take(data_select.columns,[0,1,3]))
#print(type(np.take(data_select.columns,[0,1,3])))

归一化处理

#数太大,归一化,让数据的分布处于同一区间,咱们选择一种最简单的数据调整方法,每一个数除以其最大值
for col in np.take(data_select.columns,[0,1,-1]):
    # print(col)
    # print(data_select[col])
    data_select[col] /= data_select[col].max()

print(data_select.head())

#分配测试数据和训练数据
train,test = train_test_split(data_select.copy(),test_size=0.9)
print(train.shape)
print(test.shape)
print(test.describe())

#numpy 里面axis=0 and axis=1 的使用示例说明：
print("="*50)
data=np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])
print(data)
print(data.shape) #shape=[3,4] 即为3行4列
print(np.sum(data)) #在numpy中若没有指定axis，默认对所有的数据相加

print(np.sum(data,axis=0))#若指定了axis=0,则沿着第一个维度的方向进行计算,即为3 按列中的3个数据进行计算，得到4组列数据计算结果

print(np.sum(data,axis=1))#若指定了axis=1,则沿着第二个维度的方向进行计算,即为4 按行中的4个数据进行计算，得到3组行数据计算结果

print("="*50)

#pandas 里面axis=0 and axis=1 的使用示例说明：
#如果我们调用df.mean(axis=1),我们将得到按行计算的均值
df=pd.DataFrame(np.arange(12).reshape(3,4))
print(df)

print(df.mean()) #在pandas中，如果没有指定axis，则默认按axis=0来计算

print(df.mean(axis=0)) #若指定了axis=0,则按照第一个维度的变化方向来计算,即为3 按列中的3个数据进行计算，得到4组列数据计算结果

print(df.mean(axis=1)) #若指定了axis=1,则按照第二个维度的变化方向来计算,即为4 按行中的4个数据进行计算，得到3组行数据计算结果

线性回归模型

#线性回归模型,假设 h(x) = wx + b 是线性的.

def linear(features,pars):
    print("the pars is:",pars)
    print(pars[:-1])
    price=np.sum(features*pars[:-1],axis=1)+pars[-1]
    return price

print("*"*100)
train['predict']=linear(train[['room','area']].values,np.array([0.1,0.1,0.0]))

#能够看到,在该参数下,模型的预测价格和真实价格有较大的差距.那么寻找合适的参数值是咱们须要作的事情
print(train.head())

#预测函数为 h(x) = wx + b
#偏差的平方和函数：
def mean_squared_error(pred_y,real_y):
    return sum(np.array(pred_y-real_y)**2)

#损失函数：
def lost_function(df,features,pars):
    df['predict']=linear(df[features].values,pars)
    cost=mean_squared_error(df.predict,df.SalePrice)/len(df)
    return cost

cost=lost_function(train,['room','area'],np.array([0.1,0.1,0.1]))
print(cost)

#linspace函数原型：linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)
#作用为：在指定的大间隔内，返回固定间隔的数据。他将返回"num"个等间距的样本，在区间[start, stop]中。其中，区间的结束端点可以被排除在外，默认是包含的。
num=100
Xs = np.linspace(0,1,num)
Ys = np.linspace(0,1,num)
print(Xs) #如果num=5 ->[0.   0.25 0.5  0.75 1.  ]
print(Ys) #如果num=5 ->[0.   0.25 0.5  0.75 1.  ]

#zeros函数原型：zeros(shape, dtype=float, order='C')
#作用：通常是把数组转换成想要的矩阵；
#示例：np.zeros((2,3),dtype=np.int)
Zs = np.zeros([num,num]) #100*100的矩阵，值全为0.

print(Zs)

#meshgrid 从坐标向量中返回坐标矩阵
Xs,Ys=np.meshgrid(Xs,Ys)
print(Xs.shape,Ys.shape)
print(Xs) #如果num=5 则处理后的矩阵为：
'''
[[0.   0.25 0.5  0.75 1.  ]
 [0.   0.25 0.5  0.75 1.  ]
 [0.   0.25 0.5  0.75 1.  ]
 [0.   0.25 0.5  0.75 1.  ]
 [0.   0.25 0.5  0.75 1.  ]]
'''
print(Ys) #如果num=5 则处理后的矩阵为：
'''
[[0.   0.   0.   0.   0.  ]
 [0.25 0.25 0.25 0.25 0.25]
 [0.5  0.5  0.5  0.5  0.5 ]
 [0.75 0.75 0.75 0.75 0.75]
 [1.   1.   1.   1.   1.  ]]
'''
W1=[]
W2=[]
Costs=[]

for i in range(100):
    for j in range(100):
        W1.append(0.01*i)
        W2.append(0.01*j)
        Costs.append(lost_function(train,['room','area'],np.array([0.01*i,0.01*j,0.])))
#numpy.argmin(a, axis=None, out=None)
#a:一个矩阵
#axis:整数，可选（没选择的话就是整个数组的展开）（0:行，1列）
#返回小值的下标
index=np.array(lost_function).argmin()
print(W1[index],W2[index],Costs[index])

from mpl_toolkits.mplot3d import Axes3D
fig=plt.figure()
ax = fig.add_subplot(111,projection='3d')
ax.view_init(5,-15)
ax.scatter(W1,W2,Costs,s=10)
ax.scatter(0.58,0.28, zs=lost_function(train,['room','area'],np.array([0.58,0.28,0.0])),s=100,color='red')
plt.xlabel('rooms')
plt.ylabel('llotArea')
plt.show()

欢迎关注【无量测试之道】公众号，回复【领取资源】
Python编程学习资源干货、
Python+Appium框架APP的UI自动化、
Python+Selenium框架Web的UI自动化、
Python+Unittest框架API自动化、
资源和代码免费送啦~
文章下方有公众号二维码，可直接微信扫一扫关注即可。

备注：我的个人公众号已正式开通，致力于测试技术的分享，包含：大数据测试、功能测试，测试开发，API接口自动化、测试运维、UI自动化测试等，微信搜索公众号：”无量测试之道”，或扫描下方二维码：

添加关注，让我们一起共同成长！

Original: https://blog.csdn.net/weixin_41754309/article/details/121376624
Author: Wu_Candy
Title: 机器学习在房屋价格预测上的应用

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/747948/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

drf 视图组件

内容概要 request 对象和 response 对象 GenericAPIView 介绍基于 GenericAPIView 的 5个视图扩展类 GenericAPIView …

Python 2023年5月24日
0050
None 和 NaN分不清？ pandas 难点彻底搞懂

Pandas 和 Numpy 是数据挖掘和数据科学中广泛使用的工具，但有时人们会对 None 和 NaN 感到困惑，它们非常相似但略有不同的数据类型。在这里，我们通过一些示例彻底…

Python 2023年8月7日
0058
数据分析_python进行数据筛选1_列筛选

以titanic的训练数据为例进行展示，为了简化取前十行为例首先导入模块，导入数据 import pandas as pd import numpy as np df = pd….

Python 2023年8月6日
0042
python贪吃蛇开发_Python：游戏：贪吃蛇（附源码）

“””贪吃蛇””” importrandomimportsysimporttimeimportpygamef…

Python 2023年9月24日
0063
python安装flask模块_Python3.6 安装Flask 模块

Flask 简介： Flask 是一个轻量级的 Web 应用框架, 使用Python编写。基于WerkzeugWSGI工具箱和 Jinja2模板引擎。使用BSD 授权。Flask也…

Python 2023年8月14日
0045
Pandas之Series和DateFrame详解

文章目录 1. 什么是Pandas? 2. 为什么要学习pandas 3. Series * 3.1 Series的创建 – 3.1.1 通过列表或者一维数组创建 3….

Python 2023年8月16日
0051
Django操作数据库

Django访问流程空项目结构 |– ProjectName | |– __init__.py | |– asgi.py | |– settings.py | |– u…

Python 2023年8月5日
0057
python入门——Pandas透视表(pivot_table)

透视表是一种可以对数据动态排布并且分类汇总的表格格式。pivot_table是pandas中数据透视表的函数。官方文档关于pivot_table函数体的介绍： pandas.pi…

Python 2023年8月23日
0069
【数字IC精品文章收录】近500篇文章|学习路线|基础知识|接口|总线|脚本语言|芯片求职|安全|EDA|工具|低功耗设计|Verilog|低功耗|STA|设计|验证|FPGA|架构|AMBA|书籍|

本篇索引旨在收藏CSDN全站中有关数字IC领域高价值文章，在数字芯片领域中，就算将架构，设计，验证，DFT，后端诸多岗位加在一起的数量，都不及软件类一个细分方向的岗位数量多，反映…

Python 2023年11月5日
0056
Python 中的深拷贝和浅拷贝

一、结论首先说结论：深拷贝出来的对象就是完完全全的新对象，不管是对象本身(id)，还是对象中包含的子对象，都和原始对象不一样；浅拷贝出来的对象就是外新内旧的对象，对象本身(id)…

Python 2023年6月11日
0062
python学习 –DataFrame连接: merge、concat、join、append

1、pd.merge(left, right, how=’inner’)“) 2、pd.concat([left,right],axis=1,j…

Python 2023年8月17日
0065
爱前端公开课学习笔记——JS02 字符串类型，布尔类型

字符串是用引号包裹的，表示语言文字。用双引号包裹的都是字符串 console.log(typeof 5); // number console.log(typeof "…

Python 2023年6月12日
0087
母婴商城：设置路由分发规则

文章目录一、复习二、设置路由分发规则 * 1.创建应用的路由文件（子路由） – urls.py – （1）创建index应用的路由文件（2）创建com…

Python 2023年8月6日
0057
scrapy 保存到mysql_scrapy爬虫保存数据到mysql

直接上例子 –– coding: utf-8 –– !/usr/bin/python3 Define your item pipel…

Python 2023年10月5日
0038
pandas 与 dict 互换

pandas的DataFrame与python的dict字典之间的相互转换一、dict生成DataFrame1、如果只有一个dict，即一行dataframe数据复制代码 dict…

Python 2023年8月7日
0051
Pandas简明教程（一）：Series数据类型、DataFrame数据类型

1.1 简介 Pandas是Python生态中非常重要的数据分析包，它是一个开源的库，采用BSD开源协议。 Pandas是基于 NumPy构建的数据分析包，但它含有比 ndarra…

Python 2023年8月16日
0071

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习在房屋价格预测上的应用

前言

大家都在看