机器学习入门实战加州房价预测

2023年6月25日下午4:20 • 人工智能 • 阅读 83

1 快速搭建运行环境
2 快速构建项目
*
2.1 导入训练集
2.2 安装函数库
–
- 2.2.1 安装numpy
- 2.2.2 安装pandas
2.3 构建特征集和标签
2.4 导入数据集拆分工具sklearn
2.5 导入线性回归算法模型
2.6 进行预测
2.7 精准度计算
3 导入matplotlib画图库
4 作图时遇到的错误

1 快速搭建运行环境

我这里比较懒是全是一键安装的直接使用vscode插件进行部署，没有去搭建jupyter notebook，不过也比较简单后续我会出相关文章进行搭建。

; 2 快速构建项目

2.1 导入训练集

https://raw.githubusercontent.com/huangjia2019/house/master/house.csv

import pandas as pd

df_housing = pd.read_csv("https://raw.githubusercontent.com/huangjia2019/house/master/house.csv")
df_housing.head

数据集介绍：经度（longitude）、纬度（latitude）、房屋的平均年龄（housing_median_age）、房屋数量（total_rooms）、家庭收入中位数（median_income）等信息，这些信息都是加州地区房价的特征。数据集最后一列”房价中位数”（median_house_value）是标签。这个机器学习项目的目标，就是根据已有的数据样本，对其特征进行推理归纳，得到一个函数模型后，就可以用它推断加州其他地区的房价中位数。

2.2 安装函数库

由于导入了Pandas，这是一个常见的Python数据处理函数库，如果没有这个库是不能运行的
使用vscode安装非常简单。

2.2.1 安装numpy

pip install numpy

输入这行代码不会报错就安装成功了

import numpy as np

array = np.array([[1,2,3],
                    [2,3,4]])

print(array)

2.2.2 安装pandas

pip install pandas

输入这行代码不会报错就安装成功了

2.3 构建特征集和标签

X = df_housing.drop("median_house_value",axis = 1)
y = df_housing.median_house_value

上面的代码使用drop方法，把最后一列median_house_value字段去掉，其他所有字段都保留下来作为特征集

2.4 导入数据集拆分工具sklearn

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y,
         test_size=0.2, random_state=0)

现在要把数据集一分为二，80%用于机器训练（训练数据集），剩下的留着做测试（测试数据集）如下段代码所示。这也就是告诉机器：你看，拥有这些特征的地方，房价是这样的，等一会儿你想个办法给我猜猜另外20%的地区的房价。

另外20%的地区的房价数据，本来就有了，但是我们假装不知道，故意让机器用自己学到的模型去预测。所以，之后通过比较预测值和真值，才知道机器”猜”得准不准，给模型打分。

2.5 导入线性回归算法模型

from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)

下面这段代码就开始训练机器：首先选择LinearRegression（线性回归）作为这个机器学习的模型，这是选定了模型的类型，也就是算法；然后通过其中的fit方法来训练机器，进行函数的拟合。拟合意味着找到最优的函数去模拟训练集中的输入（特征）和目标（标签）的关系，这是确定模型的参数

运行完成，此时已经成功运行完fit方法，学习到的函数也已经存在机器中了，现在就可以用model（模型）的predict方法对测试集的房价进行预测，如下段代码所示。（当然，等会儿我们也可以偷偷瞅一瞅这个函数是什么样……）

2.6 进行预测

y_pred = model.predict(X_test)
print ('房价的真值(测试集)',y_test)
print ('预测的房价(测试集)',y_pred)

对应起来看着趋势是没什么问题

2.7 精准度计算

print("给预测评分：", model.score(X_test, y_test))

3 导入matplotlib画图库

import matplotlib.pyplot as plt

plt.scatter(X_test.median_income, y_test,  color='brown')

plt.plot(X_test.median_income, y_pred, color='green', linewidth=1)
plt.xlabel('Median Income')
plt.ylabel('Median House Value')
plt.show()

绿色为机器学习所得函数图形，可以看出加州各个地区的平均房价中位数有随着该地区家庭收入中位数的上升而增加的趋势，而机器学习到的函数也同样体现了这一点。说明富人区就肯定都是收入高的。

4 作图时遇到的错误

VS Code错误 “preloads: Could not find renderer” ，只需禁用 “Jupyter Notebook Renderers” 即可。

Original: https://blog.csdn.net/ZGL_cyy/article/details/125345121
Author: 赵广陆
Title: 机器学习入门实战加州房价预测

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/651214/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

如何轻松理解对点云的深度学习算法 – PointNet的进化版 – PointNet++ 算法（点云分类、分割部分）？

CV_5 PointNet++算法的简单理解（分类、分割部分 – 入门级别）一. 引言在上一篇对PointNet++算法的文章中，我们了解到了PointNet++算…

人工智能 2023年7月2日
0067
LZW字典编码

1977年，两位以色列教授Lempel和Ziv提出了查找冗余字符和用较短的符号标记替代冗余字符的概念。1985年，由Welch加以充实而形成LZW，简称”LZW&#82…

人工智能 2023年7月16日
0059
数据分析[1.1]–拆解方法总结

主要总结的拆解方法来自前文中所提到的拆解方法。内容来源于百度等，只进行总结归纳。目录拆解方法什么是 MECE 法则? MECE分类的五个方法流程拆解法象限拆解法杜邦分析…

人工智能 2023年7月15日
0089
MFC中Edit控件使用方法

MFC中Edit用法:众所周知，现在微软出台的编译器已经很多了，如vc++6.0，vs2005,vs2008,vs2010等，虽然变化多样，但是万变不离其根本，最根本用法没有多大变…

人工智能 2023年6月28日
0057
使用ObjectDatasetTools制作位姿估计数据集

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月28日
0057
RNN详解

RNN（循环神经网络）详解为什么要引入RNN？我们可以把一个普通的神经网络当成一个能够你和任意函数的黑盒，只要训练的数据足够多，给定特定的x，我们就可得到希望的y。结构如下…

人工智能 2023年5月28日
0097
数据挖掘竞赛lightgbm通过求最大auc调参

一、使用步骤 0.首先展示最后的结果参数含义 learning_rate 一般设置在0.05-0.1之间 n_estimators 100-1000 boosting的迭代次数 …

人工智能 2023年7月17日
0071
基于 docker 搭建 grafana+prometheus 监控资源之mysql+docker+alertmanager配置（二）（超详细版）

先去看第一篇（基础部署篇），看完后，才能接上本篇。基于 docker 搭建 grafana+prometheus 监控资源之mysql+docker+alertmanager配…

人工智能 2023年7月30日
0063
多元线性回归详解

入门小菜鸟，希望像做笔记记录自己学的东西，也希望能帮助到同样入门的人，更希望大佬们帮忙纠错啦~侵权立删。目录一、问题描述二、问题分析三、解决问题 —— 找w和b 1、向量形…

人工智能 2023年6月13日
0075
第五章树 14 AcWing 1552. AVL树的根

第五章树 14 AcWing 1552. AVL树的根原题链接 AcWing 1552. AVL树的根算法标签平衡树思路 AVL树，即平衡二叉搜索树，当一棵二叉搜索树的左…

人工智能 2023年6月26日
0071
DICE model

Dice模型 1，introduction 2，motivation and problem overview_概述 3,DICE: The Proposed Approach *…

人工智能 2023年6月1日
0083
【Python数据分析】pandas

pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。 https://pandas.pydata.org/ pandas is a fast, pow…

人工智能 2023年7月6日
0055
Collaborativ

问题介绍本问题将探讨Collaborative Filtering（协同过滤）算法在推荐系统中的应用。协同过滤是一种常用的推荐算法，它基于用户或物品之间的相似性来进行推荐。本文将…

人工智能 2024年1月2日
0023
机器学习之Python开源教程——专栏介绍及理论知识概述

1️⃣机器学习==人工智能？ 2️⃣《机器学习之Python开源教程》专栏介绍点击此处下载 3️⃣开启机器学习你需要准备什么？【全网首发】言简意赅的Python全套语法，内附详…

人工智能 2023年7月18日
0051
这样不是更香嘛，Python 把 Excel 操作玩出新高度

大家好，又是新的一周。 Excel是我们职场打工人接触最多的办公室软件之一，当中会涉及到很多重复的操作，好在Python为我们提供了很多操作 Excel的模块，能够帮助我们极大地提…

人工智能 2023年7月8日
0072
尚硅谷Promise笔记

文章目录一、Promise介绍与基本使用 * 1-1.初体验之promise封装ajax请求 1-2.Promise对象状态属性PromiseState的值有三个 1-3.Pro…

人工智能 2023年7月29日
0058

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31