Python实现房产数据分析与可视化数据分析实战

2023年8月30日下午2:17 • Python • 阅读 64

Python库的选择

话说，工欲善其事，必先利其器，虽然我们已经选择Python来完成剩余的工作，但是我们需要考虑具体选择使用Pytho的哪些利器来帮助我们更快更好地完成剩余的工作。

我们可以看一下，在这个任务中，主要涉及到四类工作要完成：

csv文件的读取；
对读取的数据，按照我们要分析的指标进行数据处理和指标计算；
根据数据分析的结果，生成可视化的数据图表；
通过web页面展示数据分析结果报告；

我们下面就根据这四类工作，来看看我们分别选择Python的哪些库来帮助我们完成工作。

1.数据处理和分析库

对类似csv、excel等格式文件的读取和处理，其实就是对一维和二维数据的处理，对此类数据的处理，Python中常用的库是Pandas，其提供的数据结构中的Series对应一维数据，DataFrame对应二维数据，同时Pandas也提供了大量的高效内置函数和操作来实现对内存中一维和二维数据的处理。

而对于更高维度数据比如矩阵的计算，Python中则需要用Nunpy库来完成。numpy是以矩阵为基础的数学计算模块，提供高性能的矩阵运算，数组结构为ndarray，可以把它看作是多维数组（ndarray）的容器，可以对数组执行元素级计算以及直接对数组执行数学运算的函数。

Pandas是基于Numpy数组构建的，但二者最大的不同是pandas是专门为处理表格和混杂数据设计的，比较契合统计分析中的表结构，而numpy更适合处理统一的数值数组数据。

所以，第1步和第2步的工作，我们基本依靠Pandas库就能完成，不过，这次的数据分析报告中，我也用到了Numpy库的直方图计算的功能，后面会详细讲到。

2.数据可视化库

而第3步的工作，其实是一个数据可视化的任务，在Python中可以用于进行数据可视化的库，常用的主要有三个：

Matplotlib
Seanborn
Pyecharts

Matplotlib

Matplotlib可以说是Python数据可视化库的鼻祖了，他是Python编程语言及其数值计算包NumPy的可视化操作界面，其中pyplot是matplotlib的一个模块，提供了类似MATLAB的接口。其可以和Numpy、Pandas无缝结合，但一些图标的样式不够美观，而且原生不支持生成动态可交互的图表，虽然可以通过改变使用的后端来实现，但相对还是比较麻烦一些，而且如果想要在一个web页面中实现一个动态可交互的图表，目前没有什么特别好的办法，最近matplotlib在更面向web交互方面有了很多进展，比如新的HTML5/Canvas后端，可以从如下地址了解一下：

http://code.google.com/p/mplh5canvas/

但还没有完全完成。

Seanborn

Seaborn跟matplotlib最大的区别就是它的默认绘图风格和色彩搭配都具有现代美感，其实他是在matplotlib的基础上进行了更高级的API封装，让你能用更少的代码去调用matplotlib的方法，从而使得作图更加容易。但matplotlib存在的动态交互性的问题他同样存在。

Pyecharts

说到Pyecharts则不得不提到ECharts，这个可是在前端数据可视化领域非常知名的库了，毕竟他出自我的老东家百度的前端工程师之手，最开始在百度内部孵化，我在百度工作期间，还和后来参与到ECharts开发的核心工程师有过其他项目合作。后来2018年捐赠给Apache基金会，成为ASF孵化级项目，并于2021年正式毕业，成为Apache顶级项目。

而Pyecharts则是基于ECharts实现的python版本，支持大量丰富的可视化图表类型，而且相比前两个库最大的优势在于，能够非常方便地生成支持交互性（如鼠标点选、拖拽、缩放等）的图片，且可动态地展示在web页面上。

基于以上的对比分析，鉴于这次我希望给我朋友生成一个动态可交互的web数据分析报告页面，在这一点上，Pyecharts无疑更有优势，于是这次我们就用Pyecharts库来进行我们的数据可视化展现。

3.Web应用库

在这个领域Python的选择主要有两个：

Django
Flask

Django是用 Python 开发的一个免费开源的 Web 框架，提供了许多网站后台开发经常用到的模块，本身自带了相当多的功能，这些功能是由官方和社区共同维护的，因而是个大而全的较重的框架，所以耦合度相比flask会高一些，做二次修改难度更高。

相比之下，Flask是一个免费的开放源代码的轻量型的Web框架，Flask不包含例如上载处理，ORM（对象关系映射器），数据库抽象层，身份验证，表单验证等web应用常用功能模块（这些Django提供了），但是可以使用预先存在的外部库来集成这些功能，因此是一个更灵活、扩展性更好的Web框架。

而我们这次的场景，仅仅只需要提供一个静态的web页面用于展示数据可视化结果，并不涉及其他复杂的web应用功能，因此，Flask是我们的不二之选。

开始我们的数据可视化分析之旅

好了，选择好了我们的工具之后，我们就要正式开始我们的数据可视化分析之旅了。我们先来看一下我们要分析的这一份数据，如图：

我们爬取到的房产数据，主要是苏州二手房的房源信息，主要包括了待售房源的户型、面积、朝向、楼层、建筑年份、小区名称、小区所在的城区-镇-街道、房子被打的标签、总价、单价等信息。

数据读取到内存的过程使用Pandas来完成很简单，这里就不赘述了。接下来重点讲一下数据分析和可视化图表的生成。根据要分析的数据指标，这次我们主要用到了Pyecharts的5类图表组件，分别是Bar（柱状图）、Pie（饼图）、Histogram（直方图）、Scatter（散点图）、Map（地图）和WordCloud（词云图），接下来就分别介绍一下。

*Bar（柱状图）

因为我们这次要分析的是二手房的数据，关于房子，我们最关心的就是不同类型房子的价格，比如不同户型、不同面积、不同小区的房子总价和单价的情况，而柱状图特别适合按不同数据类型进行数值的呈现。

因此这次的数据分析报告中，在分析按房屋面积区间的房屋单价、按房子户型的房屋单价以及小区房价Top10这三个数据图表中，我们使用了柱状图来呈现数据分析结果

接下来我们就以小区房价Top10为例，来看一下如何生成柱状图。

其实主要过程包括两个步骤（PS：后续每个图表都按着两个步骤来介绍）：

数据计算处理
数据可视化处理

我们先来看第一步的数据计算处理。因为要找到这个城市小区房价的Top10，所以我们主要完成如下几个计算步骤：

根据原始数据表中的”小区名称”字段进行group by；
对每个分组，对”均价”字段求平均值；
对上述结果的”均价”字段按降序进行排序；
对排序结果取前10项结果；

完成上述四个计算步骤的代码如下所示：

&#xA0;&#xA0;&#xA0;&#xA0;def&#xA0;unit_price_analysis_by_estate(df,isembed):
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;#&#x83B7;&#x53D6;&#x8981;&#x5206;&#x6790;&#x7684;&#x6570;&#x636E;&#x5217;
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;analysis_df&#xA0;=&#xA0;df.loc[:,['&#x5C0F;&#x533A;&#x540D;&#x79F0;','&#x5747;&#x4EF7;']]
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;analysis_df.loc[:,'&#x5C0F;&#x533A;&#x540D;&#x79F0;']&#xA0;=&#xA0;analysis_df.loc[:,'&#x5C0F;&#x533A;&#x540D;&#x79F0;'].astype('str')
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;#&#x5BF9;&#x5C0F;&#x533A;&#x540D;&#x79F0;&#x5206;&#x7EC4;&#xFF0C;&#x7136;&#x540E;&#x6309;&#x7167;&#x5206;&#x7EC4;&#x8BA1;&#x7B97;&#x5355;&#x4EF7;&#x5747;&#x4EF7;
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;group&#xA0;=&#xA0;analysis_df.groupby('&#x5C0F;&#x533A;&#x540D;&#x79F0;',as_index=False)
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;group_df&#xA0;=&#xA0;group.mean()
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;group_df.loc[:,'&#x5747;&#x4EF7;']&#xA0;=&#xA0;group_df.loc[:,'&#x5747;&#x4EF7;'].astype('int')
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;#&#x6309;&#x7167;&#x5747;&#x4EF7;&#x5217;&#x964D;&#x5E8F;&#x6392;&#x5E8F;
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;group_df.sort_values('&#x5747;&#x4EF7;',ascending=False,&#xA0;inplace=True)
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;#&#x53D6;Top10
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;top10_df&#xA0;=&#xA0;group_df.head(10)
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;#&#x4E3A;&#x4E86;&#x6A2A;&#x5411;&#x67F1;&#x72B6;&#x56FE;&#x5C55;&#x793A;&#xFF0C;&#x518D;&#x4ECE;&#x4F4E;&#x5230;&#x9AD8;&#x6392;&#x5E8F;&#x4E00;&#x4E0B;
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;top10_df.sort_values('&#x5747;&#x4EF7;',ascending=True,inplace=True)
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;......

其实如果是生成常规的纵向柱状图的话，上面的代码里最后一步是不需要的。但因为要生成横向柱状图，需要对纵向柱状图进行一个reverse()操作，在reverse()操作后如果要保持从上至下降序的顺序，我们的对Top10的排序结果也需要倒置一下。

接下来就是柱状图的数据可视化图表生成部分了，这部分代码如下：

&#xA0;&#xA0;&#xA0;&#xA0;bar&#xA0;=&#xA0;(
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;Bar(init_opts=opts.InitOpts(width="1500px"))
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;.add_xaxis(top10_df['&#x5C0F;&#x533A;&#x540D;&#x79F0;'].tolist())
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;.add_yaxis("&#x623F;&#x4EF7;&#x5355;&#x4EF7;",top10_df['&#x5747;&#x4EF7;'].tolist(),itemstyle_opts=opts.ItemStyleOpts(color=JsCode(top10_color_function)))
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;.reversal_axis()
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;.set_series_opts(label_opts=opts.LabelOpts(position="right"))
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;.set_global_opts(title_opts=opts.TitleOpts(title="&#x82CF;&#x5DDE;&#x5404;&#x5C0F;&#x533A;&#x4E8C;&#x624B;&#x623F;&#x623F;&#x4EF7;TOP10"),
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;xaxis_opts=opts.AxisOpts(axislabel_opts={'interval':'0'}),
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;legend_opts=opts.LegendOpts(is_show=False))
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;)

关于代码里详细的参数设置我就不一一解释了，大家可以去Pyecharts的官网查看到每个图表非常详细的参数解释和demo代码。

在这里唯一额外提一下的，就是关于如何给柱状图不同的柱子设置不同的颜色，需要我们提供一个自定义的js函数来实现，Pyecharts提供了这样的机制，可以让我们嵌入这样的js函数来完成部分自定义的功能，比如我是这样来实现的：

&#xA0;&#xA0;&#xA0;&#xA0;top10_color_function&#xA0;=&#xA0;"""
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;function&#xA0;(params)&#xA0;{
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;if&#xA0;(params.value&#xA0;>&#xA0;58000&#xA0;&&&#xA0;params.value&#xA0;< 59000) {                     return 'red';                 } else if (params.value >&#xA0;59000&#xA0;&&&#xA0;params.value&#xA0;< 60000) {                     return 'blue';                 }else if (params.value >&#xA0;60000&#xA0;&&&#xA0;params.value&#xA0;< 61000){                     return 'green'                 }else if (params.value >&#xA0;61000&#xA0;&&&#xA0;params.value&#xA0;< 61800){                     return 'purple'                 }else if (params.value >&#xA0;61800&#xA0;&&&#xA0;params.value&#xA0;< 70000){                     return 'brown'                 }else if (params.value >&#xA0;70000&#xA0;&&&#xA0;params.value&#xA0;< 73000){                     return 'gray'                 }else if (params.value >&#xA0;73000&#xA0;&&&#xA0;params.value&#xA0;< 79000){                     return 'orange'                 }else if (params.value >&#xA0;79000&#xA0;&&&#xA0;params.value&#xA0;< 85000){                     return 'pink'                 }else if (params.value >&#xA0;85000&#xA0;&&&#xA0;params.value&#xA0;< 100000){                     return 'navy'                 }                 return 'gold';             }             """ < code></ 100000){></ 85000){></ 79000){></ 73000){></ 70000){></ 61800){></ 61000){></ 60000) {></ 59000) {>

在这个函数中，我们需要根据每个柱子实际数值的大小，来划分区间，以决定每个柱子的颜色。

完成上述两个步骤后，我们的横向柱状图就生成了如图所示：

从上图可以看到，当我们把鼠标移到某个柱子上的时候，会出现相应的浮层，展示当前柱子代表的category的数值。也即，就如我们之前提到的，Pyecharts的图表是动态可交互的图表。

另外，从图中我们可以看到，苏州玲珑湾花园小区是苏州二手房房价最贵的小区，尤其是七区和八区，至于为什么，大家可以自行上百度搜索看看。

*Pie（饼图）

饼图一般用来分析不同类型的数量的占比。在这次的数据报告中，因为是对二手房的分析，所以我们想看一下待售卖的二手房中，不同建筑年份的房子数量占比情况，据此可以看看哪些年份的老房子是卖的比较多的。

数据计算处理步骤：

因为原数据表中没有待售房屋数这一列，因此我们先增加一列，用于后续计算；
对建筑年份列进行group by；
对每个分组进行统计计数，结果写入新增加的待售房屋数列；

代码实现如下：

&#xA0;&#xA0;&#xA0;&#xA0;def&#xA0;add_sale_estate_col(row):
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;return&#xA0;0

&#xA0;&#xA0;&#xA0;&#xA0;def&#xA0;sale_estate_analysis_by_year(df,isembed):
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;#&#x589E;&#x52A0;&#x4E00;&#x5217;&#x5F85;&#x552E;&#x623F;&#x5C4B;&#x6570;&#xFF0C;&#x521D;&#x59CB;&#x503C;&#x5747;&#x4E3A;0
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;df.loc[:,'&#x5F85;&#x552E;&#x623F;&#x5C4B;&#x6570;']&#xA0;=&#xA0;df.apply(add_sale_estate_col,axis=1)
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;#&#x83B7;&#x53D6;&#x8981;&#x7528;&#x4F5C;&#x6570;&#x636E;&#x5206;&#x6790;&#x7684;&#x4E24;&#x5217;&#xFF1A;&#x5EFA;&#x7B51;&#x5E74;&#x4EFD;&#x548C;&#x5F85;&#x552E;&#x623F;&#x5C4B;&#x6570;
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;analysis_df&#xA0;=&#xA0;df.loc[:,['&#x5EFA;&#x7B51;&#x5E74;&#x4EFD;','&#x5F85;&#x552E;&#x623F;&#x5C4B;&#x6570;']]
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;#&#x56E0;&#x4E3A;&#x5EFA;&#x7B51;&#x5E74;&#x4EFD;&#x5217;&#x6709;&#x7A7A;&#x503C;&#xFF0C;&#x5148;&#x9884;&#x5904;&#x7406;&#x4E00;&#x4E0B;
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;analysis_df.dropna(inplace=True)
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;#&#x6309;&#x7167;&#x5EFA;&#x7B51;&#x5E74;&#x4EFD;&#x8FDB;&#x884C;&#x5206;&#x7EC4;
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;group&#xA0;=&#xA0;analysis_df.groupby('&#x5EFA;&#x7B51;&#x5E74;&#x4EFD;',as_index=False)
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;#&#x5BF9;&#x6BCF;&#x4E2A;&#x5206;&#x7EC4;&#x8FDB;&#x884C;&#x7EDF;&#x8BA1;&#x8BA1;&#x6570;
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;group_df&#xA0;=&#xA0;group.count()
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;group_df.loc[:,'&#x5F85;&#x552E;&#x623F;&#x5C4B;&#x6570;']&#xA0;=&#xA0;group_df.loc[:,'&#x5F85;&#x552E;&#x623F;&#x5C4B;&#x6570;'].astype('int')
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;......

接下来就是饼图的数据可视化图表生成部分了，这部分代码如下：

&#xA0;&#xA0;&#xA0;&#xA0;pie&#xA0;=&#xA0;Pie(init_opts=opts.InitOpts(width='800px',&#xA0;height='600px',&#xA0;bg_color='white'))
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;pie.add("pie",[list(z)&#xA0;for&#xA0;z&#xA0;in&#xA0;zip(group_df['&#x5EFA;&#x7B51;&#x5E74;&#x4EFD;'].tolist(),group_df['&#x5F85;&#x552E;&#x623F;&#x5C4B;&#x6570;'].tolist())]
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;,radius=['40%',&#xA0;'60%']
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;,center=['50%',&#xA0;'50%']
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;,label_opts=opts.LabelOpts(
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;position="outside",
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;formatter="{b}:{c}:{d}%",)
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;).set_global_opts(
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;title_opts=opts.TitleOpts(title='&#x82CF;&#x5DDE;&#x4E8C;&#x624B;&#x623F;&#x4E0D;&#x540C;&#x5EFA;&#x7B51;&#x5E74;&#x4EFD;&#x7684;&#x5F85;&#x552E;&#x6570;&#x91CF;',&#xA0;pos_left='300',&#xA0;pos_top='20',
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;title_textstyle_opts=opts.TextStyleOpts(color='black',&#xA0;font_size=16)),
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;legend_opts=opts.LegendOpts(is_show=False))

在这部分代码中需要额外提一下的是如下这部分代码：

&#xA0;&#xA0;&#xA0;&#xA0;[list(z)&#xA0;for&#xA0;z&#xA0;in&#xA0;zip(group_df['&#x5EFA;&#x7B51;&#x5E74;&#x4EFD;'].tolist()

因为Pie需要的数据格式，是元组数组的形式，因此在上面的代码中，我们使用zip()这个函数，来将两个Series对应的元素拼接成元组。

我们最后生成的饼图如下所示：

undefined

从上图我们可以看到，苏州待售的数量较多的二手房，大多是2015-2019年期间建成的，也即距今的房龄不超过10年。2021年及后的房子明显少了很多，应该是跟满二的政策有关系。

*Histogram（直方图）

直方图又称质量分布图，是一种统计报告图，由一系列高度不等的纵向条纹或线段表示数据分布的情况。一般用横轴表示数据类型，纵轴表示分布情况。为了构建直方图，第一步是将值的范围分段，即将整个值的范围分成一系列间隔，然后计算每个间隔中有多少值。

关于我们要分析的二手房数据，我们最关心的还是房价的分布情况，比如不同单价和总价的房子在不同价格区间的分布数量情况。

因此，我们用直方图来分析苏州二手房不同单价和总价的房子数量的分布。

数据计算处理步骤：

将要分析的数据字段进行分段；
对每个分段，计算该分段里的分布数量；

上面两个计算步骤，在Python的Numpy库里，提供了一个叫histogram()的函数，能够直接帮我们来实现，见下面代码所示：

&#xA0;&#xA0;&#xA0;&#xA0;import&#xA0;numpy&#xA0;as&#xA0;np

&#xA0;&#xA0;&#xA0;&#xA0;def&#xA0;unit_price_analysis_by_histogram(df,isembed):
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;hist,bin_edges&#xA0;=&#xA0;np.histogram(df['&#x5747;&#x4EF7;'],bins=100)
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;bar&#xA0;=&#xA0;(
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;Bar()
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;.add_xaxis([str(x)&#xA0;for&#xA0;x&#xA0;in&#xA0;bin_edges[:-1]])
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;.add_yaxis('&#x4EF7;&#x683C;&#x5206;&#x5E03;',[float(x)&#xA0;for&#xA0;x&#xA0;in&#xA0;hist],category_gap=0)
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;.set_global_opts(
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;title_opts=opts.TitleOpts(title='&#x82CF;&#x5DDE;&#x4E8C;&#x624B;&#x623F;&#x623F;&#x4EF7;-&#x5355;&#x4EF7;&#x5206;&#x5E03;-&#x76F4;&#x65B9;&#x56FE;',pos_left='center'),
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;legend_opts=opts.LegendOpts(is_show=False)
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;)
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;)
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;......

从上面代码里我们可以看到，我们把均价字段分成了100个间隔区间，bin_edges就是划分出来的100个区间，然后我们计算每个区间里的分布数量，hist就是分布数量的计算结果

这样我们画出来的直方图如下所示（以二手房单价直方图为例）：

从上图我们可以看到，苏州二手房的单价，大部分集中在17000-21000这个价格区间，单价低于10000或高于30000的房子相对就比较少了。

*Scatter（散点图）

散点图一般用在回归分析中，是一种数据点在直角坐标系平面上的分布图，用两组数据构成多个坐标点，考察坐标点的分布，判断两变量之间是否存在某种关联的分布模式

对于我们要分析的苏州二手房数据，我们可能会关心，哪些因素是跟二手房的房价有关系的，以及是什么关系，比如如果我们想知道房子面积跟房子单价之间是什么关系？那我们可以画一个面积-单价的散点图来看看。

因为我们的原始数据中已经有面积和均价两个字段，因此不需要我们做更多的数据计算处理，我们直接来看这部分的实现代码：

&#xA0;&#xA0;&#xA0;&#xA0;df.sort_values('&#x9762;&#x79EF;',ascending=True,&#xA0;inplace=True)
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;square&#xA0;=&#xA0;df['&#x9762;&#x79EF;'].to_list()
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;unit_price&#xA0;=&#xA0;df['&#x5747;&#x4EF7;'].to_list()
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;scatter&#xA0;=&#xA0;(
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;Scatter()
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;.add_xaxis(xaxis_data=square)
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;.add_yaxis(
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;series_name='',
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;y_axis=unit_price,
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;symbol_size=4,
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;label_opts=opts.LabelOpts(is_show=False)
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;)
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;.set_global_opts(
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;xaxis_opts=opts.AxisOpts(type_='value'),
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;yaxis_opts=opts.AxisOpts(type_='value'),
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;title_opts=opts.TitleOpts(title='&#x82CF;&#x5DDE;&#x4E8C;&#x624B;&#x623F;&#x9762;&#x79EF;-&#x5355;&#x4EF7;&#x5173;&#x7CFB;&#x56FE;',pos_left='center')
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;)
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;)

我们画出来的散点图如下所示：

undefined

从上图我们可以看出，苏州二手房的单价跟房子面积并不是呈线性相关的关系，也即不是面积越大，单价越高，房子单价的高点出现在100-200平方这个区间，然后随着面积逐渐增大单价呈逐渐下降趋势，因此是一个曲线相关的关系，而且这个曲线类似一个正态分布曲线。

*Map（地图）

在我们爬取到的苏州二手房数据中，有小区所在的区-镇-街道的地理位置信息，因此，我们可以结合地图，直观的来看一下苏州不同区的二手房房价信息。

在做地图展示之前，我们先要做一下如下数据计算处理：

获取数据源中的区和均价两个字段；
对区字段进行group by；
对分组后的数据求平均值；
为适配地图组件的行政区划名称，对区字段进行一下转换处理；
将数据转换成地图组件需要的二维数组的格式；

&#xA0;&#xA0;&#xA0;&#xA0;def&#xA0;transform_name(row):
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;district_name&#xA0;=&#xA0;row['&#x533A;'].strip()
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;if&#xA0;district_name&#xA0;==&#xA0;'&#x5434;&#x4E2D;'&#xA0;or&#xA0;district_name&#xA0;==&#xA0;'&#x76F8;&#x57CE;'&#xA0;or&#xA0;district_name&#xA0;==&#xA0;'&#x5434;&#x6C5F;'&#xA0;or&#xA0;district_name&#xA0;==&#xA0;'&#x864E;&#x4E18;'&#xA0;or&#xA0;district_name&#xA0;==&#xA0;'&#x59D1;&#x82CF;'&#xA0;or&#xA0;district_name&#xA0;==&#xA0;'&#x5DE5;&#x4E1A;&#x56ED;':
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;district_name&#xA0;=&#xA0;district_name&#xA0;+&#xA0;'&#x533A;'
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;if&#xA0;district_name&#xA0;==&#xA0;'&#x5E38;&#x719F;'&#xA0;or&#xA0;district_name&#xA0;==&#xA0;'&#x5F20;&#x5BB6;&#x6E2F;'&#xA0;or&#xA0;district_name&#xA0;==&#xA0;'&#x592A;&#x4ED3;':
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;district_name&#xA0;=&#xA0;district_name&#xA0;+&#xA0;'&#x5E02;'
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;return&#xA0;district_name

&#xA0;&#xA0;&#xA0;&#xA0;data&#xA0;=&#xA0;[]
&#xA0;&#xA0;&#xA0;&#xA0;#&#x83B7;&#x53D6;&#x8981;&#x5206;&#x6790;&#x7684;&#x6570;&#x636E;&#x5217;
&#xA0;&#xA0;&#xA0;&#xA0;analysis_df&#xA0;=&#xA0;df.loc[:,['&#x533A;','&#x5747;&#x4EF7;']]
&#xA0;&#xA0;&#xA0;&#xA0;#&#x6309;&#x533A;&#x5217;&#x5206;&#x7EC4;
&#xA0;&#xA0;&#xA0;&#xA0;group_df&#xA0;=&#xA0;analysis_df.groupby('&#x533A;',as_index=False)
&#xA0;&#xA0;&#xA0;&#xA0;#&#x6839;&#x636E;&#x5206;&#x7EC4;&#x5BF9;&#x5747;&#x4EF7;&#x5217;&#x6C42;&#x5E73;&#x5747;&#x503C;
&#xA0;&#xA0;&#xA0;&#xA0;group_df&#xA0;=&#xA0;group_df.mean('&#x5747;&#x4EF7;')
&#xA0;&#xA0;&#xA0;&#xA0;#print(group_df)
&#xA0;&#xA0;&#xA0;&#xA0;#&#x5C06;&#x533A;&#x7684;&#x540D;&#x5B57;&#x505A;&#x4E00;&#x4E0B;&#x8F6C;&#x6362;&#xFF0C;&#x4E3A;&#x4E0B;&#x9762;&#x7684;&#x5730;&#x56FE;&#x5339;&#x914D;&#x505A;&#x51C6;&#x5907;
&#xA0;&#xA0;&#xA0;&#xA0;group_df['&#x533A;']&#xA0;=&#xA0;group_df.apply(transform_name,axis=1)
&#xA0;&#xA0;&#xA0;&#xA0;group_df.loc[:,'&#x5747;&#x4EF7;']&#xA0;=&#xA0;group_df.loc[:,'&#x5747;&#x4EF7;'].astype('int')
&#xA0;&#xA0;&#xA0;&#xA0;#&#x5C06;&#x6570;&#x636E;&#x8F6C;&#x6362;&#x6210;map&#x9700;&#x8981;&#x7684;&#x6570;&#x636E;&#x683C;&#x5F0F;
&#xA0;&#xA0;&#xA0;&#xA0;for&#xA0;index,row&#xA0;in&#xA0;group_df.iterrows():
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;district_array&#xA0;=&#xA0;[row['&#x533A;'],row['&#x5747;&#x4EF7;']]
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;data.append(district_array)

数据处理完成后，我们就可以用地图组件进行可视化渲染了：

&#xA0;&#xA0;&#xA0;&#xA0;map&#xA0;=&#xA0;(
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;Map()
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;.add('&#x82CF;&#x5DDE;&#x5404;&#x533A;&#x57DF;&#x4E8C;&#x624B;&#x623F;&#x623F;&#x4EF7;',data,'&#x82CF;&#x5DDE;')
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;.set_global_opts(
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;title_opts=opts.TitleOpts(title='&#x82CF;&#x5DDE;&#x5404;&#x533A;&#x57DF;&#x4E8C;&#x624B;&#x623F;&#x623F;&#x4EF7;&#x5730;&#x56FE;',pos_left='center'),
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;visualmap_opts=opts.VisualMapOpts(max_=26000),
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;legend_opts=opts.LegendOpts(is_show=False)
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;)
&#xA0;&#xA0;&#xA0;&#xA0;)

最终我们可以看到苏州二手房根据地图展示的各区房价

从地图上可以很直观的看到，虎丘区的平均房价是最高的。这里需要说明一下的是，因为Pyecharts的map组件的地理位置数据相对比较老了，所以没有体现出苏州最新的行政区域划分，比如我们原始数据中的工业园区、高新区等数据没法体现出来，时间原因，我没有尝试其他的map组件，大家有兴趣可以自行试试。

*WordCloud（词云图）

在我们爬取到的苏州二手房数据中，有两列纯文本类型的字段，一个是待售房屋，一个是标签，这两列的文本描述了待售房源的一些特征信息，我们可以提前其中一些高频特征，来看看购房者最关注的房屋关键词有哪些

在这个分析场景中，我们会用到一个新的第三方库jieba，这个库可以对我们要分析的文本进行分词，然后自动分析每个分词出现的频率并给出相应的权重，权重越高代表词频越高。

我们首先要进行一步数据处理，即把待售房屋字段和标签字段的文本合并到一起，然后把合并之后的文本交给jieba进行处理，最后把jieba分词计算处理的结果交给WordCloud图表组件进行渲染，整个代码实现如下所示：

&#xA0;&#xA0;&#xA0;&#xA0;txt&#xA0;=&#xA0;''
&#xA0;&#xA0;&#xA0;&#xA0;for&#xA0;index,row&#xA0;in&#xA0;df.iterrows():
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;txt&#xA0;=&#xA0;txt+&#xA0;str(row['&#x5F85;&#x552E;&#x623F;&#x5C4B;'])&#xA0;+&#xA0;';'+&#xA0;str(row['&#x6807;&#x7B7E;'])&#xA0;+&#xA0;'\n'
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;
&#xA0;&#xA0;&#xA0;&#xA0;word_weights&#xA0;=&#xA0;jieba.analyse.extract_tags(txt,topK=100,withWeight=True)
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;
&#xA0;&#xA0;&#xA0;&#xA0;word_cloud=(
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;WordCloud()
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;.add(series_name='&#x9AD8;&#x9891;&#x8BCD;&#x8BED;',data_pair=word_weights,word_size_range=[10,100])
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;.set_global_opts(
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;title_opts=opts.TitleOpts(
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;title='&#x82CF;&#x5DDE;&#x4E8C;&#x624B;&#x623F;&#x9500;&#x552E;&#x70ED;&#x5EA6;&#x8BCD;',
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;title_textstyle_opts=opts.TextStyleOpts(font_size=23),
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;pos_left='center'
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;)
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;)
&#xA0;&#xA0;&#xA0;&#xA0;)

其中extract_tags()函数的topk参数表示要提取权重排序前多少名的结果

最终我们对苏州二手房数据生成的词云图如下所示：

undefined

从上图我们可以看到，交通、朝向是购房者第一位关注的房子信息，其次是是否有车位、是否满五（二）唯一、是否精装修等。

生成动态可交互的Web数据分析报告

好了，通过上面的步骤，我们已经把要分析的数据可视化图表都生成了，但我朋友总不能把这些图表一个个的发给她老板看，除非她真的想看看新的机会了。我们需要把这些图表放到一个web页面上，生成一份完整的数据分析报告后，再递呈老板审阅。所以，最后一步，我们来完成一个web页面来完整地呈现这份数据分析报告。

这个步骤的实现主要包括如下三个部分组成：

用flask库实现的app.py脚本，这个脚本主要干如下几件事：
启动一个web服务；
读取我们要分析的原始数据；
实现一个函数负责将读取的数据传给不同的数据图表生成函数，拿到生成的数据图表对象，然后调用模版进行渲染；
绑定一个url路由关系，映射到步骤三的函数；
用来渲染生成最终数据分析报告的HTML文件，这个文件主要干如下几件事：
对每个数据图表定义一个div；
使用ECharts组件对div进行初始化；
通过变量拿到flask返回的数据图表数据，对ECharts组件进行设置；
HTML渲染和计算所依赖的静态资源文件，主要有如下三个：
echarts-wordcloud.min.js，主要用于词云图生成;
jiang1_su1_su1_zhou1.js，主要用于苏州地图生成；
echarts.min.js，是所有数据图表依赖的基础js

flask的app.py脚本的核心代码如下：

from&#xA0;flask&#xA0;import&#xA0;Flask,render_template
import&#xA0;drawChart&#xA0;as&#xA0;dbc
import&#xA0;pandas&#xA0;as&#xA0;pd

app&#xA0;=&#xA0;Flask(__name__)

#&#x8BFB;&#x53D6;&#x8981;&#x5206;&#x6790;&#x7684;&#x6570;&#x636E;
fpath&#xA0;=&#xA0;'path/filename.xlsx'
df&#xA0;=&#xA0;pd.read_excel(fpath,sheet_name="Sheet1",header=[0],engine='openpyxl')

#&#x7ED1;&#x5B9A;url&#x6620;&#x5C04;&#x5173;&#x7CFB;
@app.route("/show_all_analysis_chart")
def&#xA0;show_all_analysis_chart():
&#xA0;&#xA0;&#xA0;&#xA0;
&#xA0;&#xA0;&#xA0;&#xA0;#&#x83B7;&#x53D6;&#x6309;&#x9762;&#x79EF;&#x533A;&#x95F4;&#x7684;&#x5355;&#x4EF7;&#x5206;&#x6790;&#x6570;&#x636E;
&#xA0;&#xA0;&#xA0;&#xA0;unit_price_analysis_by_square&#xA0;=&#xA0;dbc.unit_price_analysis_by_square(df,False)
&#xA0;&#xA0;&#xA0;&#xA0;#&#x83B7;&#x53D6;&#x6309;&#x5BA4;&#x533A;&#x5206;&#x7684;&#x5355;&#x4EF7;&#x5206;&#x6790;&#x6570;&#x636E;
&#xA0;&#xA0;&#xA0;&#xA0;unit_price_analysis_by_layout&#xA0;=&#xA0;dbc.unit_price_analysis_by_layout(df,False)
&#xA0;&#xA0;&#xA0;&#xA0;#&#x83B7;&#x53D6;&#x82CF;&#x5DDE;&#x5404;&#x5C0F;&#x533A;&#x4E8C;&#x624B;&#x623F;&#x623F;&#x4EF7;TOP10
&#xA0;&#xA0;&#xA0;&#xA0;unit_price_analysis_by_estate&#xA0;=&#xA0;dbc.unit_price_analysis_by_estate(df,False)
&#xA0;&#xA0;&#xA0;&#xA0;#&#x83B7;&#x53D6;&#x4E0D;&#x540C;&#x5EFA;&#x7B51;&#x5E74;&#x4EFD;&#x7684;&#x5F85;&#x552E;&#x623F;&#x5C4B;&#x6570;
&#xA0;&#xA0;&#xA0;&#xA0;sale_estate_analysis_by_year&#xA0;=&#xA0;dbc.sale_estate_analysis_by_year(df,False)
&#xA0;&#xA0;&#xA0;&#xA0;#&#x82CF;&#x5DDE;&#x4E8C;&#x624B;&#x623F;&#x623F;&#x4EF7;-&#x5355;&#x4EF7;&#x5206;&#x5E03;-&#x76F4;&#x65B9;&#x56FE;
&#xA0;&#xA0;&#xA0;&#xA0;unit_price_analysis_by_histogram&#xA0;=&#xA0;dbc.unit_price_analysis_by_histogram(df,False)
&#xA0;&#xA0;&#xA0;&#xA0;#&#x82CF;&#x5DDE;&#x4E8C;&#x624B;&#x623F;&#x623F;&#x4EF7;-&#x603B;&#x4EF7;&#x5206;&#x5E03;-&#x76F4;&#x65B9;&#x56FE;
&#xA0;&#xA0;&#xA0;&#xA0;total_price_analysis_by_histogram&#xA0;=&#xA0;dbc.total_price_analysis_by_histogram(df,False)
&#xA0;&#xA0;&#xA0;&#xA0;#&#x82CF;&#x5DDE;&#x4E8C;&#x624B;&#x623F;&#x9762;&#x79EF;-&#x5355;&#x4EF7;&#x5173;&#x7CFB;&#x56FE;
&#xA0;&#xA0;&#xA0;&#xA0;unit_price_analysis_by_scatter&#xA0;=&#xA0;dbc.unit_price_analysis_by_scatter(df,False)
&#xA0;&#xA0;&#xA0;&#xA0;#&#x82CF;&#x5DDE;&#x4E8C;&#x624B;&#x623F;&#x9500;&#x552E;&#x70ED;&#x5EA6;&#x8BCD;
&#xA0;&#xA0;&#xA0;&#xA0;hot_word_analysis_by_wordcloud&#xA0;=&#xA0;dbc.hot_word_analysis_by_wordcloud(df,False)
&#xA0;&#xA0;&#xA0;&#xA0;#&#x82CF;&#x5DDE;&#x5404;&#x533A;&#x57DF;&#x4E8C;&#x624B;&#x623F;&#x623F;&#x4EF7;
&#xA0;&#xA0;&#xA0;&#xA0;unit_price_analysis_by_map&#xA0;=&#xA0;dbc.unit_price_analysis_by_map(df,False)
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;
&#xA0;&#xA0;&#xA0;&#xA0;return&#xA0;render_template("show_analysis_chart.html",
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;unit_price_analysis_by_square_option&#xA0;=&#xA0;unit_price_analysis_by_square.dump_options(),
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;unit_price_analysis_by_layout_option&#xA0;=&#xA0;unit_price_analysis_by_layout.dump_options(),
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;unit_price_analysis_by_estate_option&#xA0;=&#xA0;unit_price_analysis_by_estate.dump_options(),
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;sale_estate_analysis_by_year_option&#xA0;=&#xA0;sale_estate_analysis_by_year.dump_options(),
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;unit_price_analysis_by_histogram_option&#xA0;=&#xA0;unit_price_analysis_by_histogram.dump_options(),
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;total_price_analysis_by_histogram_option&#xA0;=&#xA0;total_price_analysis_by_histogram.dump_options(),
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;unit_price_analysis_by_scatter_option&#xA0;=&#xA0;unit_price_analysis_by_scatter.dump_options(),
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;hot_word_analysis_by_wordcloud_option&#xA0;=&#xA0;hot_word_analysis_by_wordcloud.dump_options(),
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;unit_price_analysis_by_map_option&#xA0;=&#xA0;unit_price_analysis_by_map.dump_options()
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;)

#&#x542F;&#x52A8;web&#x5E94;&#x7528;
if&#xA0;__name__&#xA0;==&#xA0;"__main__":
&#xA0;&#xA0;&#xA0;&#xA0;app.run()

Html的核心代码如下：

<head>
&#xA0;&#xA0;&#xA0;&#xA0;<meta charset="utf-8">
&#xA0;&#xA0;&#xA0;&#xA0;<title>&#x82CF;&#x5DDE;&#x4E8C;&#x624B;&#x623F;&#x6570;&#x636E;&#x5206;&#x6790;&#x62A5;&#x544A;</title>
&#xA0;&#xA0;&#xA0;&#xA0;<script type="text javascript" src="/static/echarts.min.js">
&#xA0;&#xA0;&#xA0;&#xA0;<script type="text javascript" src="/static/echarts-wordcloud.min.js">
&#xA0;&#xA0;&#xA0;&#xA0;<script type="text javascript" src="/static/jiang1_su1_su1_zhou1.js">
</script type="text></script type="text></script type="text></meta charset="utf-8"></head>
<body>
&#xA0;&#xA0;&#xA0;&#xA0;<h1 align="center">&#x82CF;&#x5DDE;&#x4E8C;&#x624B;&#x623F;&#x6570;&#x636E;&#x5206;&#x6790;&#x62A5;&#x544A;
&#xA0;&#xA0;&#xA0;&#xA0;<h2>1.&#x82CF;&#x5DDE;&#x4E8C;&#x624B;&#x623F;&#x6309;&#x9762;&#x79EF;&#x533A;&#x95F4;&#x7684;&#x623F;&#x5C4B;&#x5355;&#x4EF7;</h2>
&#xA0;&#xA0;&#xA0;&#xA0;<div id="unit_price_analysis_by_square" style="width:900px; height:500px;">&#xA0;
&#xA0;&#xA0;&#xA0;&#xA0;<script type="text javascript">
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;var&#xA0;unit_price_analysis_by_square_chart&#xA0;=&#xA0;echarts.init(document.getElementById('unit_price_analysis_by_square'));
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;var&#xA0;option&#xA0;=&#xA0;{{&#xA0;unit_price_analysis_by_square_option&#xA0;|&#xA0;safe&#xA0;}};
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;unit_price_analysis_by_square_chart.setOption(option);
&#xA0;&#xA0;&#xA0;&#xA0;
&#xA0;&#xA0;&#xA0;&#xA0;......

</script type="text></div id="unit_price_analysis_by_square" style="width:900px; height:500px;"></h1 align="center"></body>

制作不易，点个关注再走吧~

我是毕加索期待你的关注

Original: https://blog.csdn.net/weixin_69999177/article/details/128262171
Author: 毕加锁
Title: Python实现房产数据分析与可视化数据分析实战

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/763781/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

零基础开启元宇宙｜抖音快手虚拟形象直播【源码】

在上一篇文章零基础开启元宇宙——创建虚拟形象中，我们实现了创建虚拟形象，接下来我们可以利用虚拟形象”为所欲为”。今天我们利用虚拟形象在短视频平台如快手、抖音…

Python 2023年10月29日
0035
【yolov5】pytorch模型导出为onnx模型

博主想拿官网的yolov5训练好pt模型，然后转换成rknn模型，然后在瑞芯微开发板上调用模型检测。但是官网的版本对npu不友好，所以采用改进结构的版本：将Focus层改成Con…

Python 2023年8月2日
0070
python怎么加载图片png图片位置_Python添加png图片出现的问题和解决

Python添加png图片出现的问题加载一个png图片 import pygame,sys pygame.init() screen=pygame.display.set_mod…

Python 2023年9月21日
0044
Django和Ueditor自定义存储上传文件的文件名

在不使用分布式文件存储系统等第三方文件存储时，django使用默认的后台ImageField和FileField上传文件名默认使用原文件名，当出现同名时会在后面追加下随机数字字母，…

Python 2023年6月3日
0044
Python – matplotlib – 决策曲线分析（Decision Curve Analysis）

文章目录一、决策曲线分析概念 * 1. 阈值概率 2. 净获益二、matplotlib实现 * 1. 计算模型带来的净获益 2. 计算treat all策略带来的净获益 3. …

Python 2023年8月30日
0078
np.array与np.float32

import numpy as np matsrc = np.float32([[220, 40], [190, 164], [446, 37], [460, 160]]) mat…

Python 2023年8月26日
0056
FPGA：逻辑函数的卡诺图化简法

文章目录 * – 最小项与最小项表达式 – + 最小项的定义 + 最小项的性质 + 逻辑函数的最小项表达式 + 卡诺图化简法 – 用卡诺图表示逻…

Python 2023年11月7日
0039
通过Shell脚本自动安装Hive&JDBC测试&提供CDH5网盘地址

〇、参考地址 1、Linux下编写脚本自动安装hive https://blog.csdn.net/weixin_44911081/article/details/12122702…

Python 2023年10月13日
0045
python学生成绩管理系统【完整版】

✅作者简介：大家好我是hacker707,大家可以叫我hacker，新星计划第三季python赛道Top1🏆📃个人主页：hacker707的csdn博客🔥系列专栏：python💬推…

Python 2023年7月31日
0095
flask重录制版本

flask部署 ssh连接服务器 putty连接服务器（大家应该都知道了） ssh保持长时间连接不断编辑/etc/ssh/sshd_config，添加配置项： 2. Client…

Python 2023年8月11日
0068
技术干货 | pytest 自动化测试实战展示

pytest是目前企业里面使用最多、最流行的Python的单元测试框架，那我们今天就使用这个框架来完成一个网易163邮箱登录的自动化实战案例。下面我们先把我们案例需要的工具进行…

Python 2023年9月9日
0049
如何运行python程序

python程序的运行方式有两种： 1. 交互式在命令行窗口输入命令 python 进入python解释器交互式客户端，在窗口输入任意python代码，客户端窗口都会立即返回运行…

Python 2023年5月23日
0079
Python Pandas中dataframe常用操作（创建、读取写入、切片等）

Series & Dataframe 一个描述得比较好的示意图：在一些涉及到批量处理二维列表中数据的场景中，使用dataframe会简便很多。而只有一维数据的datafra…

Python 2023年8月15日
0057
1.创建一个简单的服务

项目名称为 P1-P17 first_hello_world 目录 1 基本介绍 2 创建环境 3 helloworld 1 基本介绍 python的web开发最主流的是两个框架，…

Python 2023年8月15日
0048
MySQL 全局锁、表级锁、行级锁，你搞清楚了吗？

大家好，我是小林。增加记录锁、间隙锁、net-key 锁增加插入意向锁增加自增锁为 innodb_autoinc_lock_mode = 2 模式时，为什么主从环境会有不安全…

Python 2023年10月18日
0035
使用kubectl管理Kubernetes(k8s)集群：常用命令，查看负载，命名空间namespace管理

服务器版本 docker软件版本 CPU架构 CentOS Linux release 7.4.1708 (Core) Docker version 20.10.12 x86_64…

Python 2023年10月22日
0030

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python实现房产数据分析与可视化 数据分析 实战

Python库的选择

1.数据处理和分析库

2.数据可视化库

3.Web应用库

开始我们的数据可视化分析之旅

生成动态可交互的Web数据分析报告

大家都在看

Python实现房产数据分析与可视化数据分析实战