【Python】国内生产总值分析预测

2023年6月16日上午9:19 • 人工智能 • 阅读 139

✨博文作者 wangzirui32
💖 喜欢的可以点赞收藏关注哦~~
👏 我的第162篇原创作品
👉本文首发于CSDN，未经许可禁止转载
hello，大家好，我是wangzirui32，今天我们来学习如何对国内生产总值进行分析预测，开始学习吧！

数据来源

数据涵盖范围为2010-2021的国内生产总值csv文件，来自国家统计局官方数据：

依次选择时间（2010-2021），下载CSV文件，分别命名为 2010.csv， 2011.csv（年份+.csv），结果如下：

; 2. 清洗数据文件

2010年的数据文件内容如下：

可以看到，真正的数据是在文件的第3行开始到倒数第6行，我们需要对其数据进行提取，并且进行gbk编码转换（源文件是gbk编码，需求是UTF8编码），将数据文件放入 datafiles文件夹中，再在这个目录的上层目录创建Python文件 collate_data.py，写入代码：

import os
import codecs

for i in os.listdir("datafiles"):
    path = "datafiles/{}".format(i)

    try:

        with codecs.open(path, "rb", "gb2312") as f:
            content = f.read()
        with codecs.open(path, "wb", "utf-8") as f:
            f.write(content)
    except: pass

    with codecs.open(path, "rb", "utf-8") as f:
        new_content = f.readlines()[2:-5]
    with codecs.open(path, "wb", "utf-8") as f:
        f.writelines(new_content)

执行这段代码，数据就清洗完毕了。

分析

这里借助 pandas读取数据， matplotlib绘制统计图进行分析，安装库命令：

pip install pandas matplotlib

3.1 折线统计图

代码如下：

import pandas
import matplotlib
import matplotlib.pyplot as plt
import os

gdp_Q1 = []
gdp_Q2 = []
gdp_Q3 = []
gdp_Q4 = []
gdp_all_year = []
years = []

matplotlib.rcParams['font.family'] = 'SimHei'
plt.rcParams['axes.unicode_minus'] = False

for filename in os.listdir("datafiles"):
    year = filename.split(".")[0]
    path = "datafiles/{}".format(filename)
    df = pandas.read_csv(path)
    df.columns = ['指标','第四季度', '第三季度', '第二季度', '第一季度']

    gdp_Q1.append(df['第一季度'][0])
    gdp_Q2.append(df['第二季度'][0])
    gdp_Q3.append(df['第三季度'][0])
    gdp_Q4.append(df['第四季度'][0])
    gdp_all_year.append(df['第四季度'][1])

    years.append(year)

Q1_line, = plt.plot(years, gdp_Q1, color="blue")
Q2_line, = plt.plot(years, gdp_Q2, color="pink")
Q3_line, = plt.plot(years, gdp_Q3, color="green")
Q4_line, = plt.plot(years, gdp_Q4, color="orange")
all_year_line, = plt.plot(years, gdp_all_year, color="red")

plt.title("2010-2021国内生产总值分析预测")
plt.xlabel("年份")
plt.ylabel("国内生产总值（亿元）")
plt.xticks(years)

plt.legend([Q1_line, Q2_line, Q3_line, Q4_line, all_year_line],
            ['第一季度','第二季度', '第三季度', '第四季度', '全年总值'],
            loc='upper right')

plt.show()

效果如下：

3.2 柱形统计图

代码如下：

import pandas
import matplotlib
import matplotlib.pyplot as plt
import os

gdp_all_year = []
years = []

matplotlib.rcParams['font.family'] = 'SimHei'
plt.rcParams['axes.unicode_minus'] = False

for filename in os.listdir("datafiles"):
    year = filename.split(".")[0]
    path = "datafiles/{}".format(filename)
    df = pandas.read_csv(path)
    df.columns = ['指标','第四季度', '第三季度', '第二季度', '第一季度']

    gdp_all_year.append(df['第四季度'][1])
    years.append(year)

plt.bar(years, gdp_all_year, width=0.5, label="numbers")
all_year_line, = plt.plot(years, gdp_all_year, color="red")
plt.title("2010-2021国内生产总值分析", loc="center")
plt.xlabel("年份", fontsize=14)
plt.ylabel("国内生产总值（亿元）", fontsize=14)

plt.show()

效果如下：

可以看到，2020年因为疫情原因，生产总值有所下降，但近年来总体情况还是呈上涨态势的。

拟合线性回归方程

下面我们将使用 sklearn机器学习库来拟合线性回归方程，它的安装命令如下：

pip install scikit-learn

4.1 以第1季度作为参数

思路如下，我们使用 sklearn库拟合线性回归方程，以第1季度作为参数，生成预测的方程，代码如下：

import pandas
import matplotlib
import matplotlib.pyplot as plt
import os
from sklearn import linear_model

gdp_Q1 = []
gdp_Q2 = []
gdp_all_year = []
years = []

matplotlib.rcParams['font.family'] = 'SimHei'
plt.rcParams['axes.unicode_minus'] = False

for filename in os.listdir("datafiles"):
    year = filename.split(".")[0]
    path = "datafiles/{}".format(filename)
    df = pandas.read_csv(path)
    df.columns = ['指标','第四季度', '第三季度', '第二季度', '第一季度']

    gdp_Q1.append(df['第一季度'][0])
    gdp_Q2.append(df['第二季度'][0])
    gdp_all_year.append(df['第四季度'][1])
    years.append(year)

Q1_line, = plt.plot(years, gdp_Q1, color="blue")
Q2_line, = plt.plot(years, gdp_Q2, color="pink")
all_year_line, = plt.plot(years, gdp_all_year, color="red")

plt.title("2010-2021国内生产总值分析预测")
plt.xlabel("年份")
plt.ylabel("国内生产总值（亿元）")
plt.xticks(years)

model = linear_model.LinearRegression()

model.fit(list(zip(gdp_Q1)), gdp_all_year)

coef = model.coef_

intercept = model.intercept_

equation = "y = x*{} + {}".format(coef[0], intercept)
print("线性回归方程:", equation)

forecast_value = [i*coef[0]+intercept for i in gdp_Q1]

forecast_line, = plt.plot(years, forecast_value, color="green")

plt.legend([Q1_line, Q2_line, all_year_line, forecast_line],
            ['第一季度','第二季度', '全年总值', '方程模拟'],
            loc='upper right')

plt.show()

效果如下：

可以看到，方程基本拟合曲线，但因为2020年疫情第一季度生产总值下滑，进而预测的全年数据也产生了较大落差，这怎么办呢？

4.2 以第1,2季度作为参数

我们可以以第1,2季度作为参数，代码如下：

import pandas
import matplotlib
import matplotlib.pyplot as plt
import os
from sklearn import linear_model

gdp_Q1 = []
gdp_Q2 = []
gdp_all_year = []
years = []

matplotlib.rcParams['font.family'] = 'SimHei'
plt.rcParams['axes.unicode_minus'] = False

for filename in os.listdir("datafiles"):
    year = filename.split(".")[0]
    path = "datafiles/{}".format(filename)
    df = pandas.read_csv(path)
    df.columns = ['指标','第四季度', '第三季度', '第二季度', '第一季度']

    gdp_Q1.append(df['第一季度'][0])
    gdp_Q2.append(df['第二季度'][0])
    gdp_all_year.append(df['第四季度'][1])
    years.append(year)

Q1_line, = plt.plot(years, gdp_Q1, color="blue")
Q2_line, = plt.plot(years, gdp_Q2, color="pink")
all_year_line, = plt.plot(years, gdp_all_year, color="red")

plt.title("2010-2021国内生产总值分析预测")
plt.xlabel("年份")
plt.ylabel("国内生产总值（亿元）")
plt.xticks(years)

model = linear_model.LinearRegression()
model.fit(list(zip(gdp_Q1, gdp_Q2)), gdp_all_year)
coef = model.coef_
intercept = model.intercept_
equation = "y = x1*{} + x2*{} + {}".format(coef[0], coef[1], intercept)

print("线性回归方程:", equation)

forecast_value = [i[0]*coef[0]+i[1]*coef[1]+intercept for i in list(zip(gdp_Q1, gdp_Q2))]
forecast_line, = plt.plot(years, forecast_value, color="green")

plt.legend([Q1_line, Q2_line, all_year_line, forecast_line],
            ['第一季度','第二季度', '全年总值', '方程模拟'],
            loc='upper right')

plt.show()

效果如下：

可以看到，这个方程的拟合结果十分不错，可以将它作为预测的方程。
线性回归方程为：

y = x1*0.20405068090604006 + x2*3.8656156020304238 + 9671.424027125235

等价于：

国内生产总值 = 第一季度生产总值*0.20405068090604006 + 第二季度生产总值*3.8656156020304238 + 9671.424027125235

这就完成了整个分析预测的流程。

🎉🎉🎉 好了，今天的课程就到这里，我是wangzirui32，喜欢的可以点个收藏和关注，我们下次再见！

Original: https://blog.csdn.net/wangzirui32/article/details/125464048
Author: wangzirui32
Title: 【Python】国内生产总值分析预测

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/622981/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Jetson nano + yolov5 + TensorRT加速+调用usb摄像头

目录前言一、环境安装 * 1、安装虚拟环境virtualenv（可选） 2、设置cuda环境变量，解决nvcc -V找不到命令 3、更新 4、安装pytorch 和 torch…

人工智能 2023年7月23日
0058
基于OpenCv+Django的网络实时视频流传输（前后端分离）

秋风阁——北溪入江流：https://focus-wind.com/秋风阁——基于OpenCv+Django的网络实时视频流传输（前后端分离）文章目录 Django流传输实例：S…

人工智能 2023年5月26日
00129
安卓学习路线参考

一、前言不知不觉自己已经做了几年开发了，由记得刚出来工作的时候感觉自己能牛逼，现在回想起来感觉好无知。懂的越多的时候你才会发现懂的越少。如果你的知识是一个圆，当你的圆越大时，圆…

人工智能 2023年6月27日
0091
【TensorFlow2.0】(1) tensor数据类型，类型转换

各位同学好，今天和大家分享一下TensorFlow2.0中的tensor数据类型，以及各种类型之间的相互转换方法。 1. tf.tensor 基础操作 scaler标量：1.2 v…

人工智能 2023年5月23日
0082
在pycharm新建项目时配置anaconda环境

有这个想法是因为跟着李沐老师学习深度学习，虽然他讲例题都是用jupyter，但作业的实现我想用pycharm来实现，但如果没有选择conda环境的话，在conda中装的各种模块（…

人工智能 2023年6月25日
0074
Doris为数据分析而生的olap数据库：数据模型和数据分区使用详解

Apache Doris是一个现代化的MPP分析性数据库产品。是一个由百度开源，在2018年贡献给Apache基金会，成为有顶级开源项目。仅需要亚秒级响应时间即可获得查询结果，可以…

人工智能 2023年7月15日
0066
Google Colab 训练很慢原因——驱动器读取数据集慢（已解决）

前言最近在使用Google Colab 训练模型，分配的是 Tesla P100-PCIE-16G 显卡；这个显卡也不是很弱啊，但在训练模型时，发现很慢。比我本地的两张1080t…

人工智能 2023年5月23日
00116
Pytorch中torch.repeat_interleave（）函数解析

一. torch.repeat_interleave（）函数解析 1.函数说明官网：torch.repeat_interleave()，函数说明如下图所示： ; 2. 函数原型 …

人工智能 2023年7月6日
0093
YOLOv6 | 模型结构与训练策略详细解析

如有错误，恳请指出。美团的yolov6发布已经2个多月，现在把他的改进和知识点稍微总结一下，用这篇博客记录。github地址：https://github.com/meituan…

人工智能 2023年6月17日
00280
论文速递：Deep Speaker: an End-to-End Neural Speaker Embedding System

百度端到端的声纹识别系统源码：https://github.com/philipperemy/deep-speaker论文：Deep Speaker: an End-to-End …

人工智能 2023年5月27日
0099
基于Spark的音乐专辑数据分析

每天天都在努力学习的我们前言本篇博客讲解的内容依旧是使用Spark进行相关的数据分析，按理来说数据分析完之后应该搞一搞可视化的，由于目前时间紧张，顾不得学习可视化了，先来看一下…

人工智能 2023年7月16日
0097
pytorh变量的定义和访问，detatch（）作用

pytorch中的变量定义 import torch import numpy as np from torch.autograd import Variable as V n =…

人工智能 2023年6月29日
0071
Python包的安装与导入详解(whl, egg)

python的包有3种安装或使用的形式: 源码导入, 从.whl安装和从.egg安装源码导入保持源代码, 直接以__init__.py和源码的文件形式导入项目, 再使用从.w…

人工智能 2023年7月23日
0071
对抗训练fgm、fgsm和pgd原理和源码分析

当前，在各大NLP竞赛中，对抗训练已然成为上分神器，尤其是fgm和pgd使用较多，下面来说说吧。对抗训练是一种引入噪声的训练方式，可以对参数进行正则化，提升模型鲁棒性和泛化能力。 …

人工智能 2023年6月16日
00102
灰色预测GM(1,1)模型

目录简介数学模型分析步骤对数据进行准指数规律检验对预测效果进行评价 GM(1,1)模型拓展 MATLAB源码简介在这里，灰色的意思是系统的信息只有一部分，不完整，与之…

人工智能 2023年6月25日
0059
Python Flask框架-开发简单博客-开篇介绍

作者：Eason_LYC悲观者预言失败，十言九中。乐观者创造奇迹，一次即可。一个人的价值，在于他拥有的，而不是他会的。所以可以不学无数，但不能一无所有！技术领域：WEB安全、网络…

人工智能 2023年7月6日
0095

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【Python】国内生产总值分析预测

3.1 折线统计图

3.2 柱形统计图

4.1 以第1季度作为参数

4.2 以第1,2季度作为参数

大家都在看