代码深度解析

2023年8月20日上午3:33 • Python • 阅读 56

文章目录

fetch_data函数
draw_data函数
resample函数解释

源数据:

; fetch_data函数

def fetch_data(file):
    df=pd.read_csv(file)# 用pd.read_csv读取csv文件
    #由于美国等国数据是按二级行政区划提供的，需按国家进行汇总,并且去掉了Lat,Long两列
    result=df.groupby(['Country/Region']).sum().drop(['Lat','Long'],axis=1).stack()
    # 重新定义索引
    result=result.reset_index()
    result.columns=['Country','date','value']
    result['date_']=pd.to_datetime(result.date)#生成时间索引
    result=result.sort_values(by='date_',axis=0,ascending=True)#按时间排序
    result=result.replace('\*','',regex=True)#有些国家名字中有*，去掉国名中的*
    return result

 ef fetch_data(file):
     df=pd.read_csv(file)# 用pd.read_csv读取csv文件

调入文件语句，通过参数的方法调入我们准备的文件，具体的调入操作在下面，这里我们写的是这个对文件进行预处理操作的函数，具体的处理操作见下面操作

result=df.groupby(['Country/Region']).sum().drop(['Lat','Long'],axis=1).stack()

groupby:
df.groupby([‘Country/Region’]) :通过列’countr/region’分组，创建一个groupby对象
.sum() 对分组后的数据进行求和运算
axis:表示分组轴的方向，0是按行，1是按列—-原文axis=1
.drop(‘lat’,’long’) 删除对应指定列
.stack() 对groupby数组进行堆叠
结合本文：
这句函数是对3个数据进行初步的处理，分别是对应Excel：confine，death，recover
先将对应数据按’countr/region’分组，创建一个groupby对象，接着进行求和，这样就是就可以得到一个国家记录的每一天的患病or死亡or康复总和
在求和的数据上在进行删除lat，long这2列，具体调出Excel查看，再调用stack将处理好的数据进行堆叠，堆叠出来的结果就是将数据按日期分开，同一日期中所有的数据，这样处理数据方便后面进行处理
详细解释链接: https://blog.csdn.net/weixin_44330492/article/details/100126774

result=result.reset_index()
result.columns=['Country','date','value']

这2句的代码就是通过调用reset_index()重新索引，
我们在重新赋值索引名为country date value
知识点：pandas 中的 reset_index()
数据清洗时，会将带空值的行删除，此时DataFrame或Series类型的数据不再是连续的索引，可以使用reset_index()重置索引。
.columns 设置列标签

 result['date_']=pd.to_datetime(result.date)#生成时间索引

这里会再创建出一列出来数据是来自date中的数据

生成时间索引，原本中的数据不是时间格式的数据，是一种文本数据，我们将这些数据转化为时间类型是数据，
就是本来只是一串文字，我们把改成为时间类型的数据，他就具有时间的属性了
pandas中的sort_values()函数原理类似于SQL中的order by，
可以将数据集依照某个字段中的数据进行排序，该函数即可根据指定列数据也可根据指定行的数据排序。
本题通过时间排序
.sort_values(by=”,axis=0,ascending=True)
by:指定的列名
axis：若axis=0或’index’，则按照指定列中数据大小排序；
若axis=1或’columns’，则按照指定索引中数据大小排序，默认axis=0
ascending：是否按指定列的数组升序排列， 默认为True，即升序排列

    result=result.sort_values(by='date_',axis=0,ascending=True)

sort_values ：这个方法啊，他和sql中的order by 命令类似哈，他是用来排序用的，那他排序中通过by：”名字”,这个参数来判断这个数据是通过什么来排序的，本文是通过时间这个索引来排序的，那是按时间是什么属性来排序的呢？这里是安装时间的数据大小来排序的，这里也可以看出我们前一句通过to_datetime来将数据改成为时间类型的数据的意义，没有定义类型我们怎么比较大小

result=result.replace('\*','',regex=True)#有些国家名字中有*，去掉国名中的*

replace：替换函数。result.replace(‘‘,”,regex=True)’ ‘用”（空替换）
意义这里的意思就是去掉国家后面带的避免号带来的影响。

draw_data函数


def draw_data(df, label, color):
    print(df)
    fig = px.choropleth(df,
                        locations='Country',

                        locationmode='country name',

                        animation_frame='date',

                        color='value',

                        color_continuous_scale=[[0, 'White'], [1, color]],

                        labels={'value': label},

                        range_color=[df.value.min(), df.value.max()])

    fig.show()

resample函数解释

def resample(df, period):

    country_list = df.Country.drop_duplicates()

    temp = df.copy()

    result = pd.DataFrame()

    for i in country_list:

        r_temp = temp.loc[temp.Country == i]

        r_temp = r_temp.drop_duplicates(['date_'])

"""
       将数据中的列转化为行索引，如：
        a    b    c
    0   1   ....

    1   4   ....

    2   7   ....

    3   9   ....

    进行行索引转化set_index('a')后为：
    a   b   c
    1   ....

    4   ....

    7   ....

    9   ....

"""

        r_temp = r_temp.set_index('date_')

        r_temp = r_temp.resample(period).asfreq().dropna()

        r_temp = r_temp.reset_index()

        result = pd.concat([result, r_temp])

    return result.sort_values(by='date_', axis=0, ascending=True)

Original: https://blog.csdn.net/qq_45803800/article/details/124258694
Author: SSS迪
Title: 代码深度解析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/754473/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【mysql】mysql全面总结

文章目录一、mysql基础 * 1，MySQL安装及配置 – windows环境安装 2，数据库管理及相关命令 3，数据表管理及相关命令 4，数据内容的增删改查 5，…

Python 2023年8月6日
0068
用python做飞机大战打到不同部位扣分不同_python制作飞机大战需要哪些python术语…

怎么样用Python写飞机大战游戏为什么写出来一直都是未响应，哪里写错了吗？就算小编们没能走到最后，小编也不会心存遗憾，你有你的苦辣酸甜，小编有小编的喜怒哀乐，如果小编们不曾相遇…

Python 2023年9月25日
0054
Python基于PC版微信实现机器人

在 github中有基于 web版的微信实现的实时收发消息 api， python调用起来非常简单。但是目前来说，大部分的用户没法登录 web版的微信，因此也就没法使用。今天我们…

Python 2023年8月9日
0051
PySpark 和Pandas在机器学习和分析中的联合使用

写在前面：如何将Pyspark 和 Pandas结合起来做机器学习和常规的建模分析呢？ Spark处理大数据，Pandas处理小数据。 pyspark中的DataFrame是分布…

Python 2023年8月19日
0048
【JS 逆向百例】拉勾网爬虫，traceparent、__lg_stoken__、X-S-HEADER 等参数分析

关注微信公众号：K哥爬虫，持续分享爬虫进阶、JS/安卓逆向等技术干货！声明本文章中所有内容仅供学习交流，抓包内容、敏感网址、数据接口均已做脱敏处理，严禁用于商业用途和非法用途，…

Python 2023年5月24日
00120
小鱼商场学习记录

项目代码：chapter14、 xiaoyu.sql 我使用的环境:python3.9、django3.2.5 如果还是有其他报错或者bug，把报错截图发给我我给我 1、创建数据库…

Python 2023年8月5日
0065
手写编程语言-如何为 GScript 编写标准库

版本更新最近 GScript 更新了 v0.0.11 版本，重点更新了： Docker 运行环境新增了 byte 原始类型新增了一些字符串标准库 Strings/String…

Python 2023年10月18日
0065
Pandas学习笔记（包括示例代码、运算结果及详细注释）

1.Series 2.DataFrame的简单运用 3.pandas选择数据 * 3.1 实战筛选 3.2 筛选总结 4.Pandas设置值 * 4.1 创建数据 4.2 根据位置…

Python 2023年8月7日
0070
计算机毕业设计（附源码）python心理健康网站

项目运行环境配置：Pychram社区版+ python3.7.7 + Mysql5.7 + HBuilderX+list pip+Navicat11+Django+nodejs。 …

Python 2023年8月5日
0055
scrapy中登录时保持验证码cookies的一致性

文章目录一、为什么要保持验证码cookies的一致性？二、requests和scrapy中保持验证码cookies一致的方法 * 1.requests 2.scrapy 三、总…

Python 2023年10月4日
0044
猴子补丁

作用：随时修改代码 (在函数或类定义完成之后，再去修改函数的实现过程) undefined """类似猴子补丁在函数定义好之后，再去更改他的行为&qu…

Python 2023年10月30日
0040
七叔带你玩转pytest—fixture，妈妈再也不用担心学不会测试了

前言我们今天呢来看看pytest实现fixture有几种方式，分别该怎么进行呢？小编废话不多说了咱们直接开始吧！自动化测试框架中的 fixture 我们在编写测试用例，都会涉及…

Python 2023年9月13日
0053
Python数据分析步骤案例（三）

刚才完成了数据的数据探索阶段的工作，具体做了以下步骤。 1.对指定列进行计数统计使用值计数value_counts来计算每个值出现的次数，在代码框中输入：df[‘列名…

Python 2023年8月8日
0042
【uiautomation】微信好友列表获取（存储到txt中）

🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🥰 博客首页： knighthood2001🌞 系列专栏：uiautomation😗 欢迎点赞👍评论🗨️❤️ 热爱python，期待与大家一同进步成长！！❤…

Python 2023年8月2日
0055
Django-Virtualenv虚拟环境安装、新建，激活和手动指定Python解释器、虚拟环境安装Django、创建Django项目、运行Django项目

一、安装虚拟环境：命令：pip3 install virtualenv 二、安装管理工具：命令：pip3 install virtualenvwrapper 三、新建：命令：…

Python 2023年11月3日
0057
pandas之合并数据集

文章目录 * – 1. merge函数 – 2. concat函数 – 3. combine_first函数 1. merge函数详见【pyt…

Python 2023年8月6日
0073

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

代码深度解析

文章目录

大家都在看