暑期实践第二十三天 2022-7-26

2023年8月7日上午2:43 • Python • 阅读 38

1.数据移位

shift方法

DataFrame.shift(periods=1, freq=None, axis=0)

periods:表示移动的幅度，可以是正数，也可以是负数，默认值是1，1表示移动一次，注意这里移动的都是数据，而索引是不移动的。移动之后没有对应值的，就被赋值为NaN.

freq:可选参数，默认值为None，只适用于时间序列，如果这个参数存在，那么会按照参数值来移动时间索引，而数据值不会发生变化。

axis:axis=1表示列，axis=0表示行，默认值为0.

import pandas as pd
data = [110, 105, 99, 120, 115]
index = [1, 2, 3, 4, 5]
df = pd.DataFrame(data=data, index=index, columns=['英语'])
df['升降'] = df['英语'] - df['英语'].shift()
print(df)

输出结果

    &#x82F1;&#x8BED;    &#x5347;&#x964D;
1  110   NaN
2  105  -5.0
3   99  -6.0
4  120  21.0
5  115  -5.0

2.数据转换

2.1一列数据转换为多列数据

split方法

pandas的DataFrame对象中的str.split内置方法可以实现分割字符串

Series.str.split(pat=None, n=-1, expand=False)

pat:字符串、符号或正则表达式，表示字符串分割的依据，默认以空格分割字符串。

n:整型，分割次数，默认值是-1。 0或-1都将返回所有拆分的字符串。

expand:布尔型，分割后的结果是否转换为DataFrame，默认值是False

import pandas as pd
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)
pd.set_option('display.unicode.east_asian_width', True)
df = pd.read_excel('mrbooks.xls', usecols=['买家会员名', '收货地址'])
series = df['收货地址'].str.split(' ', expand=True)
df['省']=series[0]
df['市']=series[1]
df['区']=series[2]
print(df.head())

输出结果

  &#x4E70;&#x5BB6;&#x4F1A;&#x5458;&#x540D;                                                             &#x6536;&#x8D27;&#x5730;&#x5740;      &#x7701;      &#x5E02;      &#x533A;
0    mr00001                                &#x91CD;&#x5E86; &#x91CD;&#x5E86;&#x5E02; &#x5357;&#x5CB8;&#x533A;                       &#x91CD;&#x5E86;  &#x91CD;&#x5E86;&#x5E02;  &#x5357;&#x5CB8;&#x533A;
1    mr00003      &#x6C5F;&#x82CF;&#x7701; &#x82CF;&#x5DDE;&#x5E02; &#x5434;&#x6C5F;&#x533A; &#x5434;&#x6C5F;&#x7ECF;&#x6D4E;&#x6280;&#x672F;&#x5F00;&#x53D1;&#x533A;&#x4EA8;&#x901A;&#x8DEF;                    &#x6C5F;&#x82CF;&#x7701;  &#x82CF;&#x5DDE;&#x5E02;  &#x5434;&#x6C5F;&#x533A;
2    mr00004  &#x6C5F;&#x82CF;&#x7701; &#x82CF;&#x5DDE;&#x5E02; &#x56ED;&#x533A; &#x82CF;&#x5DDE;&#x5E02;&#x5DE5;&#x4E1A;&#x56ED;&#x533A;&#x552F;&#x4EAD;&#x9547;&#x9633;&#x6F84;&#x6E56;&#x5927;&#x9053;&#x7EF4;&#x7EB3;&#x9633;&#x5149;&#x82B1;&#x56ED;......  &#x6C5F;&#x82CF;&#x7701;  &#x82CF;&#x5DDE;&#x5E02;    &#x56ED;&#x533A;
3    mr00002   &#x91CD;&#x5E86; &#x91CD;&#x5E86;&#x5E02; &#x5357;&#x5CB8;&#x533A; &#x957F;&#x751F;&#x6865;&#x9547;&#x8336;&#x56ED;&#x65B0;&#x533A;&#x957F;&#x7535;&#x8DEF;11112&#x53F7;                      &#x91CD;&#x5E86;  &#x91CD;&#x5E86;&#x5E02;  &#x5357;&#x5CB8;&#x533A;
4    mr00005           &#x5B89;&#x5FBD;&#x7701; &#x6EC1;&#x5DDE;&#x5E02; &#x660E;&#x5149;&#x5E02; &#x4E09;&#x754C;&#x9547;&#x4E2D;&#x5FC3;&#x8857;10001&#x53F7;                    &#x5B89;&#x5FBD;&#x7701;  &#x6EC1;&#x5DDE;&#x5E02;  &#x660E;&#x5149;&#x5E02;

join方法与split方法结合

通过join方法与split方法结合，以逗号分割宝贝标题

import pandas as pd
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)
pd.set_option('display.unicode.east_asian_width', True)
df = pd.read_excel('mrbooks.xls', usecols=['买家会员名', '宝贝标题'])
df = df.join(df['宝贝标题'].str.split('，', expand=True))
print(df.head())

输出结果

  &#x4E70;&#x5BB6;&#x4F1A;&#x5458;&#x540D;                                                                         &#x5B9D;&#x8D1D;&#x6807;&#x9898;                    0                  1                           2                            3     4     5
0    mr00001                                PHP&#x7A0B;&#x5E8F;&#x5458;&#x5F00;&#x53D1;&#x8D44;&#x6E90;&#x5E93;                                PHP&#x7A0B;&#x5E8F;&#x5458;&#x5F00;&#x53D1;&#x8D44;&#x6E90;&#x5E93;               None                        None                         None  None  None
1    mr00003                                 &#x4E2A;&#x4EBA;&#x7248;&#x7F16;&#x7A0B;&#x8BCD;&#x5178;&#x52A0;&#x70B9;                                 &#x4E2A;&#x4EBA;&#x7248;&#x7F16;&#x7A0B;&#x8BCD;&#x5178;&#x52A0;&#x70B9;               None                        None                         None  None  None
2    mr00004                                               &#x90AE;&#x8D39;                                               &#x90AE;&#x8D39;               None                        None                         None  None  None
3    mr00002  &#x96F6;&#x57FA;&#x7840;&#x5B66;Java&#x5168;&#x5F69;&#x7248; &#xFF0C;Java&#x7CBE;&#x5F69;&#x7F16;&#x7A0B;200&#x4F8B;&#xFF0C;Java&#x9879;&#x76EE;&#x5F00;&#x53D1;&#x5B9E;&#x6218;&#x5165;&#x95E8;&#x5168;&#x5F69;&#x7248;&#xFF0C;&#x660E;&#x65E5;&#x79D1;&#x6280;...  &#x96F6;&#x57FA;&#x7840;&#x5B66;Java&#x5168;&#x5F69;&#x7248;   Java&#x7CBE;&#x5F69;&#x7F16;&#x7A0B;200&#x4F8B;  Java&#x9879;&#x76EE;&#x5F00;&#x53D1;&#x5B9E;&#x6218;&#x5165;&#x95E8;&#x5168;&#x5F69;&#x7248;  &#x660E;&#x65E5;&#x79D1;&#x6280; Java&#x7F16;&#x7A0B;&#x8BCD;&#x5178;&#x4E2A;&#x4EBA;&#x7248;  None  None
4    mr00005                                  &#x96F6;&#x57FA;&#x7840;&#x5B66;PHP&#x5168;&#x5F69;&#x7248;                                  &#x96F6;&#x57FA;&#x7840;&#x5B66;PHP&#x5168;&#x5F69;&#x7248;               None                        None                         None  None  None

注意分割的逗号是中文输入法

将DataFrame中的tuple（元组）类型数据分割成多列

import pandas as pd
pd.set_option('display.unicode.east_asian_width', True)
df = pd.DataFrame({'a':[1, 2, 3, 4, 5], 'b':[(1, 2), (3, 4), (5, 6), (7, 8), (9, 10)]})
print(df)
df[['b1', 'b2']] = df['b'].apply(pd.Series)
print(df)

运行结果

   a        b
0  1   (1, 2)
1  2   (3, 4)
2  3   (5, 6)
3  4   (7, 8)
4  5  (9, 10)
   a        b  b1  b2
0  1   (1, 2)   1   2
1  2   (3, 4)   3   4
2  3   (5, 6)   5   6
3  4   (7, 8)   7   8
4  5  (9, 10)   9  10

2.2行列转换

在Pandas处理数据的过程中，有时需要对数据进行行列转换或重排，这时主要使用stack方法、unstack方法、和pivot方法。

stack方法

stack方法用于将原来的列索引转换成最内层的行索引

DataFrame.stack(level=-1, dropna=True)

import pandas as pd
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)
pd.set_option('display.unicode.east_asian_width', True)
df = pd.read_excel('grade.xls')
print(df)
df = df.set_index(['班级', '序号'])    #设置二级索引
df = df.stack()
print(df)

输出结果

    &#x5E8F;&#x53F7; &#x73ED;&#x7EA7;   &#x59D3;&#x540D;  &#x5F97;&#x5206;  &#x6392;&#x540D;
0      1  1&#x73ED;  &#x738B;*&#x4EAE;    84    11
1      2  1&#x73ED;   &#x6768;**    82    17
2      3  1&#x73ED;  &#x738B;*&#x5F6C;    78    37
3      4  2&#x73ED;  &#x8D5B;*&#x742A;    77    51
4      5  2&#x73ED;   &#x5218;**    76    64
5      6  2&#x73ED;  &#x5218;*&#x5F64;    74    89
6      7  3&#x73ED;  &#x5F20;*&#x626C;    72   115

&#x73ED;&#x7EA7;  &#x5E8F;&#x53F7;
1&#x73ED;   1     &#x59D3;&#x540D;    &#x738B;*&#x4EAE;
            &#x5F97;&#x5206;       84
            &#x6392;&#x540D;       11
      2     &#x59D3;&#x540D;     &#x6768;**
            &#x5F97;&#x5206;       82
            &#x6392;&#x540D;       17
      3     &#x59D3;&#x540D;    &#x738B;*&#x5F6C;
            &#x5F97;&#x5206;       78
            &#x6392;&#x540D;       37
2&#x73ED;   4     &#x59D3;&#x540D;    &#x8D5B;*&#x742A;
            &#x5F97;&#x5206;       77
            &#x6392;&#x540D;       51
      5     &#x59D3;&#x540D;     &#x5218;**
            &#x5F97;&#x5206;       76
            &#x6392;&#x540D;       64
      6     &#x59D3;&#x540D;    &#x5218;*&#x5F64;
            &#x5F97;&#x5206;       74
            &#x6392;&#x540D;       89
3&#x73ED;   7     &#x59D3;&#x540D;    &#x5F20;*&#x626C;
            &#x5F97;&#x5206;       72
            &#x6392;&#x540D;      115

unstack方法

unstack方法与stack方法相反，它是stack方法的逆操作，即将最内层的行索引转换为列索引

语法同stack

df=pd.read_excel('grade.xls',sheet_name='英语2')      #导入Excel文件
print(df)
df = df.set_index(['班级','序号','Unnamed: 2'])       #设置多级索引
print(df.unstack())

输出结果

   &#x73ED;&#x7EA7;  &#x5E8F;&#x53F7; Unnamed: 2 Unnamed: 3
0   1&#x73ED;     1       &#x59D3;&#x540D;      &#x738B;*&#x4EAE;
1   1&#x73ED;     1       &#x5F97;&#x5206;         84
2   1&#x73ED;     1       &#x6392;&#x540D;         11
3   1&#x73ED;     2       &#x59D3;&#x540D;       &#x6768;**
4   1&#x73ED;     2       &#x5F97;&#x5206;         82
5   1&#x73ED;     2       &#x6392;&#x540D;         17
6   1&#x73ED;     3       &#x59D3;&#x540D;      &#x738B;*&#x5F6C;
7   1&#x73ED;     3       &#x5F97;&#x5206;         78
8   1&#x73ED;     3       &#x6392;&#x540D;         37
9   2&#x73ED;     4       &#x59D3;&#x540D;      &#x8D5B;*&#x742A;
10  2&#x73ED;     4       &#x5F97;&#x5206;         77
11  2&#x73ED;     4       &#x6392;&#x540D;         51
12  2&#x73ED;     5       &#x59D3;&#x540D;       &#x5218;**
13  2&#x73ED;     5       &#x5F97;&#x5206;         76
14  2&#x73ED;     5       &#x6392;&#x540D;         64
15  2&#x73ED;     6       &#x59D3;&#x540D;      &#x5218;*&#x5F64;
16  2&#x73ED;     6       &#x5F97;&#x5206;         74
17  2&#x73ED;     6       &#x6392;&#x540D;         89
           Unnamed: 3
Unnamed: 2       &#x59D3;&#x540D; &#x5F97;&#x5206; &#x6392;&#x540D;
&#x73ED;&#x7EA7; &#x5E8F;&#x53F7;
1&#x73ED;  1          &#x738B;*&#x4EAE;   84   11
     2           &#x6768;**   82   17
     3          &#x738B;*&#x5F6C;   78   37
2&#x73ED;  4          &#x8D5B;*&#x742A;   77   51
     5           &#x5218;**   76   64
     6          &#x5218;*&#x5F64;   74   89

在unstack方法中有一个参数可以指定转换第几层索引。例如，unstack(0)就是把第一层行索引转换为列索引，默认是将最内层索引转换为列索引。

pivot方法

pivot方法针对列的值，即指定某列的值作为行索引，指定某列的值作为列索引，然后再指定哪些列作为索引对应的值。unstack方法针对索引进行操作：pivot方法针对值进行操作。但实际上，两者在功能方面往往可以互相实现。

DaraFrame.pivot(index=None, columns=None, values=None)

values:列用于填充新DataFrame数据的值，如果未指定，则将使用所有剩余的列，结果将具有分层索引列。

import pandas as pd
#设置数据显示的列数和宽度
pd.set_option('display.max_columns',500)
pd.set_option('display.width',1000)
#解决数据输出时列名不对齐的问题
pd.set_option('display.unicode.east_asian_width', True)
df=pd.read_excel('grade.xls',sheet_name='英语3')      #导入Excel文件
print(df)
print(df.pivot(index='序号',columns='班级',values='得分'))

输出结果

    &#x5E8F;&#x53F7; &#x73ED;&#x7EA7;   &#x59D3;&#x540D;  &#x5F97;&#x5206;  &#x6392;&#x540D;
0      1  1&#x73ED;  &#x738B;*&#x4EAE;    84    11
1      2  1&#x73ED;   &#x6768;**    82    17
2      3  1&#x73ED;  &#x738B;*&#x5F6C;    78    37
3      1  2&#x73ED;  &#x8D5B;*&#x742A;    77    51
4      2  2&#x73ED;   &#x5218;**    76    64
5      3  2&#x73ED;  &#x5218;*&#x5F64;    74    89
6      1  3&#x73ED;  &#x5F20;*&#x626C;    72   115
7      2  3&#x73ED;   &#x5C39;**    72   115
8      3  3&#x73ED;  &#x674E;*&#x65F8;    72   115
9      1  4&#x73ED;  *&#x534E;&#x7166;    72   115
10     2  4&#x73ED;  &#x4E8E;*&#x660E;    72   115
11     3  4&#x73ED;  &#x8881;*&#x7693;    70   151
12     1  5&#x73ED;    &#x59DC;*    70   151
13     2  5&#x73ED;   &#x7AA6;**    68   195
14     3  5&#x73ED;  &#x5F20;*&#x6615;    68   195
&#x73ED;&#x7EA7;  1&#x73ED;  2&#x73ED;  3&#x73ED;  4&#x73ED;  5&#x73ED;
&#x5E8F;&#x53F7;
1      84   77   72   72   70
2      82   76   72   72   68
3      78   74   72   70   68

2.3DataFrame转换为字典

将DataFrame转换为字典主要使用DataFrame对象中的to_dict方法，以索引作为字典的键（key），以列作为字典的值。

import pandas as pd
df = pd.read_excel('mrbooks.xls')
df1=df.groupby(['宝贝标题'])['宝贝总数量'].sum().head()
mydict = df1.to_dict()
for i, j in mydict.items():
    print(i, ':\t', j)

ASP.NET&#x9879;&#x76EE;&#x5F00;&#x53D1;&#x5B9E;&#x6218;&#x5165;&#x95E8;&#x5168;&#x5F69;&#x7248; :    32
ASP.NET&#x9879;&#x76EE;&#x5F00;&#x53D1;&#x5B9E;&#x6218;&#x5165;&#x95E8;&#x5168;&#x5F69;&#x7248;&#xFF0C;ASP.NET&#x5168;&#x80FD;&#x901F;&#x67E5;&#x5B9D;&#x5178; :     2
Android&#x5B66;&#x4E60;&#x9EC4;&#x91D1;&#x7EC4;&#x5408;&#x5957;&#x88C5; :    4
Android&#x9879;&#x76EE;&#x5F00;&#x53D1;&#x5B9E;&#x6218;&#x5165;&#x95E8; :    1
C#+ASP.NET&#x9879;&#x76EE;&#x5F00;&#x53D1;&#x5B9E;&#x6218;&#x5165;&#x95E8;&#x5168;&#x5F69;&#x7248; :     1

2.4DataFrame转换为列表

主要使用tolist方法

import pandas as pd
df = pd.read_excel('mrbooks.xls')
df1 = df[['买家会员名']].head()
list1 = df1['买家会员名'].values.tolist()
for s in list1:
    print(s)

输出结果

mr00001
mr00003
mr00004
mr00002
mr00005

2.5DataFrame转化为元组

首先通过循环语句按行读取DataFrame数据，然后使用元组函数tuple将其转换为元组。

import pandas as pd
df = pd.read_excel('fls.xls')
df1 = df[['label1', 'labbel2']].head()
tuples = [tuple(x) for x in dfi.values]
for t in tuples:
    print(t)

2.6Excel转换为HTML网页格式

使用to_html方法来导出

import pandas as pd
df=pd.read_excel('mrbooks.xls',usecols=['买家会员名','宝贝标题']).head()
df.to_html('mrbooks.html',header = True,index = False)

Original: https://blog.csdn.net/m0_63619203/article/details/125990343
Author: 亦晓高
Title: 暑期实践第二十三天 2022-7-26

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/738987/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

tensor学习 1 -tensor格式

1、tf.constant 创建一个常量 2、tf.range 创建一个序列 tf.rang(开始，结束，步长）开始 Original: https://blog.csdn.net…

Python 2023年8月26日
0046
Netty 学习（六）：创建 NioEventLoopGroup 的核心源码说明

原文地址：基于 JDK 的 API 自己实现 NIO 编程，需要一个线程池来不断监听端口。接收到新连接之后，这条连接上数据的读写会在另外一个线程池中进行。在 Netty 实现的…

Python 2023年10月20日
0035
pytorch几种乘法的区别

pytorch几种乘法的区别 torch.mul()是矩阵的点乘，即对应的位相乘，要求shape一样, 返回的还是个矩阵torch.mm()是矩阵正常的矩阵相乘，（a, b）* (…

Python 2023年8月25日
0045
解决from tensorflow.contrib import layers报错，No module named ‘tensorflow.contrib‘的问题

这个问题出现的时候，首先要检查自己安装的tensorflow包的版本，因为一般tensorflow大于2.0的版本已经不再支持contrib的应用。首先打开电脑命令行模式，输入p…

Python 2023年8月1日
0074
Python逆向爬虫之scrapy框架,非常详细

爬虫系列目录配套视频地址：https://www.wotiecity.com/system/course/MTc=?cid=93332355 文章目录 Python逆向爬虫之sc…

Python 2023年10月2日
0046
博客园主题 Blogure 🎨

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 弹尽粮绝，会员救园：…

Python 2023年10月22日
0037
Python中requirements.txt文件的作用

很多 Python 项目中经常会包含一个 requirements.txt 文件，里面内容是项目的依赖包及其对应版本号的信息列表，即项目依赖关系清单，其作用是用来重新构建项目所需要…

Python 2023年8月11日
0036
pandas将df保存为excel，如何避免长数据序号被保存为科学计数法？解答各种坑

使用pandas处理包含产品序号的数据，序号是一串长的数字符号，遇到一系列科学技术法相关的问题。查阅了针对这个问题的一些已有解答，发现不能完全解决问题，也没有解释清楚问题出现的原因…

Python 2023年8月15日
0095
pytest + yaml 框架 – 我们发布上线了

前言基于 httprunner 框架的用例结构，我自己开发了一个pytest + yaml 的框架，那么是不是重复造轮子呢？不可否认 httprunner 框架设计非常优秀，但…

Python 2023年9月12日
0025
Docker Desktop 可以直接启用Kubernetes 1.25 了

作为目前事实上的容器编排系统标准，K8s 无疑是现代云原生应用的基石，很多同学入门可能直接就被卡到第一关，从哪去弄个 K8s 的环境， Docker Desktop 自带了Kube…

Python 2023年10月19日
0034
算法图解 PDF 原文分享

《算法图解》本书示例丰富，图文并茂，以让人容易理解的方式阐释了算法，旨在帮助程序员在日常项目中更好地发挥算法的能量。书中的前三章将帮助你打下基础，带你学习二分查找、大O表示法、两…

Python 2023年6月3日
0089
flask整合mask_rcnn模型

运行步骤： 1.执行数据库脚本：pipeline_monitor.sql，修改数据库配置文件为本地mysql地址和账号; 2.解压缩文件FlaskVideo-master-lite…

Python 2023年8月11日
0053
docker理解

Docker 包括三个基本概念: 镜像（Image）：Docker 镜像（Image），就相当于是一个 root 文件系统。比如官方镜像 ubuntu:16.04 就包含了完整的一…

Python 2023年6月11日
0071
python中pandas模块导入csv文件_Python之pandas导入导出数据

1.导入pandas模块 import pandas as pd 2.导入CSV表格数据 titanic = pd.read_csv(r’C:\Users\Admini…

Python 2023年8月20日
0063
pytest合集（3）— 命令行参数

1、命令行参数大全使用 pytest -h 可以查看 pytest 的命令行参数，有 10 大类共 132 个。详见：Python pytest 132 个命令行参数用法 &#…

Python 2023年9月11日
0039
FastAPI 学习之路（三十八）Static Files

如果使用前后台不分离的开发方式，那么模板文件中使用的静态文件，比如css/js等文件的目录需要在后台进行配置，以便模板渲染是能正确读到这些静态文件。那么我们应该如何处理呢。首先安…

Python 2023年5月25日
0056

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

暑期实践第二十三天 2022-7-26

大家都在看