python中的pandas的两种基本使用_python基础3:Pandas中常用操作

2023年8月8日上午1:39 • Python • 阅读 56

python中的pandas的两种基本使用_python基础3:Pandas中常用操作

借了一张图

Pandas：提供名为DataFrame的数据结构，比较契合统计分析中的表结构，做数据分析用的，主要是做表格数据呈现。

每次在使用Pandas的时候，不是看记的笔记就是百度，这里集中整理一下

1、创建一个空的DataFrame

2、txt、csv、excel、数据库数据读取

3、3、数据写出。如将数据导入数据库，或导出为excel文件

4、排序

5、计算某列有多少个不同的值,类似sql中distinct

6、分组函数(类似sql中group by)

7、截取某字段中前5个字符(注意：前闭后开)

8、删除floor字段中的’层’字，其它内容保留。

9、agg函数—常与groupby函数连用。如：每个大陆对饮品消耗的最小值、平均值、最大值

10、在字段中对数据进行模糊匹配，类似sql中like

11、数据筛选，类似sql中like

12、多个数据条件筛选，类似sql中and 、or

13、pivot_table类似excel中数据透视表

14、合并两个dateframe，类似sql中union all 、left join

15、DataFrame删除某列

16、填充DataFrame中的空值

17、对df中的某个字段进行分割，一个字段拆分为多个字段

18、对df中的某个字段分层。类似sql中case when

19、数据提取。如选取某个字段，某行

20、统计函数(平均值，最大值，最小值，标准差，中位数等)

21、对某列累加求和cumsum()

22、对日期的处理。(如时间数据类型转换，时间加减)

23、对数据进行去重drop_duplicates()

24、字典转化为DataFrame

25、修改字段名rename

26、数据类型转换

27、计算环比pct_change()

28、数据转置行变成列。df.T

29、查看数据常用操作。如多少行多少列、列字段及数据类型等

1、创建一个空的DataFrame

a = pd.DataFrame()

2、txt、csv、excel、数据库数据读取

1、读取txt文件

【方法一】

df = pd.read_table(“F:/datafrog/2-PYTHON/CDNOW_master.txt”,names = [‘user_id’,’order_dt’,’order_products’,’order_amount’],sep = ‘\s+’)

【方法二】

columns = [‘user_id’,’order_dt’,’order_products’,’order_amount’]

df = pd.read_table(“CDNOW_master.txt”,names = columns,sep = ‘\s+’)

因为原始数据不包含表头，所以需要赋予”names”。字符串是空格分割，用”\s+”表示匹配任意空白符。

2、读取CSV文件

df = pd.read_csv(“F:/datafrog/2-PYTHON/链家二手房.csv”,sep = ‘,’,engine = ‘python’)

3、读取excel文件

data = pd.read_excel(“F:/datafrog/201708收银.xlsx”)

4、数据库读取(MYSQL)

导入模块

from sqlalchemy import create_engine

import pymysql

pymysql.install_as_MySQLdb() # 为了兼容mysqldb

创建连接

engine = create_engine(‘mysql://用户名:密码@IP地址:端口/数据库?charset=gbk’)

conn = engine.connect()

读取数据

data1 = pd.read_sql_query(‘select * from data’, con=conn)

print(data1.head())

3、数据写出。如将数据导入数据库，或导出为excel文件

1、将数据写出为csv

import pandas as pd

data.to_csv(‘数据储存位置’,index = 是否导出索引)

data.to_csv(‘data.csv’,index = False)

2、将数据写出为excel

data.to_excel(‘数据储存位置’,index=是否导出索引)

data.to_excel(‘data.xlsx’,index=False)

3、将数据写入数据库

不用在数据库中建表，在导入过程中会自动在数据库中建表

from sqlalchemy import create_engine #导入模块

engine =create_engine(‘mysql+pymysql://root:root@127.0.0.1/data?charset=utf8′, encoding=’utf-8’, echo=True)#创建数据库链接

conn = engine.connect()

create_merchant.to_sql(‘HZ_CREATE_CUSTOMER’,con=datafrog,if_exists=’append’,index=False)

data.to_sql(‘data’,con = conn)

4、排序

1、按照1个字段排序

df.sort_values(by = ‘quantity’,ascending=False) # False降序

ascending = False,降序

ascending = True,升序

2、按照2个及以上字段排序

df.sort_values(by = [‘quantity’,’month’],ascending=False) # False降序

5、计算某列有多少个不同的值,类似sql中distinct

1、计算每个不同值有在该列中有多少重复值

【方法一】

chipo[‘choice_description’].value_counts()

【方法二】

df[“User_ID”].drop_duplicates(keep=’first’).count()

2、计算某列有多少个不同的重复值

df[‘User_ID’].nunique()

6、分组函数(类似sql中group by)

1、按照1个字段分组

df.groupby(‘key1’).order.mean()

2、按照2个字段分组

df.groupby([‘month’,’chty’]).order.mean()

7、截取某字段中前5个字符(注意：前闭后开)

df[” 地址”] = df[“地址”].str[0:5]

8、删除floor字段中的’层’字，其它内容保留。

df[‘floor’] = df[‘floor’].str.extract(‘(\d+)层’)

9、agg函数—常与groupby函数连用。如：每个大陆对饮品消耗的最小值、平均值、最大值

chipo.groupby(‘order_id’).agg({‘item_price_01′:’sum’}).item_price_01.mean()

2、每个大陆对饮品消耗的最小值、平均值、最大值

drinks.groupby(‘continent’)[‘spirit_servings’].agg([‘min’,’mean’,’max’])

案例：

df.groupby(‘area_level’).agg({‘面积’:’sum’,’面积’:’mean’,’单价(平方米)’:’mean’,’价格(W)’:’mean’})

类似SQL中：

Select userid,max(monitortime),avg(prince) from student group by userid

10、在字段中对数据进行模糊匹配，类似sql中like

1、筛选某字段以G开头的数据

euro12[euro12.Team.str.startswith(‘G’)]

2、筛选某字段以G结束的数据

euro12[‘Team’].str.endwith(‘G’)

11、数据筛选，类似sql中like

1、选取队名为’England’,’Italy’,’Russia’ 的所有数据

Euro12[euro12[‘Team’].isin([‘England’,’Italy’,’Russia’])]

2、筛选不是欧洲队的所有数据

Euro12[~euro12[‘Team’] == ‘欧洲队’)]

3、筛选小区名称有”阳光”二字的所有小区数据

【方法一】

df1[df1[‘小区名称’].str.contains(‘阳光’)]

【方法二】

df[df[“小区名称”].str.contains(r’.?阳光.‘)]

【方法三】

df[df[“小区名称”].isin([“阳光”])]

类似sql中 select * from df where 小区名称 like ‘%阳光%’

3、筛选小区名称有”阳光”或者’雅居’二字的所有小区数据

df1[df1[‘小区名称’].str.contains(‘阳光|雅居’)]

类似where 小区名称 like ‘%阳光%’or 小区名称 like ‘%雅居%’

4、选取以字母G开头的球队数据

euro12[euro12.Team.str.startswith(‘G’)]

12、多个数据条件筛选，类似sql中and 、or

1、筛选时间大于2019-3-12并且小于2019-12-12所有数据

df[(df.create_date>= ‘2019-3-12’) & (df.create_date

Original: https://blog.csdn.net/weixin_39900437/article/details/113968951
Author: weixin_39900437
Title: python中的pandas的两种基本使用_python基础3:Pandas中常用操作

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/741310/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于FFmpeg的Java视频Mp4转GIF初探

背景在一些业务场景中，会有如下的一些要求：比如有用户需要将Mp4视频转为Gif动图。当然有一些小伙伴说可以使用系统截图，然后使用之前提到过的技术：GIF图像动态生成-JAVA后台…

Python 2023年10月7日
0050
【Python Web实战】Python Flask的静态路由和动态路由

路由分为静态和动态两种，静态路由就是在上一节使用的路由，直接使用@app.route定义，route的参数值就是路由，也就是在浏览器地址栏中输入Url的路径。例如，@app.rou…

Python 2023年8月15日
0040
HTTP and Flask Basics – Introduction to Curl and Chrome Dev Tools

Chrome Dev ToolsIf you want to check how your requests are being sent, and what the respon…

Python 2023年8月11日
0062
MongoDB下载安装教程（Windows）

文章目录 * – MongoDB下载安装教程（Windows） – + * 1. 下载过程 * 2. 安装过程 * 3. 配置 * 4. 启动 * 5. 添…

Python 2023年9月16日
0039
cookie和seesion的区别和联系

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

Python 2023年6月12日
0077
计算机毕业设计Python+Django的寻人失物失物招领系统(源码+系统+mysql数据库+Lw文档）

运行环境开发语言：Pythonpython框架：django软件版本：python3.7数据库：mysql 5.7数据库工具：Navicat11开发软件：PyCharm/vsco…

Python 2023年8月5日
0074
apply、map和applymap的区别和使用

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档 pandas中apply、map、applymap三个函数的区别以及使用方式 apply()可以作用在series…

Python 2023年8月21日
0041
什么 ? 陪玩都月入过忘拉~这不得python采集一下

Original: https://www.cnblogs.com/Qqun261823976/p/16811562.htmlAuthor: python倩Title: 什么 ? …

Python 2023年10月31日
0038
多道技术、同步异步和阻塞非阻塞

前期需要储备的知识点并发看起来同时运行的就可以称之为并发，其实内部是做了0.1秒A，做了0.1秒B，交替进行运作，看起来像是一起运作的。并行真正意义上的同时执行补充 1….

Python 2023年11月1日
0028
python 自动化办公之批量修改文件名

1. 程序背景 2. 程序要求 3. 解决思路需要用到 os、re 和 shutil 三个库，均为系统自带，无需安装使用 os 库得到年份的文件夹名，以及年份文件夹中的文件名 …

Python 2023年5月25日
0068
简单的利用boost.python 和 boost.numpy 实现python和c++之间数据通信例子

boost.python对c++很友好，甚至能直接将python的一些数据结构 list（列表），dict（字典）和相互嵌套等数据传输到c++，boost.numpy也方便pyth…

Python 2023年8月29日
0086
python编程比赛_用Python编程分析4W场球赛后，2018世界杯冠军竟是…

比赛已经开始，我们不妨用 Python 来对参赛队伍的实力情况进行分析，并大胆的预测下本届世界杯的夺冠热门球队吧！通过数据分析，可以发现很多有趣的结果，比如：找出哪些队伍是首次…

Python 2023年8月19日
0036
python用matplotlib显示数据

python用matplotlib显示数据文章目录 python用matplotlib显示数据前言一、Python的数据显示二、实现步骤总结前言数据可视化是数据处理过…

Python 2023年9月3日
0040
软件设计模式白话文系列（十一）享元模式

以共享的方法高效地支持大量细粒度对象的复用。在 Java 中，通过提前初始化对象或者首次使用后记录对象，后续使用就可以复用对象来实现享元模式。类似缓存技术。享元对象：可复用对象。…

Python 2023年10月15日
0034
python射击代码_如何在Python编写的游戏中射击无限子弹？

我的游戏有一个很长的代码，但我会粘贴在重要的部分，即子弹射击部分。游戏本质上是一个致命的Kombat风格的游戏，但有飞行机器人和子弹。在在游戏循环之前，我首先预定义了子弹和机器人…

Python 2023年9月21日
0058
天池数据-耳机情感分析

import numpy as np import pandas as pd import matplotlib import matplotlib.pyplot as plt i…

Python 2023年8月22日
0056

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python中的pandas的两种基本使用_python基础3:Pandas中常用操作

因为原始数据不包含表头，所以需要赋予”names”。字符串是空格分割，用”\s+”表示匹配任意空白符。

导入模块

创建连接

读取数据

data.to_csv(‘data.csv’,index = False)

data.to_excel(‘data.xlsx’,index=False)

不用在数据库中建表，在导入过程中会自动在数据库中建表

data.to_sql(‘data’,con = conn)

ascending = False,降序

ascending = True,升序

类似sql中 select * from df where 小区名称 like ‘%阳光%’

类似where 小区名称 like ‘%阳光%’or 小区名称 like ‘%雅居%’

大家都在看