pandas之数据的合并与分组

2023年8月16日上午11:08 • Python • 阅读 40

文章目录

*
– 数据合并之merge
– 数据合并之join
– 示例
– 分组
– 索引和复合索引
–
+ 简单的索引操作
+ Series复合索引
+ DataFrame复合索引
– 生成一段时间范围
– pandas重采样

示例
问题

：统计电影分类genre的情况，应该如何处理数据

思路： 重新构造一个全为0的数组，列名为分类，如果某一条数据中分类出现过，就让0变为1


import pandas as pd
from matplotlib import pyplot as plt
import numpy as np
file_path = './dataCSV/data.csv'
df = pd.read_csv(file_path)
print(df["Genre"].head(3))

temp_list = df["Genre"].str.split(",").tolist()
genre_list = list(set([i for j in temp_list for i in j]))

zeros_df = pd.DataFrame(np.zeros((df.shape[0],len(genre_list))),columns=genre_list)

for i in range(df.shape[0]):
    zeros_df.loc[i,temp_list[i]] = 1

gener_count= zeros_df.sum(axis=0)
print(gener_count)

gener_count = gener_count.sort_values()
_x = gener_count.index
_y = gener_count.values

plt.figure(figsize=(20,8),dpi=80)
plt.bar(range(len(_x)),_y,width=0.4)
plt.xticks(range(len(_x)),_x)
plt.show()

数据合并之merge

; 数据合并之join

示例

import numpy as np
import pandas as pd

df1= pd.DataFrame(np.ones((2,4)),index=["A","B"],columns=list("abcd"))
print(df1)
print("*"*100)
df2 = pd.DataFrame(np.zeros((3,3)),index=["A","B","C"],columns=list("xyz"))
print(df2)
print("*"*100)
print(df1.join(df2))
print("*"*100)
print(df2.join(df1))
print("*"*100)

df3 = pd.DataFrame(np.arange(9).reshape((3,3)),columns=list("fax"))
print(df3)
print("*"*100)
print(df1.merge(df3,on="a"))
print("*"*100)
df1.loc["A","a"] = 100
print(df1)
print("*"*100)
print(df1.merge(df3,on="a"))
print("*"*100)

print(df1.merge(df3,on='a',how="inner"))
print("*"*100)

print(df1.merge(df3,on='a',how="outer"))
print("*"*100)

print(df1.merge(df3,on='a',how="left"))
print("*"*100)

print(df1.merge(df3,on='a',how="right"))
print("*"*100)

运行结果：

分组

grouped = df.groupby(by="columns_name")
grouped是一个 DataFrameGroupBy对象，是 可迭代的，grouped中的每一个元素是 一个元组，元组里面是 (索引(分组的值)， 分组之后的DataFrame)

import pandas as pd

file_path = './dataCSV/data.csv'
df = pd.read_csv(file_path)
grouped = df.groupby(by="Country")
print(grouped)

df[df["Country"]=="US"]

country_count = grouped["Brand"].count()
print(country_count["US"])

china_data = df[df["Country"] == "CN"]
grouped = china_data.groupby(by="State/Province").count()["Brand"]
print(grouped)

grouped = df["Brand"].groupby(by=[df["Country"],df["State/Province"]]).count()
print(grouped)
print(type(grouped))

grouped1 = df[["Brand"]].groupby(by=[df["Country"],df["State/Province"]]).count()
grouped2 = df.groupby(by=[df["Country"],df["State/Province"]])[["Brand"]].count()
grouped3 = df.groupby(by=[df["Country"],df["State/Province"]]).count()[["Brand"]]

① 返回Series类型：

② 返回DataFrame类型：

索引和复合索引

简单的索引操作

获取index: df.index
指定index: df.index = ['x','y']
重新设置index: df.reindex(list("abcdef"))
指定某一列作为index: df.set_index("Country",drop=False)
返回index的唯一值: df.set_index("Country").index_unique()

Series复合索引

此外：

; DataFrame复合索引

生成一段时间范围

pd.date_range(start=None,end=None,periods=None,freq='D')
①start和end以及freq配合能够 生成start和end范围内以 频率freg的一组时间索引
②start和periods以及freq配合能够生成从start开始的频率为freq的 periods个时间索引

关于频率的缩写：

示例：在DataFrame中使用时间序列

index=pd.date_range(" 20170101" ,periods=10)
df = pd.DataFrame(np.random.rand(10),index=index)

format参数大部分情况下可以不用写，但是对于pandas无法格式化的时间字符串，我们可以使用该参数，比如包含中文

df["timeStamp"] = pd.to_datetime(df"timeStamp" ],format=")

pandas重采样

重采样:指的是将时间序列从 一个频率转化为另一个频率进行处理的过程,将 高频率数据转化为低频率数据为 降采样， 低频率转化为高频率为 升采样

pandas提供了一个 resample的方法来帮助我们 实现频率转化

Original: https://blog.csdn.net/Cherry_Zj/article/details/126215703
Author: Cherry_Zj
Title: pandas之数据的合并与分组

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/751083/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

JavaScript 高级3（构造函数，原型-对象、继承）

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年9月30日
0072
四、Python数据挖掘（Pandas库）

四、Python数据挖掘（Pandas库）目录：四、Python数据挖掘（Pandas库） * – + 一、Pandas 简介二、Pandas 三大结构之——Da…

Python 2023年8月7日
0049
《Spatial-Spectral T ransformer for Hyperspectral Image Classification》论文笔记

论文题目《Spatial-Spectral T ransformer for Hyperspectral Image Classification》论文作者：Xin He 1 , …

Python 2023年10月25日
0042
U盘格式化后能恢复数据吗？U盘删除的数据还能恢复吗

U盘格式化后能恢复数据吗？通常情况下，我们U盘里的数据丢失后，它们并没有立即消失，它们只是被系统做了一个标记，将数据存储的位置标记成可写入的状态，只有当新数据写入的时候，这个存储位…

Python 2023年9月26日
0033
Python-爬虫基础六（异常）

什么是异常？异常即是一个事件，该事件会在程序执行过程中发生，影响了程序的正常执行。一般情况下，在Python无法正常处理程序时就会发生一个异常。异常是Python对象，表示一…

Python 2023年6月12日
0060
【Pandas 基础知识 GroupBy分组】

前言本文通过图解Pandas groupby分组机制，介绍了Pandas对Series,DataFrame分组的基础知识和groupby对象的两个重要属性；总结了分组的万能公式和…

Python 2023年8月9日
0035
[selenium]等待

selenium显式等待、隐式等待和期望条件前言当网络不稳定或应用页面加载有问题，可以设置等待，避免网络问题导致找不到元素等异常。隐式等待隐式等待设置的是最长等待时间，如果…

Python 2023年11月2日
0035
python读取html文件中的表格数据_使用解析html表pd.read_html文件其中单元格本身包含完整表…

不能使用^{}读取嵌套表，但可以滚动自己的html阅读器，并对表单元格使用read_html：import pandas as pd import bs4 with open(&#…

Python 2023年8月9日
0065
python项目制作镜像并启动_Python项目：制作一个飞机大战游戏1

学习本项目，你会了解到，如何通过python 制作一个游戏。制作游戏并不简单，所以我们可能会用较多篇文章来讲诉如何制作一个游戏，请大家持续关注哦；飞机大战项目效果安装pygam…

Python 2023年9月24日
0047
王心凌再次爆火，为了防止收费，我连夜用Python把她所有的MV离线

《乘风破浪的姐姐3》王心凌一骑绝尘，破收视率，多年后再次全网爆火，某音截止现在差不多3500W粉丝，五月份热门女星排名，吊打其它所有人，不愧是我女神！但是这个热度，感觉她的歌曲和…

Python 2023年11月2日
0043
Netty（一）- Netty与BIO、NIO、AIO介绍

文章目录一、Netty的介绍二、Netty的应用场景 * 1. 互联网行业 2. 游戏行业 3. 大数据领域三、I/O模型 * 1. Java BIO – （1）…

Python 2023年9月15日
0044
迭代器

Python 2023年5月24日
0068
【Android App】在线语音识别功能实现（使用云知声平台与WebSocket 超详细附源码）

需要源码和相关资源请点赞关注收藏后评论区留下QQ~~~ 一、在线语音识别云知声的语音识别同样采用WebSocket接口，待识别的音频流支持MP3和PCM两种格式，对于在线语音识别…

Python 2023年9月30日
0059
dataframe存到mysql中_pandas实现to_sql将DataFrame保存到数据库中

在数据分析时，我们有中间结果，或者最终的结果，需要保存到数据库中；或者我们有一个中间的结果，如果放到数据库中通过sql操作会更加的直观，处理后再将结果读取到DataFrame中。这…

Python 2023年8月18日
0059
腾讯云部署服务器进行网站搭建（Django）

文章目录腾讯云部署服务器进行网站搭建（Django） * – + * – Author:Luis – Time:2022-04-08 &#82…

Python 2023年8月4日
0056
sklearn库安装方法

Sklearn (全称 Scikit-Learn) 是基于 Python 语言的机器学习工具，是机器学习中的常用第三方模块。它建立在 NumPy, SciPy和 Matplotli…

Python 2023年8月2日
0097

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30