import pandas as pd
import numpy as np

file_path = "./IMDB-Movie-Data.csv"
df = pd.read_csv(file_path,delimiter=",")

#&#x5C06;&#x7535;&#x5F71;&#x5206;&#x7C7B;&#x8FD9;&#x4E00;&#x5217;&#x53D6;&#x51FA;&#x6765;
df1 = df["Genre"]
print(df1)
print("*"*100)

#&#x5C06;&#x6BCF;&#x4E2A;&#x7535;&#x5F71;&#x7C7B;&#x578B;&#x8F6C;&#x6362;&#x6210;&#x5217;&#x8868;&#x5F62;&#x5F0F;
temp_list = df["Genre"].str.split(",").tolist()
print(temp_list)

对电影类型去重

genre_list = list(set([j for i in temp_list for j in i]))#&#x53BB;&#x91CD;
print(genre_list)

构造全为0，行数为电影个数，列数为电影类型个数的DataFrame

#&#x6784;&#x9020;&#x5168;&#x4E3A;0&#x7684;&#x6570;&#x7EC4;(np.zeros(&#x884C;&#x6570;&#xFF0C;&#x5217;&#x6570;))
df_0 = pd.DataFrame(np.zeros((df.shape[0],len(genre_list))),columns=genre_list)
print(df_0)

出现类型的电影修改为1

#&#x7ED9;&#x6BCF;&#x4E2A;&#x7535;&#x5F71;&#x51FA;&#x73B0;&#x7C7B;&#x578B;&#x7684;&#x4F4D;&#x7F6E;&#x5C06;0&#x4FEE;&#x6539;&#x4E3A;1(df.shape[0]&#x8868;&#x793A;&#x7535;&#x5F71;&#x603B;&#x6570;)
for i in range(df.shape[0]):
    for j in temp_list[i]:
        df_0.loc[i,j]=1
#&#x6CE8;&#x91CA;&#x6389;&#x7684;&#x4E24;&#x884C;&#x7B49;&#x4EF7;&#x4E8E;
    #&#x5373;&#x53D6;&#x4E00;&#x884C;&#x591A;&#x5217;&#xFF0C;df_0[i,[" Romance"," War","Horror"]]
    df_0.loc[i,temp_list[i]]=1
print(df_0)

本剧电影类型统计电影数

#&#x7EDF;&#x8BA1;&#x6BCF;&#x4E2A;&#x5206;&#x7C7B;&#x7684;&#x7535;&#x5F71;&#x7684;&#x6570;&#x91CF;&#x548C;
genre_sum = df_0.sum(axis=0)#&#x884C;&#x65B9;&#x5411;&#x4E0A;&#x7684;&#x7EDF;&#x8BA1;&#x6C42;&#x548C;
print(genre_sum)

按照统计结果排序

#&#x6392;&#x5E8F;
genre_count = genre_count.sort_values(ascending=False)
print(genre_count)

绘制条形图

#&#x7ED8;&#x5236;&#x6761;&#x5F62;&#x56FE;
plt.figure(figsize=(20,8),dpi=80)
_x = genre_count.index
_y = genre_count.values
plt.barh(range(len(_x)),_y)
plt.yticks(range(len(_x)),_x)
plt.show()

完整代码

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

file_path = "./IMDB-Movie-Data.csv"
df = pd.read_csv(file_path,delimiter=",")

#&#x5C06;&#x7535;&#x5F71;&#x5206;&#x7C7B;&#x8FD9;&#x4E00;&#x5217;&#x53D6;&#x51FA;&#x6765;
df1 = df["Genre"]

#&#x5C06;&#x6BCF;&#x4E2A;&#x7535;&#x5F71;&#x7C7B;&#x578B;&#x8F6C;&#x6362;&#x6210;&#x5217;&#x8868;&#x5F62;&#x5F0F;
temp_list = df["Genre"].str.split(",").tolist()
genre_list = list(set([j for i in temp_list for j in i]))#&#x53BB;&#x91CD;

#&#x6784;&#x9020;&#x5168;&#x4E3A;0&#x7684;&#x6570;&#x7EC4;(np.zeros(&#x884C;&#x6570;&#xFF0C;&#x5217;&#x6570;))
df_0 = pd.DataFrame(np.zeros((df.shape[0],len(genre_list))),columns=genre_list)

#&#x7ED9;&#x6BCF;&#x4E2A;&#x7535;&#x5F71;&#x51FA;&#x73B0;&#x7C7B;&#x578B;&#x7684;&#x4F4D;&#x7F6E;&#x5C06;0&#x4FEE;&#x6539;&#x4E3A;1(df.shape[0]&#x8868;&#x793A;&#x7535;&#x5F71;&#x603B;&#x6570;)
for i in range(df.shape[0]):
    for j in temp_list[i]:
        df_0.loc[i,j]=1
#&#x6CE8;&#x91CA;&#x6389;&#x7684;&#x4E24;&#x884C;&#x7B49;&#x4EF7;&#x4E8E;
    #&#x5373;&#x53D6;&#x4E00;&#x884C;&#x591A;&#x5217;&#xFF0C;df_0[i,[" Romance"," War","Horror"]]
    df_0.loc[i,temp_list[i]]=1

#&#x7EDF;&#x8BA1;&#x6BCF;&#x4E2A;&#x5206;&#x7C7B;&#x7684;&#x7535;&#x5F71;&#x7684;&#x6570;&#x91CF;&#x548C;
genre_count = df_0.sum(axis=0)#&#x884C;&#x65B9;&#x5411;&#x4E0A;&#x7684;&#x7EDF;&#x8BA1;&#x6C42;&#x548C;

#&#x6392;&#x5E8F;
genre_count = genre_count.sort_values()

#&#x7ED8;&#x5236;&#x6761;&#x5F62;&#x56FE;
plt.figure(figsize=(20,8),dpi=80)
_x = genre_count.index
_y = genre_count.values
plt.barh(range(len(_x)),_y)
plt.yticks(range(len(_x)),_x)
plt.show()

数据合并

按照行索引合并join

join:默认情况下他是把 行索引相同的数据合并到一起，

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

#index&#x8868;&#x793A;&#x7684;&#x662F;&#x5217;&#x6807;&#x7B7E;&#xFF0C;columns&#x8868;&#x793A;&#x7684;&#x662F;&#x884C;&#x6807;&#x7B7E;
df1 = pd.DataFrame(np.ones((2,4)),index=["A","B"],columns=list("abcd"))
print(df1)
df2 = pd.DataFrame(np.ones((3,3)),index=["A","B","C"],columns=list("xyz"))
print(df2)
print("*"*100)

#&#x7528;.join&#x5C06;&#x4E24;&#x4E2A;&#x8868;&#x8FDE;&#x63A5;&#x8D77;&#x6765;
print("df1.join(df2)")
print(df1.join(df2))
print("df2.join(df1)")
print(df2.join(df1))

显然，df1.join(df2)的话总是以df1的index为总体的index，在df1的基础上加上df2

按照列索引合并merge

merge:按照指定的列把数据按照一定的方式合并到一起，

内连接

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

#index&#x8868;&#x793A;&#x7684;&#x662F;&#x5217;&#x6807;&#x7B7E;&#xFF0C;columns&#x8868;&#x793A;&#x7684;&#x662F;&#x884C;&#x6807;&#x7B7E;
df1 = pd.DataFrame(np.ones(((3,3))),index=["A","B","C"],columns=list("nmx"))
print("df1",df1)
df2 = pd.DataFrame(np.ones((3,3)),index=["A","B","C"],columns=list("xyz"))
print("df2",df2)
df3 = pd.DataFrame(np.zeros(((3,3))),index=["A","B","C"],columns=list("nmx"))
df3.loc["A","x"]=1
print("df3",df3)
print("*"*100)

#merge&#x5185;&#x8FDE;&#x63A5;&#xFF08;&#x4EA4;&#x96C6;&#x2229;&#xFF09;&#x9ED8;&#x8BA4;&#x60C5;&#x51B5;&#x4E0B;merge&#x505A;&#x5F97;&#x662F;&#x5185;&#x8FDE;&#x63A5;
print("&#x5185;&#x8FDE;&#x63A5;","&#x4E24;&#x4E2A;df&#x5728;x&#x5217;&#x6709;&#x4E00;&#x6837;&#x6570;&#x503C;","df1.merge(df2,on=x)")
print(df1.merge(df2,on="x"))#on&#x8868;&#x793A;&#x6309;&#x7167;&#x54EA;&#x4E00;&#x5217;&#x8FDE;&#x63A5;
print("&#x5185;&#x8FDE;&#x63A5;","&#x4E24;&#x4E2A;df&#x5728;x&#x5217;&#x5B58;&#x5728;&#x4E0D;&#x4E00;&#x6837;&#x7684;&#x6570;&#x503C;","df1.merge(df3,on=x)")
print(df1.merge(df3,on="x"))

外连接，左连接，右连接

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

#index&#x8868;&#x793A;&#x7684;&#x662F;&#x5217;&#x6807;&#x7B7E;&#xFF0C;columns&#x8868;&#x793A;&#x7684;&#x662F;&#x884C;&#x6807;&#x7B7E;
df1 = pd.DataFrame(np.ones(((3,3))),index=["A","B","D"],columns=list("nmx"))
print("df1",df1)
df2 = pd.DataFrame(np.zeros((3,3)),index=["A","K","C"],columns=list("xyz"))
print("df2",df2)
df3 = pd.DataFrame(np.zeros(((3,3))),index=["A","B","C"],columns=list("nmx"))
df3.loc["A","x"]=1
print("df3",df3)
print("*"*100)

#&#x5916;&#x8FDE;&#x63A5;&#x9700;&#x8981;&#x53C2;&#x6570;how="outer",&#x5185;&#x8FDE;&#x63A5;&#x65F6;&#xFF0C;how="inner"&#xFF08;&#x9ED8;&#x8BA4;&#xFF09;&#x5916;&#x8FDE;&#x63A5;&#x53D6;&#x5E76;&#x96C6;&#x222A;
print(df1.merge(df2,on="x",how="outer"))
#&#x4E00;&#x4E2A;&#x8868;&#x4E2D;&#x6709;&#xFF0C;&#x53E6;&#x4E00;&#x4E2A;&#x8868;&#x6CA1;&#x6709;&#xFF0C;&#x4E14;&#x4E24;&#x4E2A;&#x8868;&#x6570;&#x503C;&#x4E0D;&#x5B8C;&#x5168;&#x4E00;&#x6837;&#xFF0C;&#x7528;NaN&#x8868;&#x793A;

#&#x5DE6;&#x8FDE;&#x63A5;,&#x5217;&#x6839;&#x636E;df1&#x7684;&#x5217;&#x6765;&#xFF0C;&#x5373;&#x5DE6;&#x8FB9;&#x4E3A;&#x51C6;NaN&#x8865;&#x5168;
print("&#x5DE6;&#x8FDE;&#x63A5;")
print(df1.merge(df2,on="x",how="left"))
#&#x53F3;&#x8FDE;&#x63A5;&#xFF0C;&#x5217;&#x6839;&#x636E;df2&#x7684;&#x5217;&#x6765;&#xFF0C;&#x5373;&#x53F3;&#x8FB9;&#x4E3A;&#x51C6;NaN&#x8865;&#x5168;
print("&#x53F3;&#x8FDE;&#x63A5;")
print(df1.merge(df2,on="x",how="right"))

分组聚合案例之groupby

现在我们有一组关于全球星巴克店铺的统计数据，如果我想知道美国的星巴克数量和中国的哪个多，或者我想知道中国每个省份星巴克的数量的情况，那么应该怎么办？

grouped = df.groupby(by=”columns_name”)

grouped是一个DataFrameGroupBy对象，是可迭代的

grouped中的每一个元素是一个元组元组里面是（索引(分组的值)，分组之后的DataFrame）

groupby案例一

获取数据

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

file_path = "./starbucks_store_worldwide.csv"
df = pd.read_csv(file_path)
print(df.info())
print(df.head(1))

由上图数据的info()，首先我们需要看到数据的缺失情况，显然总数据有25600条，不够25600的说明有缺失。再看属性表示的什么。。。。（最左列）

用.count统计属性的个数

统计中国和美国星巴克数量

中国每个省份星巴克的数量的情况

#&#xA0;&#x4E2D;&#x56FD;&#x6BCF;&#x4E2A;&#x7701;&#x4EFD;&#x661F;&#x5DF4;&#x514B;&#x7684;&#x6570;&#x91CF;&#x7684;&#x60C5;&#x51B5;
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

#&#x83B7;&#x53D6;&#x6570;&#x636E;
file_path = "./starbucks_store_worldwide.csv"
df = pd.read_csv(file_path)

#&#x53D6;&#x51FA;&#x4E2D;&#x56FD;&#x7684;&#x6570;&#x636E;
cn_df = df[df["Country"]=="CN"]

#&#x6309;&#x7167;&#x7701;&#x5206;&#x7EC4;
grouped = cn_df.groupby(by="State/Province").count()
print(grouped["Brand"])

groupby案例二

#&#x7EDF;&#x8BA1;&#x661F;&#x5DF4;&#x514B;&#x7684;&#x6570;&#x91CF;&#xFF0C;&#x6309;&#x7167;&#x56FD;&#x5BB6;&#x548C;&#x7701;&#x4EFD;&#x8FDB;&#x884C;&#x5206;&#x7EC4;
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

#&#x83B7;&#x53D6;&#x6570;&#x636E;
file_path = "./starbucks_store_worldwide.csv"
df = pd.read_csv(file_path)

#&#x6570;&#x636E;&#x6309;&#x7167;&#x591A;&#x4E2A;&#x6761;&#x4EF6;&#x8FDB;&#x884C;&#x5206;&#x7EC4;
grouped = df.groupby(by=[df["Country"],df["State/Province"]]).count()
print(grouped["Brand"])
print(type(grouped["Brand"]))#<class 'pandas.core.series.series'>

#&#x4F7F;&#x5176;&#x8FD4;&#x56DE;DataFrame,&#x5728;"Brand"&#x4E0A;&#x591A;&#x52A0;&#x4E2A;&#x65B9;&#x62EC;&#x53F7;
#&#x6570;&#x636E;&#x6309;&#x7167;&#x591A;&#x4E2A;&#x6761;&#x4EF6;&#x8FDB;&#x884C;&#x5206;&#x7EC4;
grouped = df.groupby(by=[df["Country"],df["State/Province"]]).count()
print(grouped[["Brand"]])
print(type(grouped[["Brand"]]))
</class>

前两列都是索引，第三列是数据，之所以有两列索引是因为分组时有两个条件，整个数据是Series类型。

索引和复合索引

索引的简单操作

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

#index&#x8868;&#x793A;&#x7684;&#x662F;&#x5217;&#x6807;&#x7B7E;&#xFF0C;columns&#x8868;&#x793A;&#x7684;&#x662F;&#x884C;&#x6807;&#x7B7E;
df1 = pd.DataFrame(np.ones(((3,3))),index=["A","B","C"],columns=list("nmx"))
print(df1,df1.index)
print("*"*100)

#&#x4FEE;&#x6539;&#x7D22;&#x5F15;
df1.index = ["a","b","c"]
print(df1,df1.index)
print("*"*100)

#&#x91CD;&#x65B0;&#x8BBE;&#x7F6E;&#x7D22;&#x5F15;
print(df1.reindex(list("abx")))
print(df1,df1.index)
print("*"*100)

#&#x6307;&#x5B9A;&#x67D0;&#x4E00;&#x5217;&#x4F5C;&#x4E3A;&#x7D22;&#x5F15;,drop&#x8868;&#x793A;&#x662F;&#x5426;&#x5728;&#x6570;&#x636E;&#x4E2D;&#x5220;&#x9664;&#x8BE5;&#x7D22;&#x5F15;
print(df1.set_index("n",drop=False))
print(df1.index)
df1 = pd.DataFrame(np.ones(((3,3))),index=["A","B","C"],columns=list("nmx"))
print(df1.set_index("n"))
print(df1.index)
print("*"*100)

#&#x53EF;&#x4EE5;&#x8BBE;&#x7F6E;&#x4E24;&#x5217;&#x7D22;&#x5F15;
df1 = pd.DataFrame(np.ones(((3,3))),index=["A","B","C"],columns=list("nmx"))
print(df1)
print(df1.set_index(["n","m"]))
print("*"*100)

#&#x8FD4;&#x56DE;index&#x552F;&#x4E00;&#x503C;
print(df1)
print(df1.index.unique())
print(df1.loc["A"].unique())

Original: https://blog.csdn.net/weixin_45847320/article/details/125017253
Author: Savannah913
Title: 数据的合并和分组聚合

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/743687/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

ffmpeg库编译安装及入门指南（Windows篇）- 2022年底钜献

最近项目需要，使用了 ffmpeg 做摄像头视频采集和串流。这几天有点时间，打算把相关的一些知识记录分享一下。在撰写本文时，我又在另外一台电脑上把 ffmpeg 重新安装了一遍，…

Python 2023年10月13日
0052
计算机更喜欢清单型数据表！！！

清单型or报表型日常办公常常会见到两种类型的Excel数据表：清单型和报表型。如下图所示，你觉得哪张表格更好？（注：数据是假数据）你可能会想：表3最清楚啊！表2次之，表1数据最…

Python 2023年6月16日
0067
中国晶振市场规模将增长至2026年的263.21亿元，国产市场未来可期

晶振作为频率控制和频率选择基础元件，广泛应用于资讯设备、移动终端、通信及网络设备、汽车电子、智能电表、电子银行口令卡等领域，随着新兴电子产业、物联网的快速发展，及以 5G、蓝牙 5…

Python 2023年9月29日
0027
抖音同款课堂点名系统PyQt5写起来很简单

刷抖音的时候发现一个老师在用的课堂点名系统。用PyQt5实现了一下同款，导入学生姓名，测试了一下完美运行。【阅读全文】操作效果展示：完整的源代码块仍然放在本文的后面，所以您需…

Python 2023年5月24日
0098
python 常用的8种经典数据结构

python原生数据结构：元组Tuple()，列表List[]，集合Set{}，字典Dictionary{A:B}； NumPy包中的数据结构：数组Ndarray(带多种操作)，矩…

Python 2023年8月22日
0044
一个help函数解决了python的所有文档信息查看

在python中的交互式命令行中提供了help函数来查询各个模块，或是公共函数，或是模块下的函数接口等都可以使用help函数来查看接口文档。【阅读全文】但是，要查看这类文档仍然…

Python 2023年5月24日
0062
DPDK系列之一基础环境搭建

一、DPDK是什么 DPDK,Data Plane Development Kit，数据平面开发套装，它还有一个兄弟SPDK，专门用来做存储优化的。它主要运行于Linux，是由In…

Python 2023年11月5日
0036
Django3 Xadmin使用

配置了四个小时，参考了一堆文档，最后保留了三个比较完整的，能包含大部分问题的文档链接1 django3整合xadmin趟坑链接2 django xadmin一些报错链接3 djan…

Python 2023年8月6日
0054
python3GUI–打造一款音乐播放器By:PyQt5（附下载地址）

@ 一．准备工作 1.PyQt5 2.qtawesome 二．预览 1.启动 2.歌曲搜索 3.歌曲播放 4.评论查看 5.自定义背景 6.设置-基本设置 7.设置-高级设置 8….

Python 2023年6月12日
0075
python雪花代码讲解_Python程序：雪花+烟花

SnowFirework 本程序非原创，借鉴于网上流传甚广的烟花与雪花代码，本人只是将两段程序结合起来，并稍微调整了一下结构使其更加清晰，仅供学习之用，如有侵权，联系删除。本项目…

Python 2023年9月20日
0034
onps栈使用说明（2）——ping、域名解析等网络工具测试

协议栈提供ping工具，其头文件为”net_tools/ping.h”，将其include进你的目标系统中即可使用这个工具。 …&am…

Python 2023年10月15日
0055
爆品跟卖商家必读：2023年快速入局TikTok选品5大关键

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年11月6日
0027
pytest–环境初始化与数据清除

fixture的用途 pytest fixture 与setup,teardown功能一样，但比之更加灵活，完全可以代替setup,teardown 1.做测试前后的初始化设置，如…

Python 2023年9月11日
0053
pytorch中张量的创建和维度的操作

张量的运算是深度学习的基本操作，深度学习框架的重要功能之一就是支持张量的定义与运算。 1. 张量的数据类型数据pytorch类型CPU上的张量GPU上的张量32位浮点数torch…

Python 2023年8月28日
0056
ROS中进行大陆ARS408雷达点云的可视化及二次开发(一)

，可以使用RViz来数据。但是，如果您需要更高级的功能，可以使用VTK库来创建自定义的程序。下面是一个基本的VTK 程序： cpp #include</p> &l…

Python 2023年9月29日
0063
利用pandas拆分单元格并进行分组聚合

背景：最近指导老师布置了一个数据分析的任务要将三张表格进行整理得到错题的数目页行列表示错题的位置思路：我的思路是读取文件夹当中的文件名列表，然后利用for循环和panda…

Python 2023年8月7日
0051

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

数据的合并和分组聚合