数据分析第五周(DataFrame 数据的处理和聚合操作)

2023年8月20日上午9:23 • Python • 阅读 64

文章目录

用不同的方法处理 pandas 数据
用pandas处理整型数据并作直方图
用pandas 处理浮点型数据并做直方图
用 pandas 处理字符串(1)
用 pandas 处理字符串(2)
pandas 数据合并

用不同的方法处理 pandas 数据

import pandas as pd

def printf(t):
    print(t)
    print("-" * 80)

path = "F:\All date\IMDB-Movie-Data.csv"

date = pd.read_csv(path)

printf(date.info())

#-------------------------------------------------------------
#1. 求评分的平均分

printf(date["Rating"].mean())

#-------------------------------------------------------------
#2. 求导演的人数
date1 = date["Director"].values

printf(type(date))
printf(type(date["Director"]))
printf(type(date1))
"""
(列下标)          （.values）
pandas Dateframe -> series -> numpy
"""

printf(len(set(date1)))
#-------------------------------------------------------------
3.求演员的人数

date2 = date["Actors"].values

ls = []

for str1 in date2:
    for j in str1.split():
        ls.append(j)

printf(len(set(ls)))
#-------------------------------------------------------------

用pandas处理整型数据并作直方图

"""
之前处理数据都是手动造数据 ， 无法处理大规模数据
用 numpy (loadtxt) 处理数据无法处理非数值数据
而用 pandas 就很好的解决了这个问题 ， pandas 处理文件很方便
"""

from matplotlib import pyplot as plt
import matplotlib as mtb
import pandas as pd

def printf(t):
    print(t)
    print("-" * 80)

#实现中文输出
mtb.rcParams['font.sans-serif'] = ["SimHei"]
mtb.rcParams["axes.unicode_minus"] = False

path = "F:\All date\IMDB-Movie-Data.csv"

date = pd.read_csv(path)

#----------------------------------------------------------------------
printf(date.columns)
#注意这里要把那一维的   value  截取下来
dateruntime = date['Runtime (Minutes)'].values
printf(type(dateruntime))   #<class 'numpy.ndarray'>
#----------------------------------------------------------------------

#设置大小 和 分辨率
plt.figure(figsize = (15,5) , dpi = 80)

d = 10#组距

num = (dateruntime.max() - dateruntime.min())
printf(num)

plt.hist(dateruntime , [dateruntime.min() + i * d for i in range(num + 2)], color = "#FF7F50")

设置横坐标
plt.xticks(range(dateruntime.min() , dateruntime.max() + 2 * d , d))
plt.yticks(range(1,300,25))

#设置标签
plt.xlabel("电影时长")
plt.ylabel("数量")
plt.title("1000部电影电影时长情况分布统计")

设置网格 alpha 是清晰度
plt.grid(alpha = 0.3 , color = "#000000")

#显示图像
plt.show()

用pandas 处理浮点型数据并做直方图

from matplotlib import pyplot as plt
import matplotlib as mtb
import pandas as pd

def printf(t):
    print(t)
    print("-" * 80)

#实现中文输出
mtb.rcParams['font.sans-serif'] = ["SimHei"]
mtb.rcParams["axes.unicode_minus"] = False

path = "F:\All date\IMDB-Movie-Data.csv"

date = pd.read_csv(path)

#----------------------------------------------------------------------
printf(date.columns)
#注意这里要把那一维的   value  截取下来
daterate = date["Rating"].values
printf(type(dateruntime))   #<class 'numpy.ndarray'>
#----------------------------------------------------------------------

#设置大小 和 分辨率
plt.figure(figsize = (15,5) , dpi = 80)

d = 0.7#组距

num = (daterate.max() - daterate.min())
printf(num)

num = int(num)

plt.hist(daterate , [daterate.min() + i * d for i in range(num + 2)], color = "#FF7F50")

设置横坐标

st = daterate.min()

print(type(st))

浮点型的数据用range函数不好处理 ， 要用列表来处理
_x = [daterate.min() + i * d for i in range(num + 2)]

plt.xticks(_x)
plt.yticks(range(1,300,25))

#设置标签
plt.xlabel("电影得分")
plt.ylabel("数量")
plt.title("1000部电影得分情况分布统计")

设置网格 alpha 是清晰度
plt.grid(alpha = 0.3 , color = "#000000")

#显示图像
plt.show()

用 pandas 处理字符串(1)

import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
import matplotlib as mtb

#实现中文输出
mtb.rcParams['font.sans-serif'] = ["SimHei"]
mtb.rcParams["axes.unicode_minus"] = False

plt.figure(figsize = (15,5) , dpi = 80)

def printf(t):
    print(t)
    print("-" * 80)

path = "F:\All date\IMDB-Movie-Data.csv"
date = pd.read_csv(path)

Genre 分类情况
print(date.info())

printf(date["Genre"].values)

#------------------------------------------------------------------------------
Gdate = date["Genre"].values

print(type(Gdate))

book = {}

for str1 in Gdate:
    for j in str1.split(','):
        book[j] = book.get(j,0) + 1

datenum = pd.Series(book)
#------------------------------------------------------------------------------

printf(datenum)
_x = datenum.index
_y = datenum.values

plt.bar(_x , _y ,  width = 0.5, color = "#4B0082" )

plt.yticks(range(0,600,50))

plt.xlabel("标签类别")
plt.ylabel("数量")
plt.title("不同标签电影数量")

plt.grid(alpha = 0.3 , color = "#000000")

plt.show()

#------------------------------------------------------------------------------

printf(ls)

用 pandas 处理字符串(2)

import numpy as np
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import matplotlib as mtb

#实现中文输出
mtb.rcParams['font.sans-serif'] = ["SimHei"]
mtb.rcParams["axes.unicode_minus"] = False

plt.figure(figsize = (15,5) , dpi = 80)

def printf(t):
    print(t)
    print("-" * 80)

path = "F:\All date\IMDB-Movie-Data.csv"
date = pd.read_csv(path)

datelist =  date["Genre"].str.split(",").tolist() # 列表嵌套列表

print(datelist)

ls = list(set([j for i in datelist for j in i])) #去重生成列

print(ls)
print(date.shape[0])

生成一个全为 0 的表格
zero_list = pd.DataFrame(np.zeros((date.shape[0] , len(ls))) , columns = ls)

print(zero_list)

#pandas 的切片和索引快速处理
for i in range(zero_list.shape[0]):
    zero_list.loc[i,datelist[i]] = 1

print(zero_list.shape[1])

datesum = zero_list.sum(axis = 0)

print(type(datesum))

datesum = datesum.sort_values(ascending = False)

_x = datesum.index
_y = datesum.values

plt.bar(_x , _y ,  width = 0.5, color = "#4B0082" )

plt.yticks(range(0,600,50))

plt.xlabel("标签类别")
plt.ylabel("数量")
plt.title("不同标签电影数量")

plt.grid(alpha = 0.3 , color = "#000000")

plt.show()

pandas 数据合并

"""
数据的合并
"""

import pandas as pd
import numpy as np

def printf(t):
    print(t)
    print('-' * 80)

#-----------------------join(行索引)--------------------------------------------------------------------------------
"""
join 按行索引合并 ， 类索引中不能出现相同 ， 不然会报错 ， 没有的位置填充    NAN
"""

d1 = pd.DataFrame(np.array(range(12)).reshape(3,4),index = ['F' , 'D' , 'B'] ,columns=list("abcd"))
d2 = pd.DataFrame(np.array(range(8,16)).reshape(2,4),index = ['A' , 'B' ] ,columns=list("sxhj"))

print(d1,d2,sep='\n')
printf(d1.join(d2))
printf(d2.join(d1))
#-------------------------------------------------------------------------------------------------------------------

#----------------------------merge(列索引)--------------------------------------------------------------------------

合并方式 on / letf_on / right_on
按照那一列进行合并 ， on 用在两边有相同列的时候 ， left_on / right_on  以两个不同列为基准
合并方式 inner / outer  默认 inner 取交集 , outer 取并集

d3 = pd.DataFrame(np.array([1.0 for i in range(12)]).reshape(3,4),index = ['A' , 'B' , 'C'] ,columns=list("MNOP"))
d3['O']['A'] = 'a'
d3['O']['B'] = 'b'
d3['O']['C'] = 'c'
printf(d3)
d4 = pd.DataFrame(np.array([1.0 for i in range(10)]).reshape(2,5),index = ['A' , 'B' ] ,columns=list("VWXYZ"))
d4['X']['A'] = 'c'
d4['X']['B'] = 'd'
printf(d4)

printf(d3.merge(d4 , left_on = 'O', right_on = 'X')) #默认取交集
printf(d3.merge(d4 , left_on = 'O', right_on = 'X' , how = 'inner')) #inner取交集
printf(d3.merge(d4 , left_on = 'O', right_on = 'X' , how = 'outer')) #outer取并集

printf(d3.merge(d4 , left_on = 'O', right_on = 'X' , how = 'left')) #inner取并集 但以左为全集
printf(d3.merge(d4 , left_on = 'O', right_on = 'X' , how = 'right')) #inner取交集 但以右为全集
#------------------------------------------------------------------------------------------------------------------

Original: https://blog.csdn.net/woshilichunyang/article/details/127498626
Author: .Ashy.
Title: 数据分析第五周(DataFrame 数据的处理和聚合操作)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/754689/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于Python3-Pygame的乒乓球游戏

游戏界面截图： ; 按键控制：空格：暂停/开始W：上S：下游戏玩法说明：开始游戏之后，按键盘W/S按键控制球拍上下移动，接住球即可继续游戏，没接住的话游戏结束。结束后按…

Python 2023年9月20日
0075
conda简记

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年9月9日
0058
python-pandas用法大全

目录 1 修改 DataFrame 某一列的数据类型 2 读取和保存 3 特定值的替换 4 两个 DataFrame 的连接 * 4.1 join 4.2 某列作为拼接的依据 5 …

Python 2023年8月17日
0096
np.random.seed(), torch.manual_seed(args.seed)

seed()被设置了之后，np,random.random()可以按顺序产生一组固定的数组; 如果使用相同的seed()值，则每次生成的随机数都相同，如果不设置这个值，那么每次生成…

Python 2023年8月23日
0042
【目标检测】YOLOv5遇上知识蒸馏

前言模型压缩方法主要4种：网络剪枝(Network pruning) 稀疏表示(Sparse representation) 模型量化(Model quantification…

Python 2023年9月16日
0076
学习Python处理Excel 难度0级别多表合并、多条件筛选、找出重复项、去重

本代码要点：多表合并、多条件筛选、找出重复项、去重主题：计算特定两个时间周期内回店且消费的重复客户清单以及未再次回店的客户清单EXCEL工作表：一维表备注：假设会员姓名不存在重名；…

Python 2023年8月8日
0069
数理统计填空解析

解：(X_i \sim Exp(4)) ，则 [\pmb{ p(x) = 4e^{-4x}, \ F(x) = 1-e^{-4x}, \quad x \geq 0 } ] (X_{…

Python 2023年6月9日
00109
Linux0.11 考古笔记

Linux0.11 考古笔记最近读完《Linux 内核完全注释》和《品读 Linux0.11 核心代码》，大致理解下 Linux0.11 内核的全貌。在我理解这些属于计算机基础类…

Python 2023年9月30日
0064
Python中pd.to_datetime、groupby、range(len())

1 pd.to_datetime 2 groupby 2.1 groupby函数功能 2.3 举例 3 range(len()) 今日份笔记： 1 pd.to_datetime p…

Python 2023年8月20日
0060
flask+nginx+uwsgi部署服务器（详细保姆级教程）

从零开始部署flask项目概要准备工作 * 服务器 Xshell Xftp 7 部署flask * 方案选择 python3安装安装uwsgi 安装nginx nginx和u…

Python 2023年8月10日
0096
python制作动画为什么不动_Matplotlib动画不工作

我不能用Python运行matplotlib动画。我试着在Spyder上运行这个：import numpy as np from matplotlib import pyplot …

Python 2023年9月6日
0068
OpenPCDet 训练自己的数据集详细教程！

文章目录前言一、pcd转bin 二、labelCloud 工具安装与使用三、训练 * 仿写代码 – 对pcdet/datasets/custom/custom_d…

Python 2023年9月27日
0051
recv java_一直评估socket.recv（）

那么你很难理解你在这里尝试过的东西，你只有全局变量，命令式代码风格，而且一切都是交错的…我正在努力得到你需要的东西 . 我的代码不可能立即解决你的问题，但我希望它能帮助…

Python 2023年9月25日
0032
python库——pandas

官方文档：https://pandas.pydata.org/docs/安装 pip install pandas jupyter notebook安装 ! pip install…

Python 2023年8月8日
0062
【pytest官方文档】解读fixtures – 4. 一次请求多个fixtures、fixtures被多次请求

跟着节奏继续来探索fixtures的灵活性。在测试函数和fixture函数中，每一次并不局限于请求一个fixture。他们想要多少就可以要多少。下面是另一个简单的例子: impo…

Python 2023年9月14日
0063
【Linux从入门到放弃】Linux基本指令大全

🧑‍💻作者： @情话0.0📝专栏：《Linux从入门到放弃》👦个人简介：一名双非编程菜鸟，在这里分享自己的编程学习笔记，欢迎大家的指正与点赞，谢谢！ Linux基本指令一、文件目…

Python 2023年10月10日
0062

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

数据分析 第五周(DataFrame 数据的处理 和 聚合操作)

文章目录

大家都在看

数据分析第五周(DataFrame 数据的处理和聚合操作)