pandas数据处理

2023年7月7日上午7:59 • 人工智能 • 阅读 92

pandas数据处理

对数据进行分类统计排序
数据的合并
分组和聚合
索引和复合索引
分组，聚合及索引的应用

对数据进行分类统计排序

算法设计逻辑

从全部数据中选取电影分类数据Gerne
将gerne数据处理成电影类型名称集合
构造values全为0的电影数量 x 电影类型的 DataFrame
将各符合电影种类的电影类型对应位置Values设为1
各类电影所在列值相加，得到各类电影的总数
画图

import pandas as pd
from matplotlib import pyplot as plt
import numpy as np

file_path = './IMDB-Movie-Data.csv'
df = pd.read_csv(file_path)
print(df.head(1))
print(df.info())

print(df['Genre'])
#&#x7EDF;&#x8BA1;&#x5206;&#x7C7B;&#x7684;&#x5217;&#x8868;
temp_list = df['Genre'].str.split(',').tolist()
print('temp_list')
print(temp_list)
gerne_list = list( set([i for j in temp_list for i in j ]))

print('gerne_list')
print(gerne_list)

zeros_df = pd.DataFrame(np.zeros((df.shape[0],len(gerne_list))),columns = gerne_list)
print('zeros_df')
print(zeros_df)

for i in range(df.shape[0]):
    zeros_df.loc[i,temp_list[i]] = 1

print(zeros_df.head(4))
gerne_count = zeros_df.sum(axis=0)
print('gerne_count')
print(gerne_count)

gerne_count = gerne_count.sort_values(ascending=True)
print('gerne_count')
print(gerne_count)
_x = gerne_count.index
_y = gerne_count.values

plt.figure(figsize=(20,8),dpi=80)
plt.bar(range(len(_x)),_y)
plt.xticks(range(len(_x)),_x)
plt.show()

数据的合并

使用join，merge合并数据
合并数据时，join（）中没有的数据用NAN代替

import  numpy as np
import pandas as pd

list1 = np.array([[1,2,3],[4,4,5],[6,346,63],[235,564,5]])
print(list1)
print(list1.shape[0])
print(list1.shape[1])

df1 = pd.DataFrame(np.ones((2,4)),index = ['A','B'],columns=list('abcd'))
df2 = pd.DataFrame(np.ones((3,3)),index =['A','B','C'],columns=list('xyz'))
df3 = pd.DataFrame(np.zeros((3,3)),columns = list('fax'))

print('df1')
print(df1)
print('df2')
print(df2)
print('df3')
print(df3)
t1 = df1.join(df2)
t2 = df2.join(df1)
t3 = df1.merge(df3,on='a')
print(t1)
print(t2)
print(t3)

使用merge合并数据时，数据将按照指定的方式进行合并

df4.loc['A','c']= 'a'
df4.loc['B','c']= 'c'
df4.loc['C','c']= 'c'
print('df4')
print(df4)

df5.loc['A','x']='c'
df5.loc['B','x']='d'
print('df5')
print(df5)

t1 = df4.merge(df5,left_on='c',right_on='x',how='inner')
print('t1')
print(t1)

how=’inner’: 取交集（默认连接方式）
pandas数据处理

how=’outer’：取并集
how=’left’：按照左侧数据连接
how=’right’：按照右侧数据连接

分组和聚合

import pandas as pd
import numpy as np

file_path = './starbucks_store_worldwide.csv'
df = pd.read_csv(file_path)

print(df.head(1))
print(df.info())

grouped = df.groupby(by='Country')
print('grouped')
print(grouped)

for i,j in grouped:
    print(i)
    print('-'*100)
    print(j)
    print("*"*100)

us_data = df[ df['Country'] =='US']
# print(us_data)
#
country_count = grouped['Brand'].count()
print(country_count['US'])
print(country_count['CN'])

&#x7EDF;&#x8BA1;&#x4E2D;&#x56FD;&#x6BCF;&#x4E2A;&#x7701;&#x4EFD;&#x7684;&#x5E97;&#x94FA;&#x7684;&#x6570;&#x91CF;
china_data = df[df['Country'] == 'CN']
grouped_china = china_data.groupby(by = 'State/Province').count()['Brand']
#
print(grouped_china)

&#x6570;&#x636E;&#x6309;&#x7167;&#x591A;&#x4E2A;&#x6761;&#x4EF6;&#x8FDB;&#x884C;&#x5206;&#x7EC4;
multi_grouped = df['Brand'].groupby(by = [df['Country'],df['State/Province']]).count()
print(multi_grouped,type(multi_grouped))
print("*"*100)

multi_grouped1 = df[['Brand']].groupby(by = [df['Country'],df['State/Province']]).count()
multi_grouped2 = df.groupby(by = [df['Country'],df['State/Province']])[['Brand']].count()
multi_grouped3 = df.groupby(by = [df['Country'],df['State/Province']]).count()[['Brand']]
print(multi_grouped1,type(multi_grouped1))
print("*"*100)
print(multi_grouped2,type(multi_grouped2))
print("*"*100)
print(multi_grouped3,type(multi_grouped3))
print("*"*100)

&#x7D22;&#x5F15;&#x7684;&#x65B9;&#x6CD5;&#x548C;&#x5C5E;&#x6027;
print(multi_grouped3.index)

关于groupby用法详解，找到了一篇不错的文章: link.

索引和复合索引

import pandas as pd
import numpy as np

df1 = pd.DataFrame([[100,1,1,1],[1,1,1,1]],index=['A','B'],columns=list('abcd'))
print('--------------1---------------')
print(df1)

df1.index = ['X','Y']
print('--------------2----------------')
print(df1)
print('--------------3----------------')
print(df1.reindex(list('Xdef'))) #reindex&#x4E0D;&#x4F1A;&#x6539;&#x53D8;df1&#x7684;&#x7D22;&#x5F15;
print('---------------4----------------')
print(df1.set_index(['c','d'],drop=False))#set_index&#x4E0D;&#x4F1A;&#x6539;&#x53D8;df1&#x7684;&#x503C;

a = pd.DataFrame({'a':range(7),'b':range(7,0,-1),'c':['one','one','one','one','two','two','two'],'d':list('hjklmno')})
print('---------------5----------------')
print(a)

a1&#x662F;Dataframe
a1 = a.set_index(['c','d'])
print('----------a1-----------')
print(a1)

a2 = a1['a']
print('--------------a2-----------')
print(a2)

a3 = a2['one']
a4 = a2['two']['m']
print('-----------a3----------')
print(a3)
print('-----------a4----------')
print(a4)

c&#x662F;series
c = a.set_index(['c','d'])['a']
## cc&#x662F;DataFrame
cc = a.set_index(['c','d'])[['a']]
print('--------------c------------')
print(c)
print('--------------cc-----------')
print(cc)
#series&#x53D6;&#x7D22;&#x5F15;&#xFF0C;&#x76F4;&#x63A5;&#x53D6;
print(c['one','k'])
#Dataframe&#x53D6;&#x7D22;&#x5F15;&#xFF0C;&#x4F7F;&#x7528;&#x6807;&#x7B7E;
print('Dataframe&#x53D6;&#x503C;')
print(a1.loc['one'].loc['j'])

a1&#x4EA4;&#x6362;&#x91CC;&#x5916;&#x5C42;&#x7D22;&#x5F15;
c1 = a1.swaplevel()
print('c1')
print(c1)

分组，聚合及索引的应用

Task1 将店铺中数量排名前25的省份及店铺数量画图表示

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
from matplotlib import font_manager

my_font = font_manager.FontProperties(fname="C:\Windows\Fonts\STXINGKA.TTF")
file_path = './starbucks_store_worldwide.csv'
df = pd.read_csv(file_path)

data1 = df.groupby(by='Country').count()['Brand'].sort_values(ascending=False)[:10]
print(data1)
data2 = df[df['Country'] == "CN"].groupby(by='City').count()['Brand'].sort_values(ascending=False)[:25]
print(data2)

_x1 = data1.index
_y1 = data1.values

_x2 = data2.index
_y2 = data2.values

plt.figure(figsize=(18,15),dpi=80)
plt.bar(range(len(_x1)),_y1)
plt.xticks(range(len(_x1)),_x1)
plt.show()

plt.barh(range(len(_x2)),_y2,height=0.3,color='orange')
plt.yticks(range(len(_x2)),_x2,fontproperties=my_font)
plt.show()

Task2 不同年份书籍数量以及不同年份书籍的平均评分情况

import pandas as pd
from matplotlib import pyplot as plt

file_path = './books.csv'
df = pd.read_csv(file_path)

print(df.head(1))
print(df.info())

Task1-------------------------
data1 = df[pd.notnull(df['original_publication_year'])] #&#x5904;&#x7406;&#x7F3A;&#x5931;&#x6570;&#x636E;&#xFF1A;&#x5220;&#x6389;&#x7F3A;&#x5931;
booknumber_peryear = data1.groupby(by='original_publication_year').count()['id']
print('&#x6BCF;&#x5E74;&#x4E66;&#x7C4D;')
print(booknumber_peryear)
#-----------------------------------

data2 = df[pd.notnull(df['average_rating'])] #&#x5220;&#x6389;&#x7F3A;&#x5931;&#x6570;&#x636E;
average_rating = data2['average_rating'].groupby(by=data2['original_publication_year']).mean()
print('average_rating')
print(average_rating)

_x = average_rating.index
_y = average_rating.values

plt.figure(figsize=(20,8),dpi=80)
plt.plot(range(len(_x)),_y)
plt.xticks(list(range(len(_x)))[::10],_x[::10].astype(int),rotation=45)

plt.show()

Original: https://blog.csdn.net/Lyfyh1314/article/details/121407863
Author: Lyfyh1314
Title: pandas数据处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/675810/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

电蚊香长时间通电引发的86离线语音智能盒子的设计开发

人工智能 2023年5月23日
0095
【源码】YOLOv5云端API部署

简介这是一个YOLOv5的云端部署代码，其存在的主要目的是为了解决将YOLOv5训练出来的权重或者官方权重简单快速的部署上云服务或者Docker中，并且可以通过POST请求在任意…

人工智能 2023年7月10日
0066
数据预处理：数据离散化

数据离散化的应用场景和必要性针对时间数据的离散化针对多值离散数据的离散化针对连续数据的离散化针对连续数据的二值化参考资料：《Python数据分析与数据化运营》宋天龙数据…

人工智能 2023年5月31日
0099
设置pandas显示行数_Pandas 使用小技巧 No 23

Pandas 使用小技巧 23：系统配置如何 print一次只显示指定行数，指定列数。使用 pd.set_option方法，演示过程如下。首先创建一个 DataFrame: …

人工智能 2023年7月8日
00111
TensorFlow Slim 工具包使用

TensorFlow Slim是Google提供的图像分类工具包,不仅提供一些方便接口，包含使用tf_slim训练和评估几个广泛使用于图像识别的卷积神经网络 (CNN) 图像分类模…

人工智能 2023年5月25日
00150
《图像分割Unet网络分析及其Pytorch版本代码实现》

最近两个月在做学习图像分割方面的学习，踩了无数的坑，也学到了很多的东西，想了想还是趁着国庆节有时间来做个总结，以后有这方面需要可以来看看。神经网络被大规模的应用到计算机视觉中的分…

人工智能 2023年7月23日
0064
tensorflow-gpu2.6.0安装教程

硬件安装好显卡和电源后，启动电脑，安装驱动NVIDIA 驱动程序【在NIDIA官网下载】：重启电脑。查看显卡信息：显卡能支持的的CUDA版本为11.5，这是向下兼容的。也可…

人工智能 2023年5月25日
0089
excel回归分析结果解读

对于简单数据使用excel进行回归分析，操作简单,方法数据-分析工具-点击回归（ps.如果你的excel中没有数据分析这一选项，需要设置一下方法：文件-选项-加载项-勾选数据分…

人工智能 2023年7月25日
00101
DAMA数据管理知识体系指南-读书笔记5

一、引言定义：数据建模是发现、分析和确定数据需求的过程，然后采用数据模型的精确形式表示和传递这些数据需求。这个过程是循环迭代的，可能包括概念、逻辑和物理模型目标：确认并记录不同…

人工智能 2023年6月1日
0088
丢弃法(Dropout)——原理及代码实现

一、原理 1.1、动机一个好的模型需要对输入数据的扰动具有鲁棒性什么是一个”好”的预测模型？我们期待”好”的预测模型能在未知的…

人工智能 2023年6月23日
0072
天池下的瑞金医院MMC人工智能辅助构建知识图谱

浅谈知识图谱——天池下的瑞金医院MMC人工智能辅助构建知识图谱前言数据说明问题网络模型和效果展示代码 * 实体的定义和处理句子的切分和处理代码…

人工智能 2023年6月1日
00117
【入门教程】使用预训练模型进行训练、预测（以VGG16为例）

本文环境：win10、torch>=1.6 VGG16是一个简单的深度学习模型，可以实现图像的分类。PyTorch的库中有VGG16的模型构架，在torchvision.mo…

人工智能 2023年7月28日
0075
零基础入门语音识别-食物声音识别 Task01『Baseline学习』

文章目录介绍一、下载数据集二、导入数据三、建立模型四、卷积神经网络原理（CNN） * 卷积——提取特征池化层（下采样）——数据降维，避免过拟合全连接层——输出结果总…

人工智能 2023年5月27日
0080
PySpark数据分析基础：PySpark Pandas创建、转换、查询、转置、排序操作详解

目录前言一、Pandas数据结构 1.Series 2.DataFrame 3.Time-Series 4.Panel 5.Panel4D 6.PanelND 二、Pyspar…

人工智能 2023年7月6日
0087
python基础知识总结集合

来源：微点阅读 https://www.weidianyuedu.com Python是一种面向对象的解释型计算机程序设计语言。它有着代码简洁、可读性强的特点。代码简洁是因为它把许…

人工智能 2023年7月5日
0095
RRT算法原理和代码详解（快速扩展随机树）

文章目录优缺点伪代码具体流程效率问题代码优缺点优缺点先明说，优点RRT Star适用于任何地图，不像A Star，Dijkstra那样受限于栅格地图。缺点：1.找到的…

人工智能 2023年6月11日
0093

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas数据处理

pandas数据处理

大家都在看