pandas详解

2023年8月19日上午1:57 • Python • 阅读 47

视频教程

1.pandas的常用数据类型

1.Series 一维，带标签数组

2.DataFrame 二维，Series容器

2.pandas之Series创建

; 3.pandas之Series切片和索引

4.pandas之Series的索引和值

; 5.pandas之读取外部数据

我们的这组数据存在csv中，我们直接使用pd. read_csv即可

和我们想象的有些差别，我们以为他会是一个Series类型，但是他是一个DataFrame，那么接下来我们就来了解这种数据类型

小示例：

现在假设我们有一个组关于狗的名字的统计数据，那么为了观察这组数据的情况，我们应该怎么做呢？

import pandas as pd
df = pd.read_csv('./dogNames2.csv')
print(df)

效果展示

6.pandas之DataFrame

DataFrame对象既有行索引，又有列索引

行索引，表明不同行，横向索引，叫index，0轴，axis=0

列索引，表名不同列，纵向索引，叫columns，1轴，axis=1

那么回到之前我们读取的狗名字统计的数据上，我们尝试一下刚刚的方法

那么问题来了：

很多同学肯定想知道使用次数最高的前几个名字是什么呢？

df.sort_values(by="Count_AnimalName",ascending=*False*)

dataframe排序

import pandas as pd
df = pd.read_csv('./dogNames2.csv')
print(df)
print('*'*100)
print(df.head())
print('*'*100)
print(df.info())
print('*'*100)
print(df.describe())

&#x4EE5;Count_AnimalName&#x6765;&#x6392;&#x5E8F;&#xFF08;&#x9ED8;&#x8BA4;&#x5347;&#x5E8F;&#xFF09;
df = df.sort_values(by='Count_AnimalName')
ascending=True &#x4E3A;&#x5347;&#x5E8F;&#xFF0C;False&#x4E3A;&#x5012;&#x5E8F;
df = df.sort_values(by='Count_AnimalName',ascending=False)
print(df.head(10))

7.pandas之取行或者列

刚刚我们知道了如何给数据按照某一行或者列排序，那么现在我们想单独研究使用次数前100的数据，应该如何做？

df_sorted = df.sort_values(by="Count_AnimalName")

df_sorted[:100]

那么问题来了：

我们具体要选择某一列该怎么选择呢？ df[" Count_AnimalName "]

我们要同时选择行和列改怎么办？ df[:100][" Count_AnimalName "]

8.pandas之loc

还有更多的经过pandas优化过的选择方式：

1.df.loc 通过标签索引行数据

2.df.iloc 通过位置获取行数据

; 9.pandas之布尔索引

回到之前狗的名字的问题上，假如我们想找到所有的使用次数超过800的狗的名字，应该怎么选择？

回到之前狗的名字的问题上，假如我们想找到所有的使用次数超过700并且名字的字符串的长度大于4的狗的名字，应该怎么选择？

10.pandas之字符串方法

; 11.缺失数据的处理

观察下面这组数据

我们的数据缺失通常有两种情况：

一种就是空，None等，在pandas是NaN(和np.nan一样)另一种是我们让其为0，蓝色框中

对于NaN的数据，在numpy中我们是如何处理的？

在pandas中我们处理起来非常容易

判断数据是否为NaN： pd.isnull(df),pd.notnull(df)

处理方式1：删除NaN所在的行列 dropna (axis=0, how='any', inplace=False)

处理方式2：填充数据， t.fillna(t.mean()),t.fiallna(t.median()),t.fillna(0)

处理为0的数据： t[t==0]=np.nan

当然并不是每次为0的数据都需要处理

计算平均值等情况，nan是不参与计算的，但是0会

示例

假设现在我们有一组从2006年到2016年1000部最流行的电影数据，我们想知道这些电影数据中评分的平均分，导演的人数等信息，我们应该怎么获取？

import pandas as pd, numpy as np
from matplotlib import pyplot as plt

df = pd.read_csv('IMDB-Movie-Data.csv')
print(type(df))
print(df.info())
print(df.head())
print(df['Rating'].values)
print(df['Rating'].describe())
df['Rating'].mean()&#x4E3A;numpy&#x7C7B;&#x578B;&#x7684;&#x6570;&#x636E;&#xFF0C;&#x4E0D;&#x80FD;&#x4F7F;&#x7528;&#x5B57;&#x7B26;&#x4E32;&#x62FC;&#x63A5;&#xFF0C;&#x9700;&#x8981;&#x5148;&#x8F6C;&#x6362;&#x4E3A;&#x5B57;&#x7B26;&#x4E32;
&#x7535;&#x5F71;&#x8BC4;&#x5206;&#x5E73;&#x5747;&#x503C;
print('&#x7535;&#x5F71;&#x5E73;&#x5747;&#x5206;&#xFF1A;' + str(df['Rating'].mean()))
&#x5BFC;&#x6F14;&#x7684;&#x4EBA;&#x6570;
df['Director'].tolist()  #  python tolist()&#x65B9;&#x6CD5;:&#x5C06;&#x6570;&#x7EC4;&#x6216;&#x8005;&#x77E9;&#x9635;&#x8F6C;&#x6362;&#x6210;&#x5217;&#x8868;
set(df['Director'].tolist()) # &#x4F7F;&#x7528;set() &#x5C06;&#x6570;&#x7EC4;&#x53BB;&#x91CD;&#x5E76;&#x8F6C;&#x6362;&#x4E3A;set&#x96C6;&#x5408;&#xFF0C;&#x96C6;&#x5408;&#x662F;&#x4E00;&#x4E2A;&#x65E0;&#x5E8F;&#x7684;&#x4E0D;&#x91CD;&#x590D;&#x5143;&#x7D20;&#x5E8F;&#x5217;
print('&#x5BFC;&#x6F14;&#x4EBA;&#x6570;&#xFF1A;', len(set(df['Director'].tolist())))
&#x522B;&#x4E00;&#x79CD;&#x65B9;&#x6CD5;&#xFF1A;df['Director'].unique()&#x53EF;&#x4EE5;&#x5C06;df['Director']&#x53BB;&#x91CD;&#xFF0C;&#x5E76;&#x8FD4;&#x56DE;
print('&#x5BFC;&#x6F14;&#x4EBA;&#x6570;&#xFF1A;', len(df['Director'].unique()))
&#x7531;&#x4E8E;&#x6BCF;&#x4E00;&#x90E8;&#x7535;&#x5F71;&#x7684;&#x6F14;&#x5458;&#x6709;&#x591A;&#x4EBA;&#xFF0C;&#x6240;&#x4EE5;&#x5148;&#x4F7F;&#x7528;split(',')&#x4EE5;&#x9017;&#x53F7;&#x5206;&#x9694;&#xFF0C;&#x8BA9;&#x6BCF;&#x7EC4;&#x6570;&#x636E;&#x7684;&#x5B57;&#x7B26;&#x4E32;&#x91CD;&#x7EC4;&#x4E3A;&#x6570;&#x7EC4;
print('&#x6240;&#x6709;&#x6F14;&#x5458;&#x4E8C;&#x7EF4;&#x6570;&#x636E;&#xFF1A;')
print(df['Actors'].str.split(',').tolist())
temp_list = df['Actors'].str.split(',').tolist()
&#x5C06;&#x4E8C;&#x7EF4;&#x6570;&#x7EC4;&#x5C55;&#x5F00;
nums = [i for j in temp_list for i in j]
print('&#x6240;&#x6709;&#x6F14;&#x5458;&#x4E00;&#x7EF4;&#x6570;&#x7EC4;&#xFF1A;')
print(nums)
&#x6570;&#x7EC4;&#x53BB;&#x91CD;,&#x5E76;&#x53D6;&#x603B;&#x6570;
actors = len(set(nums))  # &#x4F7F;&#x7528;set&#x96C6;&#x5408;&#x7684;&#x7279;&#x70B9;&#x53BB;&#x91CD;
actors2 = len(pd.Series(nums).unique())  # &#x4F7F;&#x7528;pandas&#x7684;unique&#x65B9;&#x6CD5;&#x53BB;&#x91CD;
print('&#x53BB;&#x91CD;&#x540E;&#x6F14;&#x5458;&#x7684;&#x603B;&#x4EBA;&#x6570;&#xFF1A;', actors, actors2)
&#x7535;&#x5F71;&#x65F6;&#x957F;&#x7684;&#x6700;&#x5927;&#x6700;&#x5C0F;&#x503C;&#xFF1A;
max_runtime = df['Runtime (Minutes)'].max()
max_runtime_index = df['Runtime (Minutes)'].argmax()
min_runtime = df['Runtime (Minutes)'].min()
min_runtime_index = df['Runtime (Minutes)'].argmin()
runtime_median = df['Runtime (Minutes)'].median()

示例

对于这一组电影数据，如果我们希望统计电影分类(genre)的情况，应该如何处理数据？

思路：重新构造一个全为0的数组，列名为分类，如果某一条数据中分类出现过，就让0变为1

from matplotlib import pyplot as plt
import numpy as np
import pandas as pd

df = pd.read_csv('IMDB-Movie-Data.csv')
print(df['Genre'])
temp_list = df['Genre'].str.split(',').tolist()
print(temp_list)
&#x5229;&#x7528;set&#x5C55;&#x5F00;&#x4E8C;&#x7EF4;&#x5217;&#x8868;&#x5E76;&#x53BB;&#x91CD;
genre_list = list(set([i for j in temp_list for i in j]))
print(genre_list)
&#x6784;&#x9020;&#x5168;&#x4E3A;0&#x7684;DataFrame:df&#x4E00;&#x6837;&#x7684;&#x884C;&#x6570;&#xFF0C;&#x5206;&#x7C7B;&#x603B;&#x6570;&#x7684;&#x5217;&#x6570;&#xFF0C;&#x7D22;&#x5F15;&#x4E3A;&#x5206;&#x7C7B;&#x6570;&#x636E;genre_list
np.zeros((a,b))&#x91CC;&#x9762;&#x4F20;&#x7684;&#x662F;&#x5143;&#x7EC4;
zeros_df = pd.DataFrame(np.zeros((df.shape[0], len(genre_list))), columns=genre_list)
print(zeros_df)
for i in range(df.shape[0]):
    zeros_df.loc[i, temp_list[i]] = 1
&#x663E;&#x793A;&#x6240;&#x6709;&#x5217;
pd.set_option('display.max_columns', None)
&#x663E;&#x793A;&#x6240;&#x6709;&#x5217;
pd.set_option('display.max_columns', None)
#&#x663E;&#x793A;&#x6240;&#x6709;&#x884C;
pd.set_option('display.max_rows', None)
#&#x8BBE;&#x7F6E;value&#x7684;&#x663E;&#x793A;&#x957F;&#x5EA6;&#x4E3A;100&#xFF0C;&#x9ED8;&#x8BA4;&#x4E3A;50
pd.set_option('max_colwidth',100)
print(zeros_df.head(1))
&#x7EDF;&#x8BA1;&#x6BCF;&#x4E2A;&#x5206;&#x7C7B;&#x7684;&#x7535;&#x5F71;&#x7684;&#x6570;&#x91CF;&#x548C;
genre_count = zeros_df.sum(axis=0)
print(genre_count)
&#x6392;&#x5E8F;
genre_count = genre_count.sort_values()
&#x753B;&#x67F1;&#x72B6;&#x56FE;
_x = genre_count.index
_y = genre_count.values
plt.figure(figsize=(20, 8), dpi=80)
plt.bar(range(len(_x)), _y)
plt.xticks(range(len(_x)), _x)
plt.show()

12.数据合并之join

join:默认情况下他是把行索引相同的数据合并到一起

; 13.数据合并之merge

merge:按照指定的列把数据按照一定的方式合并到一起

示例：

现在我们有一组关于全球星巴克店铺的统计数据，如果我想知道美国的星巴克数量和中国的哪个多，或者我想知道中国每个省份星巴克的数量的情况，那么应该怎么办？

import numpy as np
import pandas as pd

df = pd.read_csv('starbucks_store_worldwide.csv')
print(df)
print(df.info())
df_country = df.groupby('Country')  # &#x751F;&#x6210;&#x4E00;&#x4E2A;DataFrameGroupBy object
print(df_country)
# &#x663E;&#x793A;&#x6240;&#x6709;&#x5217;
pd.set_option('display.max_columns', None)
# &#x904D;&#x5386;
# for i in df_country:
#     print(i) # &#x904D;&#x5386;&#x540E;&#x7684;&#x6BCF;&#x4E00;&#x4E2A;&#x6570;&#x636E;&#x90FD;&#x662F;&#x4E00;&#x4E2A;&#x5143;&#x7EC4;
#
# &#x7531;&#x4E8E;&#x904D;&#x5386;&#x540E;&#x7684;&#x6BCF;&#x4E00;&#x4E2A;&#x503C;&#x90FD;&#x662F;&#x5143;&#x7EC4;&#xFF0C;&#x6240;&#x4EE5;&#x8FD8;&#x53EF;&#x4EE5;&#x8FD9;&#x6837;&#x904D;&#x5386;
for i, j in df_country:
    print(i, j, type(j))  # i&#x4E3A;&#x56FD;&#x5BB6;&#x4FE1;&#x606F;&#xFF0C;j&#x4E3A;&#x4E00;&#x4E2A;DataFrame,&#x5176;&#x4E2D;&#x6240;&#x6709;&#x7684;country&#x5B57;&#x6BB5;&#x5747;&#x4E3A;i
    print('*' * 100)
#
# &#x8C03;&#x7528;&#x805A;&#x5408;&#x65B9;&#x6CD5;
print(df_country.count())  # count()&#x53EF;&#x4EE5;&#x7EDF;&#x8BA1;&#x6BCF;&#x4E2A;&#x5B57;&#x6BB5;&#x7684;&#x603B;&#x6570;
print(df_country['City'].count())  # &#x5355;&#x72EC;&#x7EDF;&#x8BA1;&#x4E00;&#x4E2A;&#x5B57;&#x6BB5;&#x7684;&#x603B;&#x6570;
#
"""
&#x5E73;&#x5747;&#x503C;&#xFF0C;&#x4E2D;&#x4F4D;&#x6570;&#x7B49;&#x65B9;&#x6CD5;&#x4E5F;&#x53EF;&#x4EE5;&#x4F7F;&#x7528;&#xFF0C;&#x4F46;&#x8FD9;&#x91CC;&#x4F7F;&#x7528;&#x6CA1;&#x6709;&#x610F;&#x4E49;&#xFF0C;&#x56E0;&#x4E3A;&#x90FD;&#x662F;&#x5B57;&#x7B26;&#x4E32;
count:&#x5206;&#x7EC4;&#x4E2D;&#x975E;NA&#x503C;&#x7684;&#x6570;&#x91CF;
sum:&#x975E;NA&#x7684;&#x548C;
mean:&#x975E;NA&#x503C;&#x7684;&#x5E73;&#x5747;&#x503C;
median:&#x975E;NA&#x503C;&#x7684;&#x7B97;&#x672F;&#x4E2D;&#x4F4D;&#x6570;
std&#x3001;var: &#x65E0;&#x504F;&#xFF08;&#x5206;&#x6BCD;&#x4E3A;n-a)&#x6807;&#x51C6;&#x5DEE;&#x548C;&#x65B9;&#x5DEE;
min,max:&#x975E;NA&#x503C;&#x7684;&#x6700;&#x5C0F;&#x503C;&#x548C;&#x6700;&#x5927;&#x503C; """
country_count = df_country['City'].count()
# &#x7F8E;&#x56FD;&#x548C;&#x4E2D;&#x56FD;&#x7684;&#x661F;&#x5DF4;&#x514B;&#x5E97;&#x94FA;&#x6570;&#x91CF;
print('&#x7F8E;&#x56FD;&#xFF1A;', country_count['US'])
print('&#x4E2D;&#x56FD;&#xFF1A;', country_count['CN'])

&#x7EDF;&#x8BA1;&#x4E2D;&#x56FD;&#x6BCF;&#x4E2A;&#x7701;&#x4EFD;&#x7684;&#x661F;&#x5DF4;&#x514B;
china_data = df[df['Country'] == 'CN']  # &#x53D6;&#x51FA;&#x4E2D;&#x56FD;&#x7684;&#x661F;&#x5DF4;&#x514B;&#x6570;&#x636E;&#xFF0C;&#x8FD9;&#x91CC;&#x53EF;&#x4EE5;&#x4E0D;&#x9700;&#x8981;&#x5206;&#x7EC4;&#xFF0C;&#x76F4;&#x63A5;&#x53D6;&#x6570;&#x636E;
print(china_data)
print(china_data.info())
province_data = china_data.groupby('State/Province').count()['Brand']
print(province_data)
groupby&#x53EF;&#x4EE5;&#x4F20;&#x5165;&#x591A;&#x4E2A;&#x6761;&#x4EF6;&#x6765;&#x5206;&#x7EC4;
print(df['Brand'])
china_data_group = df.groupby(
    by=[df['Country'], df['State/Province']]).count()  # &#x8FD4;&#x56DE;&#x4E00;&#x4E2A;Series,&#x5217;&#x7D22;&#x5F15;&#x6709;&#x4E24;&#x4E2A;&#xFF0C;&#x4E00;&#x4E2A;&#x662F;country,&#x4E00;&#x4E2A;&#x662F;State/Province
print(china_data_group)
print(china_data_group['Brand'])

&#x4EE5;&#x4E0B;&#x4E09;&#x79CD;&#x5199;&#x6CD5;&#xFF0C;&#x7ED3;&#x679C;&#x76F8;&#x540C;
group1 = df.groupby(by=[df['Country'], df['State/Province']]).count()['Brand']
group2 = df['Brand'].groupby(by=[df['Country'], df['State/Province']]).count()
group3 = df.groupby(by=[df['Country'], df['State/Province']])['Brand'].count()
print(group1, type(group1))
print('*' * 100)
print(group2, type(group2))
print('*' * 100)
print(group3, type(group3))
&#x53D6;&#x503C;&#x53EF;&#x4EE5;&#x4E3A;DataFrame,&#x9700;&#x8981;&#x4F7F;&#x7528;&#x4E00;&#x4E2A;&#x5C0F;&#x6280;&#x5DE7;
group4 = df[['Brand']].groupby(by=[df['Country'], df['State/Province']]).count()
print('*' * 100)
print(group4, type(group4))
print(group1.index)

14.分组和聚合

grouped = df.groupby(by="columns_name")

grouped是一个DataFrameGroupBy对象，是可迭代的

grouped中的每一个元素是一个元组

元组里面是（索引(分组的值)，分组之后的DataFrame）

DataFrameGroupBy对象有很多经过优化的方法

如果我们需要对国家和省份进行分组统计，应该怎么操作呢？

grouped = df.groupby(by=[df["Country"],df["State/Province"]])

很多时候我们只希望对获取分组之后的某一部分数据，或者说我们只希望对某几列数据进行分组，这个时候我们应该怎么办呢？

获取分组之后的某一部分数据：

df.groupby(by=["Country","State/Province"])["Country"].count()

对某几列数据进行分组：

df["Country"].groupby(by=[df["Country"],df["State/Province"]]).count()

观察结果，由于只选择了一列数据，所以结果是一个Series类型

如果我想返回一个DataFrame类型呢？

t1 = df[["Country"]].groupby(by=[df["Country"],df["State/Province"]]).count()
t2 = df.groupby(by=["Country","State/Province"])[["Country"]].count()

以上的两条命令结果一样

和之前的结果的区别在于当前返回的是一个DataFrame类型

简单的索引操作：

•获取index： df.index

•指定index ： df.index = ['x','y']

•重新设置index : df.reindex(list("abcedf"))

•指定某一列作为index ： df.set_index("Country",drop=False)

•返回index的唯一值： df.set_index("Country").index.unique()

; 15.Series复合索引

示例

现在我们有2015到2017年25万条911的紧急电话的数据，请统计出出这些数据中不同类型的紧急情况的次数，如果我们还想统计出不同月份不同类型紧急电话的次数的变化情况，应该怎么做呢？

import pandas as pd, numpy as np
from matplotlib import pyplot as plt

df = pd.read_csv('911.csv')
&#x663E;&#x793A;&#x6240;&#x6709;&#x5217;
pd.set_option('display.max_columns', None)
print(df.head())
print(df.info())
print(df['title'].str.split(':'))
print(df['title'].str.split(':')[0]) # &#x4E0D;&#x80FD;&#x53D6;&#x5230;&#x6570;&#x636E;
to_list()&#x5C06;&#x5E8F;&#x5217;&#x8F6C;&#x6362;&#x4E3A;&#x6570;&#x7EC4;
temp_list = df['title'].str.split(':').to_list()
temp_list = df['title'].str.split(':').tolist()
print(temp_list)
&#x904D;&#x5386;&#x5E76;&#x53D6;&#x51FA;&#x7B2C;&#x4E00;&#x9879;&#x6570;&#x636E;&#x5E76;&#x53BB;&#x91CD;
cate_list = list(set([i[0] for i in temp_list]))
print(cate_list)
&#x6784;&#x9020;&#x4E00;&#x4E2A;DataFrame,&#x4E09;&#x5217;&#xFF0C;&#x4E0E;df&#x540C;&#x884C;&#xFF0C;&#x6570;&#x636E;&#x5168;&#x4E3A;0
zeros_df = pd.DataFrame(np.zeros((df.shape[0], len(cate_list))), columns=cate_list)
print(zeros_df)
&#x3000;&#x7531;&#x4E8E;df&#x6570;&#x636E;&#x91CF;&#x592A;&#x5927;&#xFF0C;&#x5982;&#x679C;&#x76F4;&#x63A5;&#x904D;&#x5386;&#xFF0C;&#x4F1A;&#x6D88;&#x8017;&#x5F88;&#x957F;&#x65F6;&#x95F4;
for i in range(df.shape[0]):
    zeros_df.loc[i,temp_list[i][0]] = 1
#
print(zeros_df)

&#x904D;&#x5386;cate_list,&#x53EA;&#x9700;&#x8981;&#x5FAA;&#x73AF;&#x4E09;&#x6B21;
for cate in cate_list:
    # df['title'].str.contains(cate)&#x8FD4;&#x56DE;&#x7684;&#x662F;&#x4E00;&#x4E2A;&#x5E03;&#x5C14;&#x578B;&#x6570;&#x7EC4;&#xFF0C;&#x884C;&#x6570;&#x4E0E;zeros_df&#x76F8;&#x540C;&#xFF0C;&#x5217;&#x6570;&#x4E3A;&#x4E09;&#x5217;&#xFF0C;
    # &#x5305;&#x542B;cate&#x7684;&#x90A3;&#x4E00;&#x5217;&#x4E3A;True,&#x5177;&#x4F53;&#x53EF;&#x89C1;5.62&#x5E03;&#x5C14;&#x7D22;&#x5F15;&#x7AE0;&#x8282;
    zeros_df[cate][df['title'].str.contains(cate)] = 1

print(zeros_df)

&#x7EDF;&#x8BA1;&#x90AE;&#x5BC4;&#x7C7B;&#x578B;&#x7684;&#x6570;&#x91CF;
sum_ret = zeros_df.sum(axis=0)
print(sum_ret)

import pandas as pd, numpy as np
from matplotlib import pyplot as plt

df = pd.read_csv('911.csv')
#&#x663E;&#x793A;&#x6240;&#x6709;&#x884C;
pd.set_option('display.max_rows', None)
print(df.head())
print(df.info())

to_list()&#x5C06;&#x5E8F;&#x5217;&#x8F6C;&#x6362;&#x4E3A;&#x6570;&#x7EC4;
temp_list = df['title'].str.split(':').to_list()

print(temp_list)
&#x904D;&#x5386;&#x5E76;&#x53D6;&#x51FA;&#x7B2C;&#x4E00;&#x9879;&#x7684;&#x5206;&#x7C7B;
cate_list = [i[0] for i in temp_list]
print(cate_list)
cate_df = pd.DataFrame(np.array(cate_list).reshape((df.shape[0]), 1), columns=['cate'])
print(cate_df)
&#x6DFB;&#x52A0;&#x4E00;&#x5217;&#xFF0C;&#x5217;&#x7D22;&#x5F15;&#x4E3A;cate
df['cate'] = cate_df
print(df['cate'])
print(df.groupby(by='cate').count()['title'])

16.pandas中的时间序列

生成一段时间范围

pd.date_range(start=None, end=None, periods=None, freq='D')

start和end以及freq配合能够生成start和end范围内以频率freq的一组时间索引

start和periods以及freq配合能够生成从start开始的频率为freq的periods个时间索引

关于频率的更多缩写

在DataFrame中使用时间序列

index=pd.date_range("20170101",periods=10)

df = pd.DataFrame(np.random.rand(10),index=index)

回到最开始的911数据的案例中，我们可以使用pandas提供的方法把时间字符串转化为时间序列

df["timeStamp"] = pd.to_datetime(df["timeStamp"],format="")

format参数大部分情况下可以不用写，但是对于pandas无法格式化的时间字符串，我们可以使用该参数，比如包含中文

那么问题来了：

我们现在要统计每个月或者每个季度的次数怎么办呢？

from matplotlib import pyplot as plt
import pandas as pd
df = pd.read_csv('911.csv')
#&#x663E;&#x793A;&#x6240;&#x6709;&#x5217;
pd.set_option('display.max_columns', None)
#&#x663E;&#x793A;&#x6240;&#x6709;&#x884C;
pd.set_option('display.max_rows', None)
print(df.info())
print(df.head())
&#x5C06;&#x65F6;&#x95F4;&#x5B57;&#x7B26;&#x4E32;&#x8F6C;&#x6362;&#x4E3A;&#x65F6;&#x95F4;&#x7C7B;&#x578B;&#x6570;&#x636E;datetime64&#xFF0C;&#x4EE5;&#x4FBF;&#x8FDB;&#x4E00;&#x6B65;&#x5904;&#x7406;
print(pd.to_datetime(df['timeStamp']).head())
&#x91CD;&#x65B0;&#x8D4B;&#x503C;df['timeStamp']
df['timeStamp'] = pd.to_datetime(df['timeStamp'])
&#x5C06;&#x5217;timeStamp&#x8F6C;&#x6362;&#x4E3A;&#x884C;&#x7D22;&#x5F15;
df.set_index('timeStamp',inplace=True)
print(df.head())

&#x7EDF;&#x8BA1;&#x51FA;911&#x6570;&#x636E;&#x4E2D;&#x4E0D;&#x540C;&#x6708;&#x4EFD;&#x7535;&#x8BDD;&#x6B21;&#x6570;
count_by_month = df.resample('M').count()['title']
print(count_by_month)

_x = count_by_month.index
_y = count_by_month.values
print(_x)
print(_y)
_x = [i.strftime('%Y%m%d') for i in _x]
plt.figure(figsize=(20,8), dpi=80)
plt.plot(_x,_y)
plt.plot(range(len(_x)),_y)
plt.xticks(_x,rotation=45)
plt.show()

17.pandas重采样

示例

1.统计出911数据中不同月份电话次数的变化情况

2.统计出911数据中不同月份不同类型的电话的次数的变化情况

from matplotlib import pyplot as plt
import pandas as pd,numpy as np
df = pd.read_csv('911.csv')
&#x91CD;&#x65B0;&#x8D4B;&#x503C;df['timeStamp']
df['timeStamp'] = pd.to_datetime(df['timeStamp'])
#&#x6DFB;&#x52A0;&#x5217;&#xFF0C;&#x8868;&#x793A;&#x5206;&#x7C7B;
temp_list = df["title"].str.split(": ").tolist()
cate_list = [i[0] for i in temp_list]
&#x521B;&#x5EFA;&#x5217;
df["cate"] = pd.DataFrame(np.array(cate_list).reshape((df.shape[0],1)))
&#x5C06;&#x65F6;&#x95F4;&#x5217;&#x8F6C;&#x5316;&#x4E3A;&#x7D22;&#x5F15;
df.set_index("timeStamp",inplace=True)
print(df.head(1))
dk = df.groupby('cate')
print(dk)
plt.figure(figsize=(20, 8), dpi=80)
for group_name,group_data in dk:
    print(group_name,group_data)
    # &#x5BF9;&#x4E0D;&#x540C;&#x7684;&#x5206;&#x7C7B;&#x90FD;&#x8FDB;&#x884C;&#x7ED8;&#x56FE;
    count_by_month = group_data.resample("M").count()["title"]
    # &#x753B;&#x56FE;
    _x = count_by_month.index
    print(_x)
    _y = count_by_month.values
    print(_y)
    _x = [i.strftime("%Y%m%d") for i in _x]

    plt.plot(range(len(_x)), _y, label=group_name)

plt.xticks(range(len(_x)), _x, rotation=45)
plt.legend(loc="best")
plt.show()

现在我们有北上广、深圳、和沈阳5个城市空气质量数据，请绘制出5个城市的PM2.5随时间的变化情况

coding=utf-8
import pandas as pd
from matplotlib import pyplot as plt

file_path = "./PM2.5/BeijingPM20100101_20151231.csv"

df = pd.read_csv(file_path)
print(df.head())
print(df.info())
&#x628A;&#x5206;&#x5F00;&#x7684;&#x65F6;&#x95F4;&#x5B57;&#x7B26;&#x4E32;&#x901A;&#x8FC7;periodIndex&#x7684;&#x65B9;&#x6CD5;&#x8F6C;&#x5316;&#x4E3A;pandas&#x7684;&#x65F6;&#x95F4;&#x7C7B;&#x578B;
period = pd.PeriodIndex(year=df["year"], month=df["month"], day=df["day"], hour=df["hour"], freq="H")
&#x589E;&#x52A0;&#x4E00;&#x5217;df["datetime"]
df["datetime"] = period
print(df.head(10))
#
&#x628A;datetime &#x8BBE;&#x7F6E;&#x4E3A;&#x7D22;&#x5F15;
df.set_index("datetime", inplace=True)
#
&#x8FDB;&#x884C;&#x964D;&#x91C7;&#x6837;,&#x5982;&#x679C;&#x6309;&#x65E5;&#x6765;&#x6392;&#x5E8F;&#xFF0C;&#x6570;&#x636E;&#x56FE;&#x4E0D;&#x597D;&#x770B;&#xFF0C;&#x6309;&#x6708;&#x4EFD;&#x592A;&#x7A00;&#x758F;&#xFF0C;&#x6309;&#x65E5;&#x592A;&#x7EF8;
df = df.resample("7D").mean()
print(df.head())
&#x5904;&#x7406;&#x7F3A;&#x5931;&#x6570;&#x636E;&#xFF0C;&#x5220;&#x9664;&#x7F3A;&#x5931;&#x6570;&#x636E;
print(df["PM_US Post"])
dropna()&#x8BE5;&#x51FD;&#x6570;&#x4E3B;&#x8981;&#x7528;&#x4E8E;&#x6EE4;&#x9664;&#x7F3A;&#x5931;&#x6570;&#x636E;&#x3002;
&#x5982;&#x679C;&#x662F;Series,&#x5219;&#x8FD4;&#x56DE;&#x4E00;&#x4E2A;&#x4EC5;&#x542B;&#x975E;&#x7A7A;&#x6570;&#x636E;&#x548C;&#x7D22;&#x5F15;&#x503C;&#x7684;Series&#xFF0C;&#x9ED8;&#x8BA4;&#x4E22;&#x5F03;&#x542B;&#x6709;&#x7F3A;&#x5931;&#x503C;&#x7684;&#x884C;&#x3002;
&#x7F8E;&#x56FD;&#x6570;&#x636E;
data = df["PM_US Post"].dropna()  # &#x4F7F;&#x7528;&#x964D;&#x91C7;&#x6837;&#x540E;&#xFF0C;&#x4F1A;&#x8BA1;&#x7B97;&#x5747;&#x503C;&#xFF0C;&#x8FD9;&#x91CC;&#x518D;&#x4F7F;&#x7528;dropna()&#x8FC7;&#x6EE4;&#x7A7A;&#x503C;&#x610F;&#x4E49;&#x4E0D;&#x5927;
&#x4E2D;&#x56FD;&#x6570;&#x636E;
data_china = df["PM_Nongzhanguan"]

print(data_china.head(100))
#&#x753B;&#x56FE;

_x = data.index
_x = [i.strftime("%Y%m%d") for i in _x]
&#x53D6;&#x4E2D;&#x56FD;PM2.5&#x6570;&#x636E;
_x_china = [i.strftime("%Y%m%d") for i in data_china.index]
print(len(_x_china),len(_x_china))
_y = data.values
_y_china = data_china.values

plt.figure(figsize=(20,8),dpi=80)

plt.plot(range(len(_x)),_y,label="US_POST",alpha=0.7)
plt.plot(range(len(_x_china)),_y_china,label="CN_POST",alpha=0.7)

plt.xticks(range(0,len(_x_china),10),list(_x_china)[::10],rotation=45)

plt.legend(loc="best")

plt.show()

Original: https://blog.csdn.net/qq_59084325/article/details/126181015
Author: BillySturate
Title: pandas详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/753560/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

django基于python的新生入学管理系统–python-计算机毕业设计

django基于python的新生入学管理系统–python-计算机毕业设计 项目介绍 本毕…

Python 2023年8月3日
0081
【赵渝强老师】利用Python完成数据分布特征的分析

在对数据质量进行分析后，可以对数据的特征进行分析和计算，还可以通过图表显示数据的特征。采用分布分析、比较分析、统计分析、周期分析、贡献分析(帕累托分析)、相关分析、正态检验等方法对…

Python 2023年5月25日
0066
day5子图的绘制及坐标共享

一、绘制固定区域的子图1、绘制单子图使用pyplot()函数可以在规划好的某个区域中绘制单个子图。语法如下subplot(nrows,ncols,index,projection,…

Python 2023年9月5日
0041
Windows-》CMD命令

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年9月30日
0050
华为云桌面，数字化时代便捷、安全的办公选择

在当今效率优先、信息技术高度发展的时代，云桌面作为一种帮助企业实现快速办公上云的云服务，将应用于企业日常办公中，它不仅能够提升工作效率，而且还具有良好的扩展性和可扩展性，因此备受业…

Python 2023年9月30日
0044
DataFrame对象（创建，读取，添加，删除，方法）

创建DataFrame对象语法： pandas.DataFrame( data, index, columns, dtype, copy)data 支持多种数据类型，如:ndar…

Python 2023年8月16日
00140
Django实战: 手把手教你配置Django SimpleUI打造美丽后台(多图)

很多人对Django自带的管理后台admin是又爱又恨，优点是几行代码配置就可以撸出一个功能性强的管理后台，缺点就是不怎么美观，感觉拿不出手。在所有的Django后台美化插件中，S…

Python 2023年8月4日
00315
作为前端你还不懂MutationObserver？那Out了

🐱 个人主页：不叫猫先生🙋‍♂️ 作者简介：前端领域新星创作者、阿里云专家博主，专注于前端各领域技术，共同学习共同进步，一起加油呀！💫系列专栏：vue3从入门到精通、TypeSc…

Python 2023年10月9日
0036
还在用饼状图？来瞧瞧这些炫酷的百分比可视化新图形（附代码实现）⛵

💡 作者：韩信子@ShowMeAI📘 数据分析实战系列：https://www.showmeai.tech/tutorials/40📘 本文地址：https://www.showm…

Python 2023年10月28日
0042
YOLO-POSE的部署教程来了

yolo-pose的文件下载链接：https://pan.baidu.com/s/1vFXTMTVUKQDYpA8AYWGkFQ提取码：本人QQ 3233426794 一、制作数…

Python 2023年10月27日
0034
pandas df.groupby()分组后的数据访问，set_index的用法

分组方式注意第一种与第三种方式的区别。 import pandas as pd dic={‘省份’:[‘A’,’A’,’A’,’B’,’C’],’城市’:[‘a’,’a’,’a_…

Python 2023年8月17日
0035
动手学数据分析——task01

s1.1 载入数据 1 相对路径 相对路径:相对…

Python 2023年8月21日
0035
【pytest】如何配置allure及3个常用命令

前言：allure插件提供了一个完美的测试报告模板，但是首先你得会搭建它的环境。一些安装提示以及allure高级用法都可以从官网上获取Allure Framework (qamet…

Python 2023年9月10日
0057
docker+gitlab+jenkins+pytest+allure实现devops接口自动化

简介：此框架设计的思路是基于docker搭建jenkins+gitlab环境，集成python+pytest+gitlab+jenkins+allure实现自动化持续集成测试，最终…

Python 2023年9月11日
0061
我用EasyExcel优化了公司的导出（附踩坑记录）

背景介绍最近要改一个导出的功能，在原有的基础上，在导出一份明细数据，要求导出内容加在原有 excel 的第二个 sheet 上。考虑到数据量还比较大，干脆引入阿里的 EasyEx…

Python 2023年10月16日
0021
pandas_数据处理分析基本

20210405 fancy_lee 1.pandas介绍 Python Data Analysis Library 或 pandas ，是基于NumPy 的一种工具，该工具是为了…

Python 2023年8月8日
0034

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

pandas详解

1.pandas的常用数据类型

2.pandas之Series创建

; 3.pandas之Series切片和索引

4.pandas之Series的索引和值

; 5.pandas之读取外部数据

6.pandas之DataFrame

7.pandas之取行或者列

8.pandas之loc

; 9.pandas之布尔索引

10.pandas之字符串方法

; 11.缺失数据的处理

12.数据合并之join

; 13.数据合并之merge

14.分组和聚合

; 15.Series复合索引

16.pandas中的时间序列

17.pandas重采样

大家都在看