Pandas DataFrame入门教程（图解版）

2023年7月7日上午8:32 • 人工智能 • 阅读 63

DataFrame 是 Pandas 的重要数据结构之一，也是在使用 Pandas 进行数据分析过程中最常用的结构之一，可以这么说，掌握了 DataFrame 的用法，你就拥有了学习数据分析的基本能力。

认识DataFrame结构

DataFrame 一个表格型的数据结构，既有行标签（index），又有列标签（columns），它也被称异构数据表，所谓异构，指的是表格中每列的数据类型可以不同，比如可以是字符串、整型或者浮点型等。其结构图示意图，如下所示：

Dataframe结构示意图

表格中展示了某个销售团队个人信息和绩效评级（rating）的相关数据。数据以行和列形式来表示，其中每一列表示一个属性，而每一行表示一个条目的信息。

下表展示了上述表格中每一列标签所描述数据的数据类型，如下所示：

ColumnTypenameStringageintegergenderStringratingFloat

DataFrame 的每一行数据都可以看成一个 Series 结构，只不过，DataFrame 为这些行中每个数据值增加了一个列标签。因此 DataFrame 其实是从 Series 的基础上演变而来。在数据分析任务中 DataFrame 的应用非常广泛，因为它描述数据的更为清晰、直观。

通过示例对 DataFrame 结构做进一步讲解。下面展示了一张学生成绩表，如下所示：

DataFrame 结构类似于 Execl 的表格型，表格中列标签的含义如下所示：

Regd.No：表示登记的序列号

Name：学生姓名

Marks：学生分数

同 Series 一样，DataFrame 自带行标签索引，默认为”隐式索引”即从 0 开始依次递增，行标签与 DataFrame 中的数据项一一对应。上述表格的行标签从 0 到 5，共记录了 5 条数据（图中将行标签省略）。当然你也可以用”显式索引”的方式来设置行标签。

下面对 DataFrame 数据结构的特点做简单地总结，如下所示：

DataFrame 每一列的标签值允许使用不同的数据类型；

DataFrame 是表格型的数据结构，具有行和列；

DataFrame 中的每个数据值都可以被修改。

DataFrame 结构的行数、列数允许增加或者删除；

DataFrame 有两个方向的标签轴，分别是行标签和列标签；

DataFrame 可以对行和列执行算术运算。

; 创建DataFrame对象

创建 DataFrame 对象的语法格式如下：

import pandas as pd
pd.DataFrame( data, index, columns, dtype, copy)

参数说明：

参数名称说明data输入的数据，可以是 ndarray，series，list，dict，标量以及一个 DataFrame。index行标签，如果没有传递 index 值，则默认行标签是 np.arange(n)，n 代表 data 的元素个数。columns列标签，如果没有传递 columns 值，则默认列标签是 np.arange(n)。dtypedtype表示每一列的数据类型。copy默认为 False，表示复制数据 data。Pandas提供了多种创建 DataFrame 对象的方式，主要包含以下五种，分别进行介绍。

1) 创建空的DataFrame对象

使用下列方式创建一个空的 DataFrame，这是 DataFrame 最基本的创建方法。

import pandas as pd
df = pd.DataFrame()
print(df)

输出结果如下：

Empty DataFrame
Columns: []
Index: []

2) 列表创建DataFame对象

可以使用单一列表或嵌套列表来创建一个 DataFrame。

示例 1，单一列表创建 DataFrame：

import pandas as pd
data = [1,2,3,4,5]
df = pd.DataFrame(data)
print(df)

输出如下：

示例 2，使用嵌套列表创建 DataFrame 对象：

import pandas as pd
data = [['Alex',10],['Bob',12],['Clarke',13]]
df = pd.DataFrame(data,columns=['Name','Age'])
print(df)

输出结果：

      Name      Age
0     Alex      10
1     Bob       12
2     Clarke    13

示例 3，指定数值元素的数据类型为 float：

import pandas as pd
data = [['Alex',10],['Bob',12],['Clarke',13]]
df = pd.DataFrame(data,columns=['Name','Age'],dtype=float)
print(df)

输出结果：

      Name     Age
0     Alex     10.0
1     Bob      12.0
2     Clarke   13.0

3) 字典嵌套列表创建

data 字典中，键对应的值的元素长度必须相同（也就是列表长度相同）。如果传递了索引，那么索引的长度应该等于数组的长度；如果没有传递索引，那么默认情况下，索引将是 range(n)，其中 n 代表数组长度。

示例 4：

import pandas as pd
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data)
print(df)

输出结果：

      Age      Name
0     28        Tom
1     34       Jack
2     29      Steve
3     42      Ricky

注意：这里使用了默认行标签，也就是 range(n)。它生成了 0,1,2,3，并分别对应了列表中的每个元素值。

示例 5，现在给上述示例 4 添加自定义的行标签：

import pandas as pd
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data, index=['rank1','rank2','rank3','rank4'])
print(df)

输出结果如下：

        Age    Name
rank1    28      Tom
rank2    34     Jack
rank3    29    Steve
rank4    42    Ricky

注意：index 参数为每行分配了一个索引。

4) 列表嵌套字典创建DataFrame对象

列表嵌套字典可以作为输入数据传递给 DataFrame 构造函数。默认情况下，字典的键被用作列名。

示例 6 如下：

import pandas as pd
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data)
print(df)

输出结果：

    a    b      c
0   1   2     NaN
1   5   10   20.0

注意：如果其中某个元素值缺失，也就是字典的 key 无法找到对应的 value，将使用 NaN 代替。

示例 7，给上述示例 6 添加行标签索引：

import pandas as pd
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data, index=['first', 'second'])
print(df)

输出结果：

        a   b       c
first   1   2     NaN
second  5   10   20.0

示例 8，如何使用字典嵌套列表以及行、列索引表创建一个 DataFrame 对象。

import pandas as pd
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df1 = pd.DataFrame(data, index=['first', 'second'], columns=['a', 'b'])
df2 = pd.DataFrame(data, index=['first', 'second'], columns=['a', 'b1'])
print(df1)
print(df2)

输出结果：

#df2&#x8F93;&#x51FA;
         a  b
first    1  2
second   5  10

#df1&#x8F93;&#x51FA;
         a  b1
first    1  NaN
second   5  NaN

注意：因为 b1 在字典键中不存在，所以对应值为 NaN。

5) Series创建DataFrame对象

您也可以传递一个字典形式的 Series，从而创建一个 DataFrame 对象，其输出结果的行索引是所有 index 的合集。示例如下：

import pandas as pd
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
   'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
print(df)

输出结果如下：

      one    two
a     1.0    1
b     2.0    2
c     3.0    3
d     NaN    4

注意：对于 one 列而言，此处虽然显示了行索引 ‘d’，但由于没有与其对应的值，所以它的值为 NaN。

列索引操作DataFrame

DataFrame 可以使用列索（columns index）引来完成数据的选取、添加和删除操作。下面依次对这些操作进行介绍。

1) 列索引选取数据列

您可以使用列索引，轻松实现数据选取，示例如下：

import pandas as pd
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
   'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
print(df ['one'])

输出结果：

a     1.0
b     2.0
c     3.0
d     NaN
Name: one, dtype: float64

2) 列索引添加数据列

使用 columns 列索引表标签可以实现添加新的数据列，示例如下：

import pandas as pd
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
   'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
#&#x4F7F;&#x7528;df['&#x5217;']=&#x503C;&#xFF0C;&#x63D2;&#x5165;&#x65B0;&#x7684;&#x6570;&#x636E;&#x5217;
df['three']=pd.Series([10,20,30],index=['a','b','c'])
print(df)
#&#x5C06;&#x5DF2;&#x7ECF;&#x5B58;&#x5728;&#x7684;&#x6570;&#x636E;&#x5217;&#x505A;&#x76F8;&#x52A0;&#x8FD0;&#x7B97;
df['four']=df['one']+df['three']
print(df)

输出结果：

&#x4F7F;&#x7528;&#x5217;&#x7D22;&#x5F15;&#x521B;&#x5EFA;&#x65B0;&#x6570;&#x636E;&#x5217;:
     one   two   three
a    1.0    1    10.0
b    2.0    2    20.0
c    3.0    3    30.0
d    NaN    4    NaN

&#x5DF2;&#x5B58;&#x5728;&#x7684;&#x6570;&#x636E;&#x5217;&#x505A;&#x7B97;&#x672F;&#x8FD0;&#x7B97;&#xFF1A;
      one   two   three    four
a     1.0    1    10.0     11.0
b     2.0    2    20.0     22.0
c     3.0    3    30.0     33.0
d     NaN    4     NaN     NaN

上述示例，我们初次使用了 DataFrame 的算术运算，这和 NumPy 非常相似。除了使用df[]=value的方式外，您还可以使用 insert() 方法插入新的列，示例如下：

import pandas as pd
info=[['Jack',18],['Helen',19],['John',17]]
df=pd.DataFrame(info,columns=['name','age'])
print(df)
#&#x6CE8;&#x610F;&#x662F;column&#x53C2;&#x6570;
#&#x6570;&#x503C;1&#x4EE3;&#x8868;&#x63D2;&#x5165;&#x5230;columns&#x5217;&#x8868;&#x7684;&#x7D22;&#x5F15;&#x4F4D;&#x7F6E;
df.insert(1,column='score',value=[91,90,75])
print(df)

输出结果：

&#x6DFB;&#x52A0;&#x524D;&#xFF1A;
    name  age
0   Jack   18
1  Helen   19
2   John   17

&#x6DFB;&#x52A0;&#x540E;&#xFF1A;
    name  score  age
0   Jack     91   18
1  Helen     90   19
2   John     75   17

3) 列索引删除数据列

通过 del 和 pop() 都能够删除 DataFrame 中的数据列。示例如下：

import pandas as pd
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
   'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']),
   'three' : pd.Series([10,20,30], index=['a','b','c'])}
df = pd.DataFrame(d)
print ("Our dataframe is:")
print(df)
#&#x4F7F;&#x7528;del&#x5220;&#x9664;
del df['one']
print(df)
#&#x4F7F;&#x7528;pop&#x65B9;&#x6CD5;&#x5220;&#x9664;
df.pop('two')
print (df)

输出结果：

&#x539F;DataFrame:
      one   three  two
a     1.0    10.0   1
b     2.0    20.0   2
c     3.0    30.0   3
d     NaN     NaN   4

&#x4F7F;&#x7528;del&#x5220;&#x9664; first:
      three    two
a     10.0     1
b     20.0     2
c     30.0     3
d     NaN      4

&#x4F7F;&#x7528; pop()&#x5220;&#x9664;:
   three
a  10.0
b  20.0
c  30.0
d  NaN

行索引操作DataFrame

理解了上述的列索引操作后，行索引操作就变的简单。下面看一下，如何使用行索引来选取 DataFrame 中的数据。

1) 标签索引选取

可以将行标签传递给 loc 函数，来选取数据。示例如下：

import pandas as pd
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
   'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
print(df.loc['b'])

输出结果：

one 2.0
two 2.0
Name: b, dtype: float64

注意：loc 允许接两个参数分别是行和列，参数之间需要使用”逗号”隔开，但该函数只能接收标签索引。

2) 整数索引选取

通过将数据行所在的索引位置传递给 iloc 函数，也可以实现数据行选取。示例如下：

import pandas as pd
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
   'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
print (df.iloc[2]&#xFF09;

输出结果：

one   3.0
two   3.0
Name: c, dtype: float64

注意：iloc 允许接受两个参数分别是行和列，参数之间使用”逗号”隔开，但该函数只能接收整数索引。

3) 切片操作多行选取

您也可以使用切片的方式同时选取多行。示例如下：

import pandas as pd
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
   'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
#&#x5DE6;&#x95ED;&#x53F3;&#x5F00;
print(df[2:4])

输出结果：

   one  two
c  3.0    3
d  NaN    4

4) 添加数据行

使用 append() 函数，可以将新的数据行添加到 DataFrame 中，该函数会在行末追加数据行。示例如下：

import pandas as pd
df = pd.DataFrame([[1, 2], [3, 4]], columns = ['a','b'])
df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['a','b'])
#&#x5728;&#x884C;&#x672B;&#x8FFD;&#x52A0;&#x65B0;&#x6570;&#x636E;&#x884C;
df = df.append(df2)
print(df)

输出结果：

5) 删除数据行

您可以使用行索引标签，从 DataFrame 中删除某一行数据。如果索引标签存在重复，那么它们将被一起删除。示例如下：

import pandas as pd
df = pd.DataFrame([[1, 2], [3, 4]], columns = ['a','b'])
df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['a','b'])
df = df.append(df2)
print(df)
#&#x6CE8;&#x610F;&#x6B64;&#x5904;&#x8C03;&#x7528;&#x4E86;drop()&#x65B9;&#x6CD5;
df = df.drop(0)
print (df)

输出结果：

&#x6267;&#x884C;drop(0)&#x524D;&#xFF1A;
   a  b
0  1  2
1  3  4
0  5  6
1  7  8

&#x6267;&#x884C;drop(0)&#x540E;&#xFF1A;
  a b
1 3 4
1 7 8

在上述的示例中，默认使用 range(2) 生成了行索引，并通过 drop(0) 同时删除了两行数据。

常用属性和方法汇总

DataFrame 的属性和方法，与 Series 相差无几，如下所示：

名称属性&方法描述T行和列转置。axes返回一个仅以行轴标签和列轴标签为成员的列表。dtypes返回每列数据的数据类型。emptyDataFrame中没有数据或者任意坐标轴的长度为0，则返回True。ndim轴的数量，也指数组的维数。shape返回一个元组，表示了 DataFrame 维度。sizeDataFrame中的元素数量。values使用 numpy 数组表示 DataFrame 中的元素值。head()返回前 n 行数据。tail()返回后 n 行数据。shift()将行或列移动指定的步幅长度

下面对 DataFrame 常用属性进行演示，首先我们创建一个 DataFrame 对象，示例如下：

import pandas as pd
import numpy as np
d = {'Name':pd.Series(['&#x7F16;&#x7A0B;&#x5E2E;',"&#x767E;&#x5EA6;",'360&#x641C;&#x7D22;','&#x8C37;&#x6B4C;','&#x5FAE;&#x5B66;&#x82D1;','Bing&#x641C;&#x7D22;']),
   'years':pd.Series([5,6,15,28,3,19,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#&#x6784;&#x5EFA;DataFrame
df = pd.DataFrame(d)
#&#x8F93;&#x51FA;series
print(df)

输出结果：

&#x8F93;&#x51FA; series &#x6570;&#x636E;:
     Name  years  Rating

1     &#x7F16;&#x7A0B;&#x5E2E;     6    3.24
2      &#x767E;&#x5EA6;     15    3.98
3   360&#x641C;&#x7D22;     28    2.56
4      &#x8C37;&#x6B4C;     3     3.20
5     &#x5FAE;&#x5B66;&#x82D1;    19    4.60
6  Bing&#x641C;&#x7D22;     23    3.80

1) T（Transpose）转置

返回 DataFrame 的转置，也就是把行和列进行交换。

import pandas as pd
import numpy as np
d = {'Name':pd.Series(['&#x7F16;&#x7A0B;&#x5E2E;',"&#x767E;&#x5EA6;",'360&#x641C;&#x7D22;','&#x8C37;&#x6B4C;','&#x5FAE;&#x5B66;&#x82D1;','Bing&#x641C;&#x7D22;']),
   'years':pd.Series([5,6,15,28,3,19,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#&#x6784;&#x5EFA;DataFrame
df = pd.DataFrame(d)
#&#x8F93;&#x51FA;DataFrame&#x7684;&#x8F6C;&#x7F6E;
print(df.T)

输出结果：

Our data series is:
                   1      2      3       4    5       6
Name      &#x7F16;&#x7A0B;&#x5E2E;    &#x767E;&#x5EA6;  360&#x641C;&#x7D22;   &#x8C37;&#x6B4C;  &#x5FAE;&#x5B66;&#x82D1;  Bing&#x641C;&#x7D22;
years          6      15      28      3     19      23
Rating       3.24    3.98    2.56    3.2   4.6     3.8

2) axes

返回一个行标签、列标签组成的列表。

import pandas as pd
import numpy as np
d = {'Name':pd.Series(['&#x7F16;&#x7A0B;&#x5E2E;',"&#x767E;&#x5EA6;",'360&#x641C;&#x7D22;','&#x8C37;&#x6B4C;','&#x5FAE;&#x5B66;&#x82D1;','Bing&#x641C;&#x7D22;']),
   'years':pd.Series([5,6,15,28,3,19,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#&#x6784;&#x5EFA;DataFrame
df = pd.DataFrame(d)
#&#x8F93;&#x51FA;&#x884C;&#x3001;&#x5217;&#x6807;&#x7B7E;
print(df.axes)

输出结果：

[RangeIndex(start=0, stop=7, step=1), Index(['Name', 'years', 'Rating'], dtype='object')]

3) dtypes

返回每一列的数据类型。示例如下：

import pandas as pd
import numpy as np
d = {'Name':pd.Series(['&#x7F16;&#x7A0B;&#x5E2E;',"&#x767E;&#x5EA6;",'360&#x641C;&#x7D22;','&#x8C37;&#x6B4C;','&#x5FAE;&#x5B66;&#x82D1;','Bing&#x641C;&#x7D22;']),
   'years':pd.Series([5,6,15,28,3,19,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#&#x6784;&#x5EFA;DataFrame
df = pd.DataFrame(d)
#&#x8F93;&#x51FA;&#x884C;&#x3001;&#x5217;&#x6807;&#x7B7E;
print(df.dtypes)

输出结果：

Name       object
years       int64
Rating     float64
dtype:     object

4) empty

返回一个布尔值，判断输出的数据对象是否为空，若为 True 表示对象为空。

import pandas as pd
import numpy as np
d = {'Name':pd.Series([,'&#x7F16;&#x7A0B;&#x5E2E;',"&#x767E;&#x5EA6;",'360&#x641C;&#x7D22;','&#x8C37;&#x6B4C;','&#x5FAE;&#x5B66;&#x82D1;','Bing&#x641C;&#x7D22;']),
   'years':pd.Series([5,6,15,28,3,19,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#&#x6784;&#x5EFA;DataFrame
df = pd.DataFrame(d)
#&#x5224;&#x65AD;&#x8F93;&#x5165;&#x6570;&#x636E;&#x662F;&#x5426;&#x4E3A;&#x7A7A;
print(df.empty)

输出结果：

&#x5224;&#x65AD;&#x8F93;&#x5165;&#x5BF9;&#x8C61;&#x662F;&#x5426;&#x4E3A;&#x7A7A;&#xFF1A;
False

5) ndim

返回数据对象的维数。DataFrame 是一个二维数据结构。

import pandas as pd
import numpy as np
d = {'Name':pd.Series(['&#x7F16;&#x7A0B;&#x5E2E;',"&#x767E;&#x5EA6;",'360&#x641C;&#x7D22;','&#x8C37;&#x6B4C;','&#x5FAE;&#x5B66;&#x82D1;','Bing&#x641C;&#x7D22;']),
   'years':pd.Series([5,6,15,28,3,19,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#&#x6784;&#x5EFA;DataFrame
df = pd.DataFrame(d)
#DataFrame&#x7684;&#x7EF4;&#x5EA6;
print(df.ndim)

输出结果：

6) shape

返回一个代表 DataFrame 维度的元组。返回值元组 (a,b)，其中 a 表示行数，b 表示列数。

import pandas as pd
import numpy as np
d = {'Name':pd.Series([,'&#x7F16;&#x7A0B;&#x5E2E;',"&#x767E;&#x5EA6;",'360&#x641C;&#x7D22;','&#x8C37;&#x6B4C;','&#x5FAE;&#x5B66;&#x82D1;','Bing&#x641C;&#x7D22;']),
   'years':pd.Series([5,6,15,28,3,19,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#&#x6784;&#x5EFA;DataFrame
df = pd.DataFrame(d)
#DataFrame&#x7684;&#x5F62;&#x72B6;
print(df.shape)

输出结果：

(7, 3)

7) size

返回 DataFrame 中的元素数量。示例如下：

import pandas as pd
import numpy as np
d = {'Name':pd.Series(['&#x7F16;&#x7A0B;&#x5E2E;',"&#x767E;&#x5EA6;",'360&#x641C;&#x7D22;','&#x8C37;&#x6B4C;','&#x5FAE;&#x5B66;&#x82D1;','Bing&#x641C;&#x7D22;']),
   'years':pd.Series([5,6,15,28,3,19,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#&#x6784;&#x5EFA;DataFrame
df = pd.DataFrame(d)
#DataFrame&#x7684;&#x4E2D;&#x5143;&#x7D20;&#x4E2A;&#x6570;
print(df.size)

输出结果：

8) values

以 ndarray 数组的形式返回 DataFrame 中的数据。

import pandas as pd
import numpy as np
d = {'Name':pd.Series(['&#x7F16;&#x7A0B;&#x5E2E;',"&#x767E;&#x5EA6;",'360&#x641C;&#x7D22;','&#x8C37;&#x6B4C;','&#x5FAE;&#x5B66;&#x82D1;','Bing&#x641C;&#x7D22;']),
   'years':pd.Series([5,6,15,28,3,19,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#&#x6784;&#x5EFA;DataFrame
df = pd.DataFrame(d)
#DataFrame&#x7684;&#x6570;&#x636E;
print(df.values)

输出结果：

['&#x7F16;&#x7A0B;&#x5E2E;' 6 3.24]
['&#x767E;&#x5EA6;' 15 3.98]
['360&#x641C;&#x7D22;' 28 2.56]
['&#x8C37;&#x6B4C;' 3 3.2]
['&#x5FAE;&#x5B66;&#x82D1;' 19 4.6]
['Bing&#x641C;&#x7D22;' 23 3.8]]

9) head()&tail()查看数据

如果想要查看 DataFrame 的一部分数据，可以使用 head() 或者 tail() 方法。其中 head() 返回前 n 行数据，默认显示前 5 行数据。示例如下：

import pandas as pd
import numpy as np
d = {'Name':pd.Series(['&#x7F16;&#x7A0B;&#x5E2E;',"&#x767E;&#x5EA6;",'360&#x641C;&#x7D22;','&#x8C37;&#x6B4C;','&#x5FAE;&#x5B66;&#x82D1;','Bing&#x641C;&#x7D22;']),
   'years':pd.Series([5,6,15,28,3,19,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#&#x6784;&#x5EFA;DataFrame
df = pd.DataFrame(d)
#&#x83B7;&#x53D6;&#x524D;2&#x884C;&#x6570;&#x636E;

print(df.head(2))

&#x8F93;&#x51FA;&#x7ED3;&#x679C;&#xFF1A;
     Name       years   Rating

0    &#x7F16;&#x7A0B;&#x5E2E;         6     3.24
1    &#x767E;&#x5EA6;          15     3.98

tail() 返回后 n 行数据，示例如下：

import pandas as pd
import numpy as np
d = {'Name':pd.Series(['&#x7F16;&#x7A0B;&#x5E2E;',"&#x767E;&#x5EA6;",'360&#x641C;&#x7D22;','&#x8C37;&#x6B4C;','&#x5FAE;&#x5B66;&#x82D1;','Bing&#x641C;&#x7D22;']),
   'years':pd.Series([5,6,15,28,3,19,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#&#x6784;&#x5EFA;DataFrame
df = pd.DataFrame(d)
#&#x83B7;&#x53D6;&#x540E;2&#x884C;&#x6570;&#x636E;
print(df.tail(2))

输出结果：

      Name     years   Rating
5     &#x5FAE;&#x5B66;&#x82D1;      19     4.6
6    Bing&#x641C;&#x7D22;     23     3.8

10) shift()移动行或列

如果您想要移动 DataFrame 中的某一行/列，可以使用 shift() 函数实现。它提供了一个periods参数，该参数表示在特定的轴上移动指定的步幅。

shif() 函数的语法格式如下：

DataFrame.shift(periods=1, freq=None, axis=0)

参数说明如下：

参数名称说明peroids类型为int，表示移动的幅度，可以是正数，也可以是负数，默认值为1。freq日期偏移量，默认值为None，适用于时间序。取值为符合时间规则的字符串。axis如果是 0 或者 “index” 表示上下移动，如果是 1 或者 “columns” 则会左右移动。fill_value该参数用来填充缺失值。

该函数的返回值是移动后的 DataFrame 副本。下面看一组简单的实例：

import pandas as pd
info= pd.DataFrame({'a_data': [40, 28, 39, 32, 18],
'b_data': [20, 37, 41, 35, 45],
'c_data': [22, 17, 11, 25, 15]})
#&#x79FB;&#x52A8;&#x5E45;&#x5EA6;&#x4E3A;3
info.shift(periods=3)

输出结果：

   a_data  b_data  c_data
0     NaN     NaN     NaN
1     NaN     NaN     NaN
2     NaN     NaN     NaN
3    40.0    20.0    22.0
4    28.0    37.0    17.0

下面使用 fill_value 参数填充 DataFrame 中的缺失值，如下所示：

import pandas as pd
info= pd.DataFrame({'a_data': [40, 28, 39, 32, 18],
'b_data': [20, 37, 41, 35, 45],
'c_data': [22, 17, 11, 25, 15]})
#&#x79FB;&#x52A8;&#x5E45;&#x5EA6;&#x4E3A;3
print(info.shift(periods=3))
#&#x5C06;&#x7F3A;&#x5931;&#x503C;&#x548C;&#x539F;&#x6570;&#x503C;&#x66FF;&#x6362;&#x4E3A;52
info.shift(periods=3,axis=1,fill_value= 52)

输出结果：

&#x539F;&#x8F93;&#x51FA;&#x7ED3;&#x679C;&#xFF1A;
   a_data  b_data  c_data
0     NaN     NaN     NaN
1     NaN     NaN     NaN
2     NaN     NaN     NaN
3    40.0    20.0    22.0
4    28.0    37.0    17.0

&#x66FF;&#x6362;&#x540E;&#x8F93;&#x51FA;&#xFF1A;
   a_data  b_data  c_data
0      52      52      52
1      52      52      52
2      52      52      52
3      52      52      52
4      52      52      52

注意：fill_value 参数不仅可以填充缺失值，还也可以对原数据进行替换。

Original: https://blog.csdn.net/ccc369639963/article/details/124192330
Author: 睿科知识云
Title: Pandas DataFrame入门教程（图解版）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/675858/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

如何对Tensor对象进行标准化处理

问题描述如何对一个Tensor对象进行标准化处理？详细介绍标准化是一种常见的数据预处理技术，主要用于将数据按照一定的规则进行缩放，以使得数据具有相同的尺度和分布特征。标准化可…

人工智能 2024年1月1日
00100
SPSS异方差检验的实现

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月18日
0048
带下划线_的变量或函数命名，带下划线的方法

python中的标识符可以包含数字、字母和_，但必须以字母或者_开头，其中以_开头的命名一般具有特殊的意义单前置下划线的名字:《流畅的python》作者称之为”受保护…

人工智能 2023年6月4日
0070
知识图谱的最新进展、关键技术和挑战

知识图谱的最新进展、关键技术和挑战人工智能技术与咨询本文来自《工程科学学报》，作者马忠贵等随着知识的不断积累和科学的飞速发展，人类社会进行了多次改变社会结构的重大生产力革…

人工智能 2023年6月1日
0045
CarSim仿真快速入门(十四)—CarSim-Simulink联合仿真

本文是一个用于演示如何将Simulink模型与BikeSim，CarSim或TruckSim的VS数学模型联合仿真的教程。一个简单的防抱死制动系统（ABS）示例在BikeSim，…

人工智能 2023年6月2日
0076
PyTorch + CUDA 版本匹配安装

目录 1. 问题描述 2. 调查和解决 2.1 初步调查 2.2 官网安装方法 2.3 如果还是不匹配呢？问题描述系统：Windows10，CUDA11.1.96 开始学习Py…

人工智能 2023年7月22日
0087
Dynamsoft Label Recognizer SDK FOR .CPP.NET

使用 OCR 从指定区域本地化和提取关键数据企业级文本检测和识别 SDKDynamsoft Label Recognizer SDK 从不同背景颜色、字体或文本大小的图像中准确读…

人工智能 2023年6月29日
0085
轻量级网络GhostNet–对卷积的新设计解决特征图冗余的问题

论文地址：华为诺亚方舟实验室 2020 CVPR 《GhostNet: More Features from Cheap Operations》该论文提供了一个全新的Ghost模…

人工智能 2023年5月28日
0074
数据分析实战 | 探寻销售额下降的原因

大家好，我是丁小杰。本文案例的来源为《数据分析实战》一书，书中使用的是 R 语言，接下来一段时间，我会用 Python + Tableau 尽可能的将案例复现出来，以供大家学习。…

人工智能 2023年7月18日
0077
[nlp] 车载语音助手

[ 车载_智能语音：语音识别的核心技术 _车载_智能语音：语音识别的核心技术全文共25页，当前为第1页。 _车载_智能语音：语音识别的核心技术全文共25页，当前为第1页。 _车载_…

人工智能 2023年5月31日
0077
2021电赛D题：基于互联网的摄像测量系统思路

2021年全国电赛题目如下：一：主要思路基于opencv，树莓派，以及网络交换机组成的摄像测量系统。由测量摄像系统与网络传输系统组成。支持开机自启动，一键测量，声光提示结束测量…

人工智能 2023年7月19日
0060
2021年7月20日，使用yolov5训练摔倒检测模型，效果超乎你想象！！！

1.准备阶段，配置好自己的cuda 10.0环境，这里我就不多说了，网上教程太多了。在cmd中输入nvcc -V,最终结果显示下图即确定你的cuda 10.0环境安装成功。2.去g…

人工智能 2023年6月16日
0092
PyTorch版本更新后无法调用GPU显卡的原因及解决办法

Index 目录索引问题剖析解决方法参考问题剖析使用 PyTorch在网络模型训练过程中，如果更新了 PyTorch的版本（例如由 1.7.0更新为 1.8.1），则可能…

人工智能 2023年7月21日
0052
xarray学习（二）Working with pandas

目录 * – 和pands一起操作 – + Dataset and DataFrame + DataArray and Series + Multi-dim…

人工智能 2023年7月7日
0042
遥感数字图像处理期末总结二

第二次总结复习参考题一、试述遥感影像几何变形误差的主要来源和类型遥感图像的几何误差可分为静态误差和动态误差两大类。静态误差是指成像过程中，传感器相对于地球表面呈静止状态时所具有…

人工智能 2023年6月18日
0078
基于脉冲响应不变法的IIR低通滤波器

啊哦~你想找的内容离你而去了哦内容不存在，可能是由于以下原因造成的： [En] The content does not exist and may be caused by t…

人工智能 2023年5月25日
0076

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Pandas DataFrame入门教程（图解版）

认识DataFrame结构

; 创建DataFrame对象

列索引操作DataFrame

行索引操作DataFrame

常用属性和方法汇总

大家都在看