pandas学习笔记之DateFrame

2023年7月7日上午8:17 • 人工智能 • 阅读 55

文章目录

pandas学习笔记之DateFrame
*
–

1.DateFrame的创建

1）认识DataFrame对象

import pandas as pd
pd.DataFrame( data, index, columns, dtype, copy)

参数名称 说明

data输入的数据，可以是 ndarray，series，list，dict，标量以及一个 DataFrame。index行标签，如果没有传递 index 值，则默认行标签是 np.arange(n)，n 代表 data 的元素个数。columns列标签，如果没有传递 columns 值，则默认列标签是 np.arange(n)。dtypedtype表示每一列的数据类型。copy默认为 False，表示复制数据 data。

2）由二维列表创建(默认index和columns值)

import pandas as pd
data = [['张三', 23, '男'], ['李四', 27, '女'], ['王二', 26, '女']]
df = pd.DataFrame(data)
print(df)

输出：

    0   1  2
0  张三  23  男
1  李四  27  女
2  王二  26  女

指定索引ndex 和 columns值：

import pandas as pd
data = [['张三', 23, '男'], ['李四', 27, '女'], ['王二', 26, '女']]
df = pd.DataFrame(data, columns=['姓名', '年龄', '性别'], index=['a', 'b', 'c'])
print(df)

输出：

   姓名  年龄 性别
a  张三  23  男
b  李四  27  女
c  王二  26  女

3）由元组tuple组成的列表

import pandas as pd
data = [('张三', 23, '男'), ('李四', 27, '女'), ('王二', 26, '女')]
df = pd.DataFrame(data, columns=['姓名', '年龄', '性别'], index=['a', 'b', 'c'])
print(df)

输出：

   姓名  年龄 性别
a  张三  23  男
b  李四  27  女
c  王二  26  女

4）由字典dict组成的列表

import pandas as pd
data = [
    {'姓名': '张三', '年龄': 23, '性别': '男'},
    {'姓名': '李四', '年龄': 27, '性别': '男'},
    {'姓名': '王二', '年龄': 26}
]

df = pd.DataFrame(data)
print(df)

输出：

   姓名  年龄   性别
0  张三  23    男
1  李四  27    男
2  王二  26  NaN

5）由数组array组成的列表

import pandas as pd
import numpy as np
data = [
    np.array(('张三', 23, '男')),
    np.array(('李四', 27, '女')),
    np.array(('王二', 26, '女'))
]
df = pd.DataFrame(data, columns=['姓名', '年龄', '性别'])
print(df)

输出：

   姓名  年龄 性别
0  张三  23  男
1  李四  27  女
2  王二  26  女

6）由序列series组成的列表

第一种

import pandas as pd
data = [
    pd.Series(['张三', '李四', '王二'], index=['a', 'b', 'c']),
    pd.Series([23, 27], index=['a', 'b']),
    pd.Series(['男', '女', '女'], index=['a', 'b', 'c'])
]

df = pd.DataFrame(data, index=['姓名', '年龄', '性别'])
print(df)

输出：

       a     b    c
姓名    张三    李四   王二
年龄  23.0  27.0  NaN
性别     男     女    女

第二种

import pandas as pd
data = {
    '姓名': pd.Series(['张三', '李四', '王二'], index=['a', 'b', 'c']),
    '年龄': pd.Series([23, 27], index=['a', 'b'])
}

df = pd.DataFrame(data)
print(df)

输出：

   姓名    年龄
a  张三  23.0
b  李四  27.0
c  王二   NaN

2.DataFrame的数据查看

1）行索引查看数据

①使用.loc方法进行选取行

.loc[ 行索引, 列索引]方法使用的是对行名称进行选取

df = pd.DataFrame([[1, 2], [4, 5], [7, 8]],
      index=['cobra', 'viper', 'sidewinder'],
      columns=['max_speed', 'shield'])
print(df.loc['viper'])

输出:

max_speed    4
shield       5
Name: viper, dtype: int64

可以使用切片，切片包含末尾值

import pandas as pd
df = pd.DataFrame([[1, 2], [4, 5], [7, 8]],
     index=['cobra', 'viper', 'sidewinder'],
     columns=['max_speed', 'shield'])
print(df)
print(df.loc['viper':'sidewinder'])

输出：

            max_speed  shield
viper               4       5
sidewinder          7       8

可以使用boll值进行选取

import pandas as pd
df = pd.DataFrame([[1, 2], [4, 5], [7, 8]],
     index=['cobra', 'viper', 'sidewinder'],
     columns=['max_speed', 'shield'])
print(df)
print(df.loc[df['shield'] > 4])

输出：

            max_speed  shield
viper               4       5
sidewinder          7       8

②使用.iloc方法进行选取行

df.iloc[row_index位置, column_index位置]方法是对于位置进行选取

import pandas as pd
df = pd.DataFrame([[1, 2], [4, 5], [7, 8]],
     index=['cobra', 'viper', 'sidewinder'],
     columns=['max_speed', 'shield'])
print(df.iloc[[0,1]])

输出：

       max_speed  shield
cobra          1       2
viper          4       5

2）列索引查看数据

通过名称直接选取列

import pandas as pd
df = pd.DataFrame([[1, 2], [4, 5], [7, 8]],
     index=['cobra', 'viper', 'sidewinder'],
     columns=['max_speed', 'shield'])
print(df['max_speed'])

输出：

cobra         1
viper         4
sidewinder    7
Name: max_speed, dtype: int64

3）数据表信息查看

参数名称

说明df.shape维度查看df.info()数据表基本信息（维度、列名称、数据格式、所占空间等）df.dtypes每一列数据的格式df[‘B’].dtype某一列格式df.isnull()空值df[‘B’].isnull()查看某一列空值df[‘B’].unique()查看某一列的唯一值df.values查看数据表的值df.columns查看列名称df.head()
#默认前5行数据

查看前5行数据df.tail()
#默认后5行数据

查看后5行数据

3.DataFram数据表的处理

1）对行进行增添与删除

①添加数据行

使用 append() 函数，可以将新的数据行添加到 DataFrame 中，该函数会在行末追加数据行。

import pandas as pd
df = pd.DataFrame([[1, 2], [3, 4]], columns = ['a','b'])
df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['a','b'])

df = df.append(df2)
print(df)

输出：

②删除数据行

可以使用行索引标签，从 DataFrame 中删除某一行数据。如果索引标签存在重复，那么它们将被一起删除。

import pandas as pd
df = pd.DataFrame([[1, 2], [3, 4]], columns = ['a','b'])
df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['a','b'])
df = df.append(df2)
print(df)

df = df.drop(0)
print (df)

输出：

执行drop(0)前：
   a  b
0  1  2
1  3  4
0  5  6
1  7  8

执行drop(0)后：
  a b
1 3 4
1 7 8

2）对列进行增添与删除

列索引添加数据列

①使用 columns 列索引表标签可以实现添加新的数据列

import pandas as pd
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
   'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)

df['three']=pd.Series([10,20,30],index=['a','b','c'])
print(df)

df['four']=df['one']+df['three']
print(df)

输出：

使用列索引创建新数据列:
     one   two   three
a    1.0    1    10.0
b    2.0    2    20.0
c    3.0    3    30.0
d    NaN    4    NaN

已存在的数据列做算术运算：
      one   two   three    four
a     1.0    1    10.0     11.0
b     2.0    2    20.0     22.0
c     3.0    3    30.0     33.0
d     NaN    4     NaN     NaN

②使用 insert() 方法插入新的列

import pandas as pd
info=[['Jack',18],['Helen',19],['John',17]]
df=pd.DataFrame(info,columns=['name','age'])
print(df)

df.insert(1,column='score',value=[91,90,75])
print(df)

输出：

添加前：
    name  age
0   Jack   18
1  Helen   19
2   John   17

添加后：
    name  score  age
0   Jack     91   18
1  Helen     90   19
2   John     75   17

列索引删除数据列

通过 del 和 pop() 都能够删除 DataFrame 中的数据列

import pandas as pd
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
   'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']),
   'three' : pd.Series([10,20,30], index=['a','b','c'])}
df = pd.DataFrame(d)
print ("Our dataframe is:")
print(df)

del df['one']
print(df)

df.pop('two')
print (df)

输出：

原DataFrame:
      one   three  two
a     1.0    10.0   1
b     2.0    20.0   2
c     3.0    30.0   3
d     NaN     NaN   4

使用del删除 first:
      three    two
a     10.0     1
b     20.0     2
c     30.0     3
d     NaN      4

使用 pop()删除:
   three
a  10.0
b  20.0
c  30.0
d  NaN

3）对数据表中缺失值的处理

数据例子：

; ①检测

可以使用df.isnull()函数显示空值

②删除

运用df.dropna()的方法

DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

参数说明：

axis：指定的轴，默认为0也就是参照对每行进行操作，1就为列。
how：可以为any也可以为all，对整体或者部分进行操作。
thresh:一行或一列中至少出现了多少个空值才删除。
subset：在某些列的子集中选择出现了缺失值的列删除，不在子集中的含有缺失值得列或行不会删除（有axis决定是行还是列）
inplace：是否替换原数据集。

实际操作：

df1.dropna(axis=0,how='any',inplace=False)

③填充

运用df.fillna()的方法

DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)

参数说明：

value：将空值替换成任意设定的值
method：method参数的取值： {‘pad’, ‘ffill’,’backfill’, ‘bfill’, None}, default None
ffill:用缺失值前面的一个值代替缺失值，如果axis =1，那么就是横向的前面的值替换后面的缺失值，如果axis=0，那么则是上面的值替换下面的缺失值。backfill/bfill，缺失值后面的一个值代替前面的缺失值。注意这个参数不能与value同时出现。
向上填充method=’ffill’、向下填充method=’bfill’，
axis:指定改变的轴，默认为0也就是对每行操作。
inplace：是否替换原数据集。
limit参数：限制填充个数。

4）数据表的和并

pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
              keys=None, levels=None, names=None, verify_integrity=False,
              copy=True)

objs︰一个序列或系列、综合或面板对象的映射。如果字典中传递，将作为键参数，使用排序的键，除非它传递，在这种情况下的值将会选择
（见下文）。任何没有任何反对将默默地被丢弃，除非他们都没有在这种情况下将引发 ValueError。
axis: {0，1，…}，默认值为 0。要连接沿轴。
join: {‘内部’、 ‘外’}，默认 ‘外’。如何处理其他 axis(es) 上的索引。联盟内、外的交叉口。
ignore_index︰布尔值、默认 False。如果为 True，则不要串联轴上使用的索引值。由此产生的轴将标记
0，…，n-1。这是有用的如果你串联串联轴没有有意义的索引信息的对象。请注意在联接中仍然受到尊重的其他轴上的索引值。
join_axes︰索引对象的列表。具体的指标，用于其他 n-1 轴而不是执行内部/外部设置逻辑。 keys︰
序列，默认为无。构建分层索引使用通过的键作为最外面的级别。如果多个级别获得通过，应包含元组。
levels︰列表的序列，默认为无。具体水平（唯一值）用于构建多重。否则，他们将推断钥匙。
names︰列表中，默认为无。由此产生的分层索引中的级的名称。
verify_integrity︰布尔值、默认 False。检查是否新的串联的轴包含重复项。这可以是相对于实际数据串联非常昂贵。

例子：1.frames = [df1, df2, df3]
          2.result = pd.concat(frames)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zL4f3Es6-1667044558536)(https://gitee.com/yuan6222/images/raw/master/20180611091426153)]

5）DataFrame的分组求和

①groupby()进行分组

给groupby()传入一个列表，列表中的元素为分类字段，从左到右分类级别增大。(一级分类、二级分类…)

import pandas as pd
data = [['a', 'A', 109], ['b', 'B', 112], ['c', 'A', 125], ['d', 'C', 120],
        ['e', 'C', 126], ['f', 'B', 133], ['g', 'A', 124], ['h', 'B', 134],
        ['i', 'C', 117], ['j', 'C', 128]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
columns = ['name', 'class', 'num']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("=================================================")
df1 = df.groupby('class').sum()
print(df1)

输出：

  name class  num
0    a     A  109
1    b     B  112
2    c     A  125
3    d     C  120
4    e     C  126
5    f     B  133
6    g     A  124
7    h     B  134
8    i     C  117
9    j     C  128
=================================================
       num
class
A      358
B      379
C      491

②agg()函数进行聚合运算

使用groupby()函数和agg()函数实现分组聚合操作运算

import pandas as pd
data = [['a', 'A', '1等', 109, 144], ['b', 'C', '1等', 112, 132], ['c', 'A', '1等', 125, 137], ['d', 'B', '2等', 120, 121],
        ['e', 'B', '1等', 126, 136], ['f', 'B', '2等', 133, 127], ['g', 'C', '2等', 124, 126], ['h', 'A', '1等', 134, 125],
        ['i', 'C', '2等', 117, 125], ['j', 'A', '2等', 128, 133], ['h', 'B', '1等', 130, 122], ['i', 'C', '2等', 122, 111]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
columns = ['name', 'class_1', 'class_2', 'num1', 'num2']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("===============================")
df1 = df[['class_1', 'class_2', 'num1', 'num2']]
print(df1.groupby(['class_1', 'class_2']).agg(['mean', 'sum']))

输出：

                       num1             num2
                       mean  sum        mean  sum
class_1 class_2
A       1等       122.666667  368  135.333333  406
        2等       128.000000  128  133.000000  133
B       1等       128.000000  256  129.000000  258
        2等       126.500000  253  124.000000  248
C       1等       112.000000  112  132.000000  132
        2等       121.000000  363  120.666667  362

对不同列使用不同聚合函数：给agg()方法传入一个字典

import pandas as pd
data = [['a', 'A', '1等', 109, 144], ['b', 'C', '1等', 112, 132], ['c', 'A', '1等', 125, 137], ['d', 'B', '2等', 120, 121],
        ['e', 'B', '1等', 126, 136], ['f', 'B', '2等', 133, 127], ['g', 'C', '2等', 124, 126], ['h', 'A', '1等', 134, 125],
        ['i', 'C', '2等', 117, 125], ['j', 'A', '2等', 128, 133], ['h', 'B', '1等', 130, 122], ['i', 'C', '2等', 122, 111]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
columns = ['name', 'class_1', 'class_2', 'num1', 'num2']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("===============================")
df1 = df[['class_1', 'num1', 'num2']]
print(df1.groupby('class_1').agg({'num1': ['mean', 'sum'], 'num2': ['sum']}))

输出：

           num1      num2
           mean  sum  sum
class_1
A        124.00  496  539
B        127.25  509  506
C        118.75  475  494

6）对DataFrame的某一列进行排序

若要降序排序则应该添加参数 ascending=False

①按索引排序df.sort_index()

原始数据：

import pandas as pd
data = {
    'brand': ['C', 'PHP', 'c++', 'Python', 'Java'],
    'B': [4, 6, 8, 12, 10],
    'A': [10, 2, 5, 20, 16],
    'D': [6, 18, 14, 6, 12],
    'years': [4, 1, 1, 30, 30],
    'C': [8, 12, 18, 8, 2],
}

index = [9, 3, 4, 5, 2]

df = pd.DataFrame(data=data, index=index)
print(df)

输出：

    brand   B   A   D  years   C
9       C   4  10   6      4   8
3     PHP   6   2  18      1  12
4     c++   8   5  14      1  18
5  Python  12  20   6     30   8
2    Java  10  16  12     30   2

进行排序：

df.sort_index()

输出：

    brand   B   A   D  years   C
2    Java  10  16  12     30   2
3     PHP   6   2  18      1  12
4     c++   8   5  14      1  18
5  Python  12  20   6     30   8
9       C   4  10   6      4   8

②按数值排序df.sort_values()

df.sort_values('B')

输出：

    brand   B   A   D  years   C
9       C   4  10   6      4   8
3     PHP   6   2  18      1  12
4     c++   8   5  14      1  18
2    Java  10  16  12     30   2
5  Python  12  20   6     30   8

可同时进行多列进行排序，当第一个列中的参数相等时则根据第二个列进行排序

df.sort_values(['years','B'])

输出：

    brand   B   A   D  years   C
3     PHP   6   2  18      1  12
4     c++   8   5  14      1  18
9       C   4  10   6      4   8
2    Java  10  16  12     30   2
5  Python  12  20   6     30   8

4.读取文档文件

1、pandas读取xlsx、xls文件

import pandas as pd
data=pd.read_excel('path',sheetname='sheet1',header=0,names=['第一列','第二列','第三列'])

path:要读取的文件的绝对路径

sheetname：指定读取excel中的哪一个工作表，默认sheetname=0，即默认读取excel中的第一个工作表
若sheetname = ‘sheet1’，即读取excel中的sheet1工作表；

header:用作列名的行号，默认为header=0

若header=None,则表明数据中没有列名行

若header=0，则表明第一行为列名

2、pandas读取csv文件

import pandas as pd
data=pd.read_csv('path',sep=',',header=0,names=["第一列"，"第二列"，"第三列"]，encoding='utf-8')

path: 要读取的文件的绝对路径

sep:指定列和列的间隔符，默认sep=’,’

若sep=”\t”,即列与列之间用制表符\t分割，相当于tab——四个空格

header:列名行，默认为0

names:列名命名或重命名

encoding:指定用于unicode文本编码格式
4 8
2 Java 10 16 12 30 2
5 Python 12 20 6 30 8


### 4.&#x8BFB;&#x53D6;&#x6587;&#x6863;&#x6587;&#x4EF6;

#### 1&#x3001;pandas&#x8BFB;&#x53D6;xlsx&#x3001;xls&#x6587;&#x4EF6;

`python
import pandas as pd
data=pd.read_excel('path',sheetname='sheet1',header=0,names=['&#x7B2C;&#x4E00;&#x5217;','&#x7B2C;&#x4E8C;&#x5217;','&#x7B2C;&#x4E09;&#x5217;'])

path:要读取的文件的绝对路径

sheetname：指定读取excel中的哪一个工作表，默认sheetname=0，即默认读取excel中的第一个工作表
若sheetname = ‘sheet1’，即读取excel中的sheet1工作表；

header:用作列名的行号，默认为header=0

若header=None,则表明数据中没有列名行

若header=0，则表明第一行为列名

2、pandas读取csv文件

import pandas as pd
data=pd.read_csv('path',sep=',',header=0,names=["第一列"，"第二列"，"第三列"]，encoding='utf-8')

path: 要读取的文件的绝对路径

sep:指定列和列的间隔符，默认sep=’,’

若sep=”\t”,即列与列之间用制表符\t分割，相当于tab——四个空格

header:列名行，默认为0

names:列名命名或重命名

encoding:指定用于unicode文本编码格式

Original: https://blog.csdn.net/m0_73721001/article/details/127591174
Author: 程序～源
Title: pandas学习笔记之DateFrame

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/675834/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

小白CRF++训练中文命名实体识别

CRF++训练中文命名实体识别本文不涉及任何知识点的介绍，有兴趣自行查询。完全从小白到命名实体识别训练参考文章如下：python CRF中文分词（crf++工具）用CRF做命名…

人工智能 2023年6月1日
00107
数据导入与预处理-课程总结-01~03章

数据导入与预处理-课程总结-01~03章第1章数据预处理概述 * 1.1 基本概念 – 1.1.1 大数据项目开发流程 1.1.2 什么是数据预处理 1.1.3 数…

人工智能 2023年6月29日
0066
COCO格式转YOLO

环境 window 10 64bit coco yolo 前言前文 MS COCO数据集介绍过了 COCO 数据集， COCO 是将所有图片对应的标注信息写在了一个 json …

人工智能 2023年5月28日
0072
【详细】Ubuntu18.04更新CUDA版本（以安装CUDA11.4为例）

CUDA安装官方教程：官方教程cuDNN安装官方教程：官方教程在配置Pytorch环境的时候，想着尝试一下新版本的pytorch版本Stable(1.10.1)时，发现这个pyt…

人工智能 2023年6月17日
00108
Python中使用MySQL

Python中使用MySQL 一、前言二、下载安装MySQL * 1.下载MySQL 2.安转MySQL 3.设置环境变量 4.启动MySQL 5.使用Navicat for M…

人工智能 2023年7月5日
0085
3D点云深度学习-浅谈点云分割

先说一点题外话研究生三年，开始学了一年的图像检测，还没学明白，然后实验室都开始做点云，就转到点云方向做了两年，没什么大成就，因为感觉我学了两年时间刚刚入门，而且大多数的学习都是跑…

人工智能 2023年6月17日
0093
pandas数据组合

数据组合常用的方法有concat方法、append方法和merge方法，根据数据的特点不同，有不同的连接方式。 1、添加行通过concat方法添加行，列相同时添加的行会在原来的列…

人工智能 2023年7月8日
0077
语言模型的计算N-gram

语言模型：例如在语音识别中，给定一段”厨房里食油用完了”的语音，有可能会输出”厨房里食油用完了”和”厨房里石油用完了&#…

人工智能 2023年5月25日
0087
python2.7配置tensorflow1.5.0和keras2.1.6

说明：由于ROS使用的是python2，而之前网络模型训练的是python3.7，所以直接迁移会报错，需要重新配置python2.7的环境。 1. tensorflow的版本如果…

人工智能 2023年5月24日
0071
复现开源论文代码总结

复现开源论文代码总结 1. 找到开源论文的代码 2. 阅读README.md说明文档 3. 代码下载与解压 4. 配置环境、下载数据集与预训练权重 5. 运行代码，排错参考随着…

人工智能 2023年7月27日
0046
用Python提取图片中的文字——百度智能云API

百度智能云有很多功能，直接接入接口就可以调用函数使用，这里我们使用简单的方式，直接调用，不适用OpenCV、TensorFlow啥的。。毕竟我不是大佬。。。安装库首先安装Pyt…

人工智能 2023年5月27日
00100
深入浅出网络编程TCP，UDP，Socket，Http网络编程面试题

目录什么是网络编程网络编程中的主要问题计算机网络体系结构 TCP / UDP Socket HTTP 什么是网络编程网络编程中的主要问题计算机网络体系结构 OSI 参考模…

人工智能 2023年7月29日
0048
浅谈LSB隐写解题与出题

点击”蓝字”关注，获取更多技术内容！前言：LSB隐写在CTF中属于出现得比较多的类型。这篇文章对LSB隐写的原理，解题方法，出题脚本，以及LSB隐写特性进…

人工智能 2023年7月19日
0068
Pytorch深度学习——用卷积神经网络实现MNIST数据集分类

目录 1 准备数据集 2 建立模型 3 构造损失函数+优化器 4 训练+测试 5 完整代码+运行结果步骤：选择 5 x 5 的卷积核，输入通道为 1，输出通道为 10：此时图像…

人工智能 2023年7月22日
0088
C++之变量、数组、结构体与共用体

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月29日
0065
PyTorch ResNet实现图像分类(从模型的训练到Android部署)

1.数据集数据集地址：https://www.kaggle.com/slothkong/10-monkey-species采用kaggle上的猴子数据集，包含两个文件：训练集和验…

人工智能 2023年7月23日
0061

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas学习笔记之DateFrame

文章目录

– 列索引添加数据列

1.DateFrame的创建

1）认识DataFrame对象

2）由二维列表创建(默认index和columns值)

指定索引ndex 和 columns值：

3）由元组tuple组成的列表

4）由字典dict组成的列表

5）由数组array组成的列表

6）由序列series组成的列表

第一种

第二种

2.DataFrame的数据查看

1）行索引查看数据

①使用.loc方法进行选取行

②使用.iloc方法进行选取行

2）列索引查看数据

通过名称直接选取列

3）数据表信息查看

3.DataFram数据表的处理

1）对行进行增添与删除

①添加数据行

②删除数据行

2）对列进行增添与删除

列索引添加数据列

①使用 columns 列索引表标签可以实现添加新的数据列

②使用 insert() 方法插入新的列

列索引删除数据列

3）对数据表中缺失值的处理

; ①检测

②删除

③填充

4）数据表的和并

5）DataFrame的分组求和

①groupby()进行分组

②agg()函数进行聚合运算

6）对DataFrame的某一列进行排序

①按索引排序df.sort_index()

②按数值排序df.sort_values()

4.读取文档文件

1、pandas读取xlsx、xls文件

2、pandas读取csv文件

2、pandas读取csv文件

大家都在看