pandas模块总结一

2023年7月8日上午10:02 • 人工智能 • 阅读 76

pandas模块

1. 基本概念
2. Series的基本操作
*
2.1 Series的创建方法
2.2 获取Series中数据的index、values
2.3 Series的切片和索引
–
- 2.3.1 切片
- 2.3.2 索引
2.4 pandas读取外部数据
3.DataFrame的基本操作
*
3.1 DataFrame的创建
–
3.2 DataFrame的基础属性
3.3 DataFrame对象的整体情况查询
3.4 DataFrame对象排序
3.5 pandas取行或者取列
3.5 pandas获取行列数据之loc、iloc
–
3.6 pandas 布尔索引筛选
3.7 pandas 字符串方法
基本概念

pandas是建立在numpy之上的，用于数据操纵和分析的一个库。
pandas常用的数据结构有两种：Series和DataFrame。

Series的基本操作

Series对象本质上由两个数组构成，一个数组构成对象的键（index索引），一个数组构成对象的值（values），键 -> 值。

2.1 Series的创建方法

import pandas as pd
a = pd.Series(data, index)

举例：

import pandas as pd
import numpy as np

p1 = pd.Series([1, 2, 34, 32, 56, 788, 67])
print(p1)
print(type(p1))
print(p1.dtype)

p2 = pd.Series([1, 2, 34, 56, 34, 12, 78], index=list("abcdefg"))
print(p2)

temp_dict = {"name": "wuyanzu", "age": 22, "tel": 10086}
p3 = pd.Series(temp_dict)
print(p3)

执行结果:
    0      1
    1      2
    2     34
    3     32
    4     56
    5    788
    6     67
    dtype: int64
    <class 'pandas.core.series.Series'>
    int64

    a     1
    b     2
    c    34
    d    56
    e    34
    f    12
    g    78
    dtype: int64

    name    wuyanzu
    age          22
    tel       10086
    dtype: object

2.2 获取Series中数据的index、values

import pandas as pd
import numpy as np

temp_dict = {"name": "wuyanzu", "age": 22, "tel": 10086}
p3 = pd.Series(temp_dict)
print(p3)
print(p3.dtype)
print(p3.index)
print(type(p3.index))
print(p3.values)
print(type(p3.values))

执行结果:
    name    wuyanzu
    age          22
    tel       10086
    dtype: object

    object

    Index(['name', 'age', 'tel'], dtype='object')
    <class 'pandas.core.indexes.base.Index'>

    ['wuyanzu' 22 10086]
    <class 'numpy.ndarray'>

2.3 Series的切片和索引

2.3.1 切片

切片直接传入start、end、步长即可，步长默认为1。

import pandas as pd
import numpy as np
import string

t = pd.Series(np.arange(10), index=list(string.ascii_uppercase[:10]))
print("创建Series类型的对象:\n", t)

t1 = t[0:5]
print("切片得到的结果:\n", t1)

执行结果:
    创建Series类型的对象:
        A    0
        B    1
        C    2
        D    3
        E    4
        F    5
        G    6
        H    7
        I    8
        J    9
        dtype: int32
    切片得到的结果:
        A    0
        B    1
        C    2
        D    3
        E    4
        dtype: int32

2.3.2 索引

一个Series对象中的元素其实就是一组组”键值对”。
（1）传入单个索引，获得对应索引的值；
（2）传入多个索引组成的列表时，获得对应索引的键值对；
（3）传入的是某个”值”，返回就是该值；
（4）传入条件语句，返回满足条件的键值对;
（5）传入的单个索引或索引列表中的索引不存在时，返回的值、键值对中的值为nan（验证后报错？）。

t = pd.Series(np.arange(10), index=list(string.ascii_uppercase[:10]))
print("创建Series类型的对象:\n", t)

t1 = t[0:5]
print("切片得到的结果:\n", t1)

print(t[1])

print(t["A"])

t2 = t[['A', 'D', 'E']]
print(t2)

print(t[t > 4])

执行结果:
    创建Series类型的对象:
        A    0
        B    1
        C    2
        D    3
        E    4
        F    5
        G    6
        H    7
        I    8
        J    9
        dtype: int32

    切片得到的结果:
        A    0
        B    1
        C    2
        D    3
        E    4
        dtype: int32

        1

        0

        A    0
        D    3
        E    4
        dtype: int32

        F    5
        G    6
        H    7
        I    8
        J    9
dtype: int32

2.4 pandas读取外部数据

import pandas as pd

df = pd.read_csv("D:/人工智能课程/【4】14100_HM数据科学库课件/数据分析资料/day04/code/dogNames2.csv")
print(df)

执行结果:
            Row_Labels  Count_AnimalName
    0              1                 1
    1              2                 2
    2          40804                 1
    3          90201                 1
    4          90203                 1
    ...          ...               ...
    16215      37916                 1
    16216      38282                 1
    16217      38583                 1
    16218      38948                 1
    16219      39743                 1

    [16220 rows x 2 columns]

3.DataFrame的基本操作

3.1 DataFrame的创建

3.1.1 传入可迭代对象创建DataFrame对象

DataFrame对象既有行索引，又有列索引。
（1）行索引：表明不同行，横向索引，叫index，axis=0；
（2）列索引：表明不同列，纵向索引，叫columns，axis=1.

import pandas as pd
import numpy as np

df = pd.DataFrame(np.arange(12).reshape(3, 4))
print(df)

执行结果:
       0  1   2   3
    0  0  1   2   3
    1  4  5   6   7
    2  8  9  10  11

3.1.2 传入可迭代对象、index、columns创建DataFrame

import pandas as pd
import numpy as np

df = pd.DataFrame(np.arange(12).reshape(3, 4), index=list("abc"), columns=list("WXYZ"))
print(df)

执行结果:
       W  X   Y   Z
    a  0  1   2   3
    b  4  5   6   7
    c  8  9  10  11

3.1.3 传入列表创建DataFrame

传入的列表中某个键值对不存在时，保留对应的位置，返回NAN。

import pandas as pd
import numpy as np

list1 = {"name": ["xiaoming", "xiaowang"], "age": [15, 23], "tel": [10023, 12340]}
df1 = pd.DataFrame(list1)
print(df1)

list2 = [{"name": "Tom", "age": 18, "tel": 10089}, {"age": 22, "tel": 10078}, {"name": "Lucy", "tel": 12789}]
df2 = pd.DataFrame(list2)
print(df2)

执行结果:
            name     age    tel
        0  xiaoming   15  10023
        1  xiaowang   23  12340

            name  age   tel
        0   Tom  18.0  10089
        1   NaN  22.0  10078
        2  Lucy   NaN  12789

3.2 DataFrame的基础属性

import pandas as pd
import numpy as np

list2 = [{"name": "Tom", "age": 18, "tel": 10089}, {"age": 22, "tel": 10078}, {"name": "Lucy", "tel": 12789}]
print(list2)
df2 = pd.DataFrame(list2)
print(df2)

print("DataFrame对象的行数、列数:", df2.shape)
print("DataFrame对象的列数据类型:", df2.dtypes)
print("DataFrame对象的数据维度:", df2.ndim)
print("DataFrame对象的行索引:", df2.index)
print("DataFrame对象的列索引:", df2.columns)
print("DataFrame对象的对象值:", df2.values)

执行结果:
       name   age    tel
    0   Tom  18.0  10089
    1   NaN  22.0  10078
    2  Lucy   NaN  12789

    DataFrame对象的行数、列数: (3, 3)

    DataFrame对象的列数据类型:
            name     object
            age     float64
            tel       int64
            dtype: object

    DataFrame对象的数据维度: 2

    DataFrame对象的行索引: RangeIndex(start=0, stop=3, step=1)

    DataFrame对象的列索引: Index(['name', 'age', 'tel'], dtype='object')

    DataFrame对象的对象值:
            [['Tom' 18.0 10089]
            [nan 22.0 10078]
            ['Lucy' nan 12789]]

3.3 DataFrame对象的整体情况查询

df.head(3)
df.tail(3)
df.info()
df.describe()

import pandas as pd
import numpy as np

list2 = [{"name": "Tom", "age": 18, "tel": 10089}, {"age": 22, "tel": 10078}, {"name": "Lucy", "tel": 12789}]
print(list2)
df2 = pd.DataFrame(list2)
print(df2)

print("头部2行:", df2.head(2))
print("尾部2行:", df2.tail(2))
print("相关信息概览:")
print(df2.info())
print("快速综合统计结果:\n", df2.describe())

执行结果:
    头部2行:
            name   age    tel
        0  Tom  18.0  10089
        1  NaN  22.0  10078
    尾部2行:
            name   age    tel
        1   NaN  22.0  10078
        2  Lucy   NaN  12789
    相关信息概览:
            <class 'pandas.core.frame.DataFrame'>
            RangeIndex: 3 entries, 0 to 2
            Data columns (total 3 columns):

            ---  ------  --------------  -----
            0   name    2 non-null      object
            1   age     2 non-null      float64
            2   tel     3 non-null      int64
            dtypes: float64(1), int64(1), object(1)
            memory usage: 200.0+ bytes
            None

    快速综合统计结果:
                    age           tel
        count   2.000000      3.000000
        mean   20.000000  10985.333333
        std     2.828427   1562.030836
        min    18.000000  10078.000000
        25%    19.000000  10083.500000
        50%    20.000000  10089.000000
        75%    21.000000  11439.000000
        max    22.000000  12789.000000

3.4 DataFrame对象排序

import pandas as pd
import numpy as np

list2 = [{"name": "Tom", "age": 18, "tel": 10089}, {"name": "Lulu", "age": 34, "tel": 10078},
         {"name": "Lucy", "age": 23, "tel": 12789}]
df2 = pd.DataFrame(list2)
print(df2)

print("排序：")
df_sort = df2.sort_values(by="age", ascending=False)
print(df_sort)

执行结果:
            name  age    tel
        0   Tom   18  10089
        1  Lulu   34  10078
        2  Lucy   23  12789

    排序：
            name  age    tel
        1  Lulu   34  10078
        2  Lucy   23  12789
        0   Tom   18  10089

3.5 pandas取行或者取列

（1）方括号写数组,表示取行,对行进行操作
（2）写字符串,表示的去列索引,对列进行操作

import pandas as pd
import numpy as np

list2 = [{"name": "Tom", "age": 18, "tel": 10089}, {"name": "Lulu", "age": 34, "tel": 10078},
         {"name": "Lucy", "age": 23, "tel": 12789}]
df2 = pd.DataFrame(list2)
print(df2)

print("取行、取列操作")
print("取0、1行:\n",df2[0:2])
print("取age列:\n",df2["age"])
print("取0、1行，age列\n",df2[0:2]["age"])

执行结果:
            name  age    tel
        0   Tom   18  10089
        1  Lulu   34  10078
        2  Lucy   23  12789

    取行、取列操作
    取0、1行:
            name  age    tel
        0   Tom   18  10089
        1  Lulu   34  10078

    取age列:
        0    18
        1    34
        2    23
        Name: age, dtype: int64

    取0、1行，age列
        0    18
        1    34
        Name: age, dtype: int64

3.5 pandas获取行列数据之loc、iloc

（1）df.loc[]通过索引获取数据。
（2）df.iloc[]通过位置获取数据。
（3）行和列之间使用逗号”，”分隔开来；loc中使用 ” : “切片时，左闭右闭，包括[ ] 右边的元素。

3.5.1 df.loc[]

import pandas as pd
import numpy as np

t = pd.DataFrame(np.arange(12).reshape(3, 4), index=list("abc"), columns=list("WXYZ"))
print(t)

print(t.loc["a", "W"])
print(type(t.loc["a", "W"]))

print(t.loc[["a"], ["W"]])
print(type(t.loc[["a"], ["W"]]))

print(t.loc["a", ["W", "X"]])
print(type(t.loc["a", ["W", "X"]]))

print(t.loc[["a","c"],["X","Z"]])
print(type(t.loc[["a","c"],["X","Z"]]))

print(t.loc["a":"c","W":"Z"])
print(type(t.loc["a":"c","W":"Z"]))

执行结果:
           W  X   Y   Z
        a  0  1   2   3
        b  4  5   6   7
        c  8  9  10  11

        0
        <class 'numpy.int32'>

            W
        a   0
        <class 'pandas.core.frame.DataFrame'>

        W    0
        X    1
        Name: a, dtype: int32
        <class 'pandas.core.series.Series'>

            X   Z
        a  1   3
        c  9  11
        <class 'pandas.core.frame.DataFrame'>

            W  X   Y   Z
        a  0  1   2   3
        b  4  5   6   7
        c  8  9  10  11
        <class 'pandas.core.frame.DataFrame'>

3.5.2 df.iloc[]

import pandas as pd
import numpy as np

t = pd.DataFrame(np.arange(12).reshape(3, 4), index=list("abc"), columns=list("WXYZ"))
print(t)

print(t.iloc[0])
print(type(t.iloc[0]))

print(t.iloc[0, 0])
print(type(t.iloc[0, 0]))

print(t.iloc[[0], [0]])
print(type(t.iloc[[0], [0]]))

print(t.iloc[0, [0, 1, 2]])
print(type(t.iloc[0, [0, 1, 2]]))

print(t.iloc[[0, 2], [1, 3]])
print(type(t.iloc[[0, 2], [1, 3]]))

print(t.iloc[0:2, 0:3])
print(type(t.iloc[0:2, 0:3]))

执行结果:
           W  X   Y   Z
        a  0  1   2   3
        b  4  5   6   7
        c  8  9  10  11

        W    0
        X    1
        Y    2
        Z    3
        Name: a, dtype: int32
        <class 'pandas.core.series.Series'>

        0
        <class 'numpy.int32'>

           W
        a  0
        <class 'pandas.core.frame.DataFrame'>

        W    0
        X    1
        Y    2
        Name: a, dtype: int32
        <class 'pandas.core.series.Series'>

            X   Z
        a  1   3
        c  9  11
        <class 'pandas.core.frame.DataFrame'>

            W  X  Y
        a  0  1  2
        b  4  5  6
        <class 'pandas.core.frame.DataFrame'>

3.5.3 赋值更改数据

import numpy as np
import pandas as pd

t = pd.DataFrame(np.arange(12).reshape(3, 4), index=list("abc"), columns=list("WXYZ"))
print(t)

t.loc["a", "W"] = 999
print(t)

t.iloc[2, 3] = 666
print(t)

执行结果:
           W  X   Y   Z
        a  0  1   2   3
        b  4  5   6   7
        c  8  9  10  11

           W  X   Y   Z
        a  999  1   2   3
        b    4  5   6   7
        c    8  9  10  11

           W  X   Y    Z
        a  999  1   2    3
        b    4  5   6    7
        c    8  9  10  666

3.6 pandas 布尔索引筛选

import pandas as pd
import numpy as np

t = pd.DataFrame(np.arange(12).reshape(3, 4), index=list("abc"), columns=list("WXYZ"))
print(t)

print(t[t["W"] > 6])

print(t[(t["W"]>3)&(t["X"]<10)])

执行结果:
       W  X   Y   Z
    a  0  1   2   3
    b  4  5   6   7
    c  8  9  10  11

       W  X   Y   Z
    c  8  9  10  11

       W  X   Y   Z
    b  4  5   6   7
    c  8  9  10  11

3.7 pandas 字符串方法

import pandas as pd
import numpy as np
import string

temp_str = ["hello", "world", "Tom", "abcdefg",
            "huweiyong", "wuyanzu", "jinchengwu", "jinxin",
            "haiqing", "john", "huihui", "Li"]
t = pd.DataFrame(np.array(temp_str).reshape(3, 4), index=list("abc"), columns=list("WXYZ"))
print(t)

print(t[(t["W"].str.len() > 5) & (t["Z"].str.len() < 3)])

执行结果:
                 W        X           Y        Z
        a      hello    world         Tom  abcdefg
        b  huweiyong  wuyanzu  jinchengwu   jinxin
        c    haiqing     john      huihui       Li

                 W        X           Y        Z
        c  haiqing      john       huihui       Li

Original: https://blog.csdn.net/weixin_43188487/article/details/121343584
Author: 北四金城武
Title: pandas模块总结一

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/678273/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pysot训练自己的数据集

1、linux系统激活环境 conda activate pytorch=1.5.1 2、更改数据集参数文件地址：pysot-master/pysot/core/config.p…

人工智能 2023年5月28日
0071
Python数据分析与展示——Pandas基本操作

1.Pandas介绍 Pandas 一个强大的分析结构化数据的工具集，基础是 [Numpy]（提供高性能的矩阵运算）。 Pandas 可以从各种文件格式比如 CSV、JSON、SQ…

人工智能 2023年7月7日
0091
Pandas数据分析13——数据框合并(实现excel的Vlookup功能)

参考书目：《深入浅出Pandas：利用Python进行数据处理与分析》 pandas数据框有时候我们需要合并，对多个数据框一起操作。pandas里面有很多用法，了解一下导入包 i…

人工智能 2023年7月7日
0066
在python中读取和写入CSV文件（你真的会吗？）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月3日
0065
数据分析实际案例之：pandas在餐厅评分数据中的使用

为了更好的熟练掌握pandas在实际数据分析中的应用，今天我们再介绍一下怎么使用pandas做美国餐厅评分数据的分析。数据的来源是UCI ML Repository，包含了一千多…

人工智能 2023年7月17日
0041
OpenCV实战之人脸美颜美型（一）——开发环境搭建

### 回答1：人脸_识别系统是一种利用计算机技术对 _人脸_进行识别和验证的系统。其中， _opencv 人脸_检测是一种基于 _opencv_库的 _人脸_检测算法，可以通过…

人工智能 2023年7月20日
0031
机器学习之支持向量机（SVM）对乳腺癌数据二分类python实现

文章目录 * – 1. 概述 – 2. 标题数学推导 – + * 2.1 函数间隔 * 2.2 几何间隔 * 2.3 支持向量机 –…

人工智能 2023年7月4日
0078
设计模式学习（十五）：策略模式

设计模式学习（十五）：策略模式作者：Grey 原文地址：博客园：设计模式学习（十五）：策略模式 CSDN：设计模式学习（十五）：策略模式策略模式策略模式是一种行为型模式，…

人工智能 2023年6月27日
0061
个人算法重刷记录

文章目录 * – 对于一个字符串，请设计一个高效算法，找到第一次重复出现的字符保证字符串中有重复的字符，字符串的长度小于等于 500 – 实现拷贝数组函数 …

人工智能 2023年6月2日
0083
智能驾驶ADAS算法设计及Prescan仿真(1): 前向碰撞预警FCW算法设计与simulink仿真

前言：本系列文章将对智能驾驶ADAS算法进行完整的介绍，并在simulink中搭建算法模型，并在Prescan中搭建场景并且与simulink联合仿真对ADAS算法进行验证。智能…

人工智能 2023年6月10日
0074
机器学习分类

机器学习分类有监督学习用已知某种或某些特性的样本作为训练集，以建立一个数学模型，再用已建立的模型来预测未知样本，此种方法被称为有监督学习，是最常用的一种机器学习方法。是从标签化…

人工智能 2023年7月2日
0063
基于ResNet50的CIFAR10分类

本次运用了 ResNet50进行了图像分类处理（基于Pytorch) 一、数据集 CIFAR-10数据集共有60000张彩色图像，这些图像是32*32，分为10个类，每类6000张…

人工智能 2023年6月30日
0065
JVM之自动内存管理

文章目录内存结构总览程序计数器（寄存器） * – 各种码之间的关系程序计数器的特点虚拟机栈 * – 虚拟机栈溢出本地方法栈堆Heap * &#8…

人工智能 2023年6月29日
0057
Pandas基础命令速查

Pandas基础命令速查缩写解释 & 库的导入df — 任意的pandas DataFrame(数据框)对象s — 任意的pandas Series(数组)对象panda…

人工智能 2023年7月8日
0042
GraphRNN: Generating Realistic Graphs with Deep Auto-regressive Models 使用深度自回归模型生成现实中的图

原文链接:https://arxiv.org/abs/1802.08773更多细节:Stanford CS224W:Machine Learning with Graphs ; 摘…

人工智能 2023年6月17日
0070
nvidia-docker镜像中tensorflow-gpu无法使用gpu

nvidia-docker之tensorflow-gpu无法使用gpu 一、报错(docker容器中) 二、解决（必须在已经安装好nvidia-docker前提下） * &#821…

人工智能 2023年5月26日
0045

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30