Python Pandas 详细查看处理汇总

2023年7月8日下午11:34 • 人工智能 • 阅读 52

参考:https://www.runoob.com/pandas/pandas-tutorial.html

1 . 安装

    pip install pandas

2 . Series

Series 由索引（index）和列组成

pandas.Series( data, index, dtype, name, copy)
    import pandas as pd

创建


import pandas as pd
import pandas as np

print(pd.Series([3,0.5,"liucd"]))

print(pd.Series(["i","ii","iii"],[3,0.5,"liucd"]))

print(pd.Series({"a1":"aa","a2":"bb"}))

读取

a=pd.Series({"a1":"aa","a2":"bb"})
print(a["a1"],a[1])

输出

3          i
0.5       ii
liucd    iii
dtype: object
aa bb

3 . DataFrame

DataFrame&#x8868;&#x683C;&#x578B;   (&#x884C;\&#x5217; &&#x7D22;&#x5F15;)

3.1 导入 csv 或 xlsx文件

    df=pd.read_csv("nba.csv")
    df1=pd.DataFrame(pd.read_csv("nba.csv",header=10))
    df2=pd.read_excel("名单.xlsx")
    print(df,df1)

3.2.1 用pandas创建数据表 (一)

    df = pd.DataFrame({
        "id":[1001,1002,1003,1004,1005,1006],
        "date":pd.date_range('20130102', periods=6),
        "city":['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],
        "age":[23,44,54,32,34,32],
        "category":['100-A','100-B','110-A','110-C','210-A','130-F'],
        "price":[1200,np.NaT,2133,5433,np.NaT,4432]},
        columns =['id','date','city','category','age','price'])
    print(df)

3.2.1 用pandas创建数据表 (二)

    df2=pd.DataFrame([
        [1001,"liucd",372832197612068535,65,135.5,"男","山东","高兴"],
        [1002,"jiangdab",512750197406168531,29,120,"女","四川","高兴"],
        [1005,"xiaonz",371321199009113651,18,98,"女","山东","高兴"],
        [1004,"liuyh",np.NaT,15,108,"男","山东","高兴"]],
        columns=["编号","姓名","身份证号码","年龄","体重","性别","省份","情绪"])
    print(df2)

    Id       date         city category  age price
    0  1001 2013-01-02     Beijing     100-A   23  1200
    1  1002 2013-01-03           SH    100-B   44   NaT
    2  1003 2013-01-04   guangzhou     110-A   54  2133
    3  1004 2013-01-05     Shenzhen    110-C   32  5433
    4  1005 2013-01-06     shanghai    210-A   34   NaT
    5  1006 2013-01-07     BEIJING     130-F   32  4432

         &#x7F16;&#x53F7;        &#x59D3;&#x540D;               &#x8EAB;&#x4EFD;&#x8BC1;&#x53F7;&#x7801;  &#x5E74;&#x9F84;     &#x4F53;&#x91CD; &#x6027;&#x522B;  &#x7701;&#x4EFD;  &#x60C5;&#x7EEA;
    0  1001     liucd  372832197612068535  65  135.5  &#x7537;  &#x5C71;&#x4E1C;  &#x9AD8;&#x5174;
    1  1002  jiangdab  512750197406168531  29  120.0  &#x5973;  &#x56DB;&#x5DDD;  &#x9AD8;&#x5174;
    2  1005    xiaonz  371321199009113651  18   98.0  &#x5973;  &#x5C71;&#x4E1C;  &#x9AD8;&#x5174;
    3  1004     liuyh                 NaT  15  108.0  &#x7537;  &#x5C71;&#x4E1C;  &#x9AD8;&#x5174;

查看数据表信息
引入

  import pandas as pd
  df=pd.read_excel("&#x5236;&#x9020;&#x4E2D;&#x5FC3;-&#x8F66;&#x8EAB;&#x90E8;&#x82B1;&#x540D;&#x518C;3.23.xlsx")

4.0 查看共多少行

pd.index.size

4.1 查看单/多行

    print(df2.loc[3])
    print(df2.loc[3].values)
    print(df2[3:4])
    print(df2[3:4].values)

竖版显示
*

        &#x5E8F;&#x53F7;                        1
    &#x59D3;&#x540D;                      &#x738B;&#x5E86;&#x5E05;
    &#x90AE;&#x7BB1;          79117901@qq.com
    &#x5DE5;&#x53F7;                  2018060
    &#x72B6;&#x6001;                       &#x79BB;&#x804C;
    &#x51FA;&#x751F;&#x65E5;&#x671F;    1986-09-02 00:00:00
    &#x624B;&#x673A;              15562109936
    &#x8EAB;&#x4EFD;&#x8BC1;      371122198609023136
    Name: 0, dtype: object

横版显示

     &#x5E8F;&#x53F7;   &#x59D3;&#x540D;               &#x90AE;&#x7BB1;  ...       &#x51FA;&#x751F;&#x65E5;&#x671F;           &#x624B;&#x673A;                 &#x8EAB;&#x4EFD;&#x8BC1;
    0   1  &#x738B;&#x5E86;&#x5E05;  79117901@qq.com  ... 1986-09-02  15562109936  371122198609023136
    1   2  &#x9AD8;&#x7EE7;&#x671D;   6007200@qq.com  ... 1989-08-03  13573971069  371321198908036919

[2 rows x 8 columns]

4.2 查看列


    print(df.columns.values)

    print(df["姓名"])
    print(df[df.columns[2]])

列标签

  Index(['&#x59D3;&#x540D;', '&#x90AE;&#x7BB1;', '&#x5DE5;&#x53F7;', '&#x72B6;&#x6001;', '&#x51FA;&#x751F;&#x65E5;&#x671F;', '&#x624B;&#x673A;', '&#x8EAB;&#x4EFD;&#x8BC1;'], dtype='object'

显示列

  0     &#x738B;&#x5E86;&#x5E05;
  1     &#x9AD8;&#x7EE7;&#x671D;
  2     &#x9EC4;&#x4F20;&#x519B;
  3     &#x5F20;&#x4F20;&#x7EB2;
  4     &#x725B;&#x6566;&#x7389;
  5     &#x5218;&#x4E43;&#x519B;
  6     &#x5B59;&#x540C;&#x8D85;
  7     &#x738B;&#x6CBB;&#x658C;

4.2 维度查看/区域查看


print("维度(行列)查看",df2.shape)
print("区域 2行 3列",df2.iloc[:2,:3])
print("区域 1,2,4行,2,5列",df2.iloc[[1,2,4],[2,5]])

    &#x533A;&#x57DF; 2&#x884C; 3&#x5217;      &#x7F16;&#x53F7;        &#x59D3;&#x540D;               &#x8EAB;&#x4EFD;&#x8BC1;&#x53F7;&#x7801;
    0  1001     liucd  372832197612068535
    1  1002  jiangdab  512750197406168531
    &#x533A;&#x57DF;                   &#x8EAB;&#x4EFD;&#x8BC1;&#x53F7;&#x7801;  &#x672A;&#x6210;&#x5E74;
    1    512750197406168531    N
    2    371321199009113651    Y
    new   37132120611258530  1

4.3 数据表基本信息

print("info",df2.info())

4.4 列格式

print(df2.dtypes)
print(df2["身份证号码"].dtype)

4.5 统计空值

print(df2.isnull())

4.6 查看数据表的值

print(df2.values)

4.7 查看列名称标签

print("列标签",df2.columns)
print("单一列标签",df2.columns[2])

5 . 数据清洗

三数据清洗

1 用数字0 填充空值

print(df2.fillna(value=0))

2 更改列名称

print(df2.rename(columns={"&#x59D3;&#x540D;":"&#x6027;&#x547D;"}))

3 数据替换

print(df2["&#x59D3;&#x540D;"].replace("xiaonz","xiaonz---2"))

4 清洗格式错误数据## 清洗数据格式

    df6=pd.DataFrame({
        "日期" : ['2020/12/01', '2020/12/02', '20201226'],
        "销售额" : [50, 30, 78]},index=["day1","day2","day3"])
    df6["日期"]=pd.to_datetime(df6["日期"])
    print(df6)

         &#x65E5;&#x671F;  &#x9500;&#x552E;&#x989D;
    day1 2020-12-01   50
    day2 2020-12-02   30
    day3 2020-12-26   78

6 .数据预处理

6.1 把列作为索引/重设索引

print(df2.set_index("&#x8EAB;&#x4EFD;&#x8BC1;&#x53F7;&#x7801;"))
print(df2.reset_index())

6.2 按列排序

print("*&#x6309;&#x5217; &#x6392;&#x5E8F;*",df2.sort_values("&#x7F16;&#x53F7;"))

6.3 插入列

df2.insert(5,column="&#x672A;&#x6210;&#x5E74;",value=["Y","N","Y","Y"])
print("&#x589E;&#x52A0; &#x672A;&#x6210;&#x5E74; &#x5217;",df2)

6.4 插入(替换)行

df2.loc["new"]=[1008,"liuyi",37132120611258530,17,"Y",128,"&#x7537;","&#x4E0A;&#x6D77;","&#x7279;&#x9AD8;"]

print("&#x589E;&#x52A0; &#x5218;&#x4EBF; &#x884C;",df2)

6.5 如果年龄大于18显示成年,否则未成年

df3=df2.copy()
df3["&#x672A;&#x6210;&#x5E74;"][df3["&#x5E74;&#x9F84;"]>=18]="&#x6210;&#x5E74;"
df3["&#x672A;&#x6210;&#x5E74;"][df3["&#x5E74;&#x9F84;"]<18]="未成年" print("判断是否成年",df2) < code></18]="未成年">

6.6 多条件筛选山东 + 体重>100 &和 | 或

bf4=df2[(df2["&#x5E74;&#x9F84;"]<18) &(df2["省份"]="="&#x5C71;&#x4E1C;")],"&#x7279;&#x522B;&#x6807;&#x8BB0;"" print("成年+山东",bf4) < code></18)>

6.7 省份满足山东

print("&#x7701;&#x4EFD;&#x6EE1;&#x8DB3;&#x5C71;&#x4E1C;",df2[df2["&#x7701;&#x4EFD;"]=="&#x5C71;&#x4E1C;"])

6.8 多条件筛选

print("&#x63D0;&#x53D6;&#x4E0A;&#x6D77;&#x548C;&#x56DB;&#x5DDD;&#x7684;",df2[df2["&#x7701;&#x4EFD;"].isin(["&#x4E0A;&#x6D77;","&#x56DB;&#x5DDD;"])])

7 .数据汇总

7.1 汇总

    print("&#x6570;&#x636E;&#x6C47;&#x603B; &#x7EB5;&#x5411;",df2["&#x5E74;&#x9F84;"].sum())
    print("&#x6570;&#x636E;&#x6C47;&#x603B; &#x6A2A;&#x5411;",df2.sum(axis=1))

7.2 对指定字段汇总,例如山东的几个

    print(df2.groupby("&#x7701;&#x4EFD;").count())

7.3

7 .Pandas CSV

CSV   &#x6570;&#x5B57;+&#x6587;&#x672C;  = &#x8868;&#x683C;   &#x9017;&#x53F7;  &#x5206;&#x5272;

载入

data=pd.read_csv("nbb.csv",encoding="utf-8")
print(data)
print(data.to_string())
print(data.head(10))

    &#x59D3;&#x540D;  &#x5E74;&#x9F84;        &#x7701;&#x4EFD;
0    liucd  28  shandong
1  jiangdb  18   sichuan
2   xiaonz  22  shandong

创建

data1=pd.DataFrame([["liucd",28,"shandong"],["jiangdb",18,"sichuan"],["xiaonz",22,"shandong"],["哎"]],columns=["姓名","年龄","省份"])
data1.to_csv("名单.csv")
print(data1)

打印文本信息

    print(data1.info())

`

RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
# Column Non-Null Count Dtype

Original: https://blog.csdn.net/sdgpcc2000/article/details/121094323
Author: 刘长栋
Title: Python Pandas 详细查看处理汇总

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/679537/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

SBW(线控转向系统Matlab/Simulink模型搭建)

线控转向系统主要分为六大模块，分别是方向盘模块、路感模拟模块、转向执行模块、齿轮齿条模块和左、右转向前轮模块。先单独对每个子系统进行建模，最后进行联合仿真实验。第三节：转向执行…

人工智能 2023年6月2日
0075
Python爬虫 BeautifulSoup（bs4）– bs4介绍、安装bs4、bs4基础语法

BeautifulSoup简介 BeautifulSoup简称： bs4 。什么是BeatifulSoup？ BeautifulSoup，和lxml一样，是一个html的解析器，…

人工智能 2023年7月5日
0084
多分类任务的混淆矩阵

今天我将讨论如何在多分类中使用混淆矩阵评估模型的性能。什么是混淆矩阵？它显示了实际值和预测值之间的差异。它告诉我们有多少数据点被正确预测，哪些数据点没有被正确预测。对于多分类…

人工智能 2023年6月19日
0092
专题导读：基于大数据的知识图谱及其应用

点击上方蓝字关注我们随着大数据时代的到来，知识工程迎来了新的发展机遇。特别是在谷歌公司2012年公布了知识图谱（knowledge graph）项目用于增强其搜索引擎的性能之后，…

人工智能 2023年6月1日
00112
解决pandas：ValueError: Cannot convert non-finite values (NA or inf) to integer

解决pandas：ValueError: Cannot convert non-finite values (NA or inf) to integer 目录解决pandas：V…

人工智能 2023年6月19日
00129
神经网络学习小记录55——Keras搭建常见分类网络平台（VGG16、MobileNet、ResNet50）

神经网络学习小记录55——Keras搭建常见分类网络平台（VGG16、MobileNet、ResNet50）学习前言源码下载分类网络的常见形式分类网络介绍 * 1、VGG1…

人工智能 2023年7月1日
0081
机器学习西瓜书学习记录-第三章线性模型

第3章线性模型 3.1基本形式给定d个属性描述的示例x=(x 1 x_1 x 1 ;x 2 x_2 x 2 ;…;x d x_d x d ),x i x_i x…

人工智能 2023年6月16日
0044
语义分割系列2-Unet（pytorch实现）

Unet发布于MICCAI。其论文的名字也说得相对很明白，用于生物医学图像分割。《U-Net: Convolutional Networks for Biomedical Ima…

人工智能 2023年6月24日
0079
初学树莓派——（六）树莓派安装OpenCV及USB摄像头配置

目录 1、安装OpenCV 1.1前言 1.2换源及源内容更新 1.3安装依赖 1.4下载whl包 1.5安装OpenCV 1.6检查安装 2、USB摄像头配置（同时检查OpenC…

人工智能 2023年6月25日
0090
半监督学习的研究方向和未来发展趋势是什么

1. 介绍半监督学习是机器学习领域的一个重要研究方向，它利用有标签和无标签的数据来训练模型，以提高预测性能。相比于传统的监督学习，半监督学习可以在有限的有标签数据下利用更多的无标…

人工智能 2024年1月1日
0030
理解Linemod匹配算法

理解Linemod匹配算法 Linemod算法是一种基于形状的模板匹配算法，相较于历史工作，该算法通过量化梯度角度方法，利用现代计算机SIMD技术，实现更为快速的匹配。可以认为Li…

人工智能 2023年6月18日
0076
第五章人工神经网络

第五章人工神经网络 0. 神经网络前言介绍 1. 神经元与神经网络 2. 网络模型参数学习 * 2.1 损失函数 2.2 反向传播算法 2.3 BP神经网络 – 2….

人工智能 2023年7月17日
0063
AbstractHandlerMethodMapping类的功能简介说明

转自: AbstractHandlerMethodMapping类的功能简介说明下文笔者将讲述AbstractHandlerMethodMapping类的功能简介，如下所示: A…

人工智能 2023年6月27日
0061
论文阅读笔记：Tacotron和Tacotron2

提示：阅读论文时，对相关思路、结构、优缺点进行梳理，提炼并记录内容，论文及相关引文注明出处。 [En] Tips: when reading the paper, carry on…

人工智能 2023年5月27日
0098
SPSS/PROCESS-中介检验

想要学习更多数据分析知识，请关注”数据分析成长记”微信公众号，更多精彩文章等你来读！ 01 模型说明简单回归模型方程为： Y=i+c*X+e 模型中将X的…

人工智能 2023年6月19日
0094
浅谈GCN

文章目录一：GCN与GNN的区别二：GCN原理 * – Step1: 求图模型的邻接矩阵和度矩阵 Step2：进行特征计算 + ① 邻接矩阵的改变 ② 度矩阵的改变…

人工智能 2023年6月22日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python Pandas 详细 查看 处理 汇总

创建

读取