初识数据分析01——Pandas入门

2023年8月9日上午1:35 • Python • 阅读 32

导入 Pandas 与 NumPy：

In [1]: import numpy as np

In [2]: import pandas as pd

载入数据

pd.read_csv()

分块读取

pd.read_csv('train.csv', chunksize=1000)

查看数据的基本信息

df.info()

判断数据是否为空，为空的地方返回True，其余地方返回False

df.isnull().

保存数据

df.to_csv()

Pandas Series 类似表格中的一个列（column），类似于一维数组，可以保存任何数据类型。

Series 由索引（index）和列组成，函数如下：

pandas.Series( data, index, dtype, name, copy)

参数说明：

data：一组数据(ndarray 类型)。
index：数据索引标签，如果不指定，默认从 0 开始。
dtype：数据类型，默认会自己判断。
name：设置名称。
copy：拷贝数据，默认为 False。

DataFrame 是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型值）。DataFrame 既有行索引也有列索引，它可以被看做由 Series 组成的字典（共同用一个索引）。

DataFrame 构造方法如下：

pandas.DataFrame( data, index, columns, dtype, copy)

参数说明：

data：一组数据(ndarray、series, map, lists, dict 等类型)。
index：索引值，或者可以称为行标签。
columns：列标签，默认为 RangeIndex (0, 1, 2, …, n) 。
dtype：数据类型。
copy：拷贝数据，默认为 False。

pd.DataFrame(np.arange(8).reshape((2,4)),index=[2,1],columns=['d', 'a', 'b', 'c'])


frame2 = pd.DataFrame([[1.4, np.nan],
                       [7.1, -4.5],
                       [np.nan, np.nan],
                       [0.75, -1.3]
                      ], index=['a', 'b', 'c', 'd'], columns=['one', 'two'])
frame2

【代码解析】
pd.DataFrame() ：创建一个DataFrame对象
np.arange(8).reshape((2, 4)) : 生成一个二维数组（2*4）,第一列：0，1，2，3 第二列：4，5，6，7
index=[‘2, 1] ：DataFrame 对象的索引列
columns=[‘d’, ‘a’, ‘b’, ‘c’] ：DataFrame 对象的索引行

两个DataFrame相加后，会返回一个新的DataFrame，对应的行和列的值会相加，没有对应的会变成空值NaN

假定有数据集df，格式为dataframe，现想获取其列名

df.columns：返回的是array格式。
list(df) ：返回list格式，非常方便
df.keys()
查看某一列唯一值

dataframe['xxx'].unique()

查看某一列所有值（例：查看”Cabin”这列的所有值）

df['Cabin'].head(3)

df.Cabin.head(3)

drop

DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')

参数解释：

如果想要完全的删除你的数据结构，使用inplace=True，因为使用inplace就将原数据覆盖了，

df.drop(['B', 'C'], axis=1)

df.drop(columns=['B', 'C'])

df.drop(labels=['B', 'C'], axis=1)

例：删除test中的a列

del test['a']

df[df.A==100]

df[df["Age"]<10]

df[(df.A==100)&(df.B=='a')]

df[(df.A==100)|(df.B=='b')]

reset_index()

不想保留原来的index，使用参数 drop=True，默认 False。

loc[]基于标签索引选取数据.iloc[]基于整数索引选取数据

.sort_values()

使用 .sort_values()，将单个参数传递给包含要作为排序依据的列的名称的方法。

DataFrame.sort_values(by=’##’, axis=0, ascending=True, inplace=False, na_position=’last’)

参数
by – 指定列名（axis=0或者’index’）或索引值（axis=1或者’columns’）
axis – 按行、按列，默认axis=0按指定列排序
ascending – 是否升序默认为True
inplace – 是否修改原对象
kind – 排序算法快排quicksort、归并mergesort、堆排序heapsort、稳定排序stable，默认快排
na_position – {‘first’, ‘last’} 设定缺失值的显示位置
ignore_index – 排序后是否重置索引
key – 排序之前使用的函数（version 1.1.0 后才有该参数）

其他排序方式


frame.sort_index()

frame.sort_index(axis=1)

frame.sort_index(axis=1, ascending=False)

frame.sort_values(by=['a', 'c'], ascending=False)

DataFrame.describe(percentiles=None, include=None, exclude=None)

参数
percentiles：赋值类似列表形式，可选
表示百分位数，介于0和1之间。默认值为 [.25,.5,.75]，分别返回第25，第50和第75百分位数。可自定义其它值，用法为df.describe(percentiles=[.xx])。
include：’all’，类似于dtypes列表或None（默认值），可选
要包含在结果中的数据类型的白名单。对于 Series不可用。以下是选项：
‘all’：输入的所有列都将包含在输出中。
类似于dtypes的列表：将结果限制为提供的数据类型。将结果限制为数字类型用法： numpy.number。要将其限制为对象列用法： numpy.object。字符串也可以以 select_dtypes（例如 df.describe(include=['O'])）的方式使用。要选择分类类型，请使用 'category'
无（默认）：结果将包括所有数字列。
exclude：类似于dtypes列表或None（默认值），可选，
要从结果中除去的黑名单数据类型列表。 Series不可用。以下是选项：
类似于dtypes的列表：从结果中排除提供的数据类型。排除数值类型用法： numpy.number。要排除对象列，使用 numpy.object。字符串也可以以 select_dtypes（例如 df.describe(include=['O'])）的方式使用。要排除分类类型，请使用 'category'
无（默认）：结果将不包含任何内容。

count : 样本数据大小
mean : 样本数据的平均值
std : 样本数据的标准差
min : 样本数据的最小值
25% : 样本数据25%的时候的值
50% : 样本数据50%的时候的值
75% : 样本数据75%的时候的值
max : 样本数据的最大值

Original: https://blog.csdn.net/weixin_64632836/article/details/126343485
Author: 上烟雨心上尘
Title: 初识数据分析01——Pandas入门

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/743619/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

好慌，我代码没了！不会是变基变出问题了吧？

大家好，我是 Kagol，Vue DevUI 开源组件库和 EditorX 富文本编辑器创建者，专注于前端组件库建设和开源社区运营。前两天检视代码时，发现PR里面有两个提交的描述…

Python 2023年10月13日
0042
【Python】Numpy排序函数详解

文章目录 * – 简介 – quicksort – 堆排序 – 归并排序简介 np.sort是最常用的排序函数，其输入参数中， a…

Python 2023年8月27日
0033
Linux系统中Java Web应用部署环境的安装与配置（1）–JDK的安装与配置

Java程序具有非常好的可移植性，但是Java Web应用程序的设计开发一般都是在Windows环境中完成的，怎样将Java Web应用程序移植到Linux环境中，对于初学者来说会…

Python 2023年6月6日
0082
Python从入门到精通（第2版）——pyuic5: error: no such option: -m的问题解决

前言在学习《Python从入门到精通（第2版）》的第15章 GUI界面编程——15.2.4 将.ui文件转换为.py文件时，按照书中步骤出错时的问题解决，希望对同样学习本书的同学…

Python 2023年10月30日
0043
Python selenium webdriver 基本使用

系列文章目录 selenium webdriver 的常用示例文章目录系列文章目录 * selenium webdriver 的常用示例前言一、Pip安装&创建Bo…

Python 2023年7月31日
0051
3天掌握Flask开发项目系列博客之二，操作数据库

flask 操作数据库，写入一条数据当 flask 基本环境运行起来之后，就要考虑数据入库相关内容了，本篇博客会将 flask 与 mysql 实现对接，完成一个入库操作。首先依…

Python 2023年8月14日
0054
数据分析练习题

import numpy as np a=np.random.randint(1,11,10);a[a%2==1] a = np.random.randint(1,11,10) a…

Python 2023年8月29日
0031
pytest + yaml 框架 -7.用例分层机制

前言当我们测试流程类的接口，需反复去调用同一个接口，就会想到复用API，在代码里面可以写成函数去调用。那么在yaml 文件中，我们可以把单个API写到一个yaml 文件，测试用例…

Python 2023年9月12日
0037
python dataframe dtype_AttributeError:“DataFrame”对象没有属性“dtype”

我受够了Error in py_get_attr_impl(x, name, silent) : AttributeError: ‘DataFrame’ o…

Python 2023年8月22日
0038
爬虫学习之scrapy

爬虫学习之scrapy * – 前言 – scrapy框架 – scrapy+selenium自动化前言此文用于学习SCRAPY scrap…

Python 2023年10月5日
0042
超级玛丽封面完工制作，谁说新手不能学哒？？！

超级玛丽之工具、环境的搭建所用参考文档🐍 项目搭建的目录列表🦋 本次博客内容主要呈现的效果图展示🍬 文件代码分析🤾‍♀️ * tools.py内容和说明😼 – 说明 …

Python 2023年9月24日
0048
单调队列算法 – 滑动窗口问题（常见模型：找出滑动窗口中的最大值/最小值）

欢迎观看我的博客，如有问题交流，欢迎评论区留言，一定尽快回复！（大家可以去看我的专栏，是所有文章的目录）文章字体风格：红色文字表示：重难点✔蓝色文字表示：思路以及想法✔ 如果大家觉…

Python 2023年9月26日
0044
【课程作业】Pygame游戏开发之三个小游戏容易简单附项目代码和游戏介绍

主要知识点：精准碰撞检测用户自定义事件敌人生成一、躲避汉堡游戏（参考小甲鱼微信打飞机项目）（单人）游戏规则： 1、操作人物躲避天空掉落的汉堡🍔 2、吃到绿色的西蓝花🥦可以…

Python 2023年9月18日
0050
学习pygame的第一天（如何在VS2019上安装pygame模块）

学习pygame的第一天（如何在VS2019上安装pygame模块） * – 一、安装 – 二、测试 ; 一、安装在vs2019中随便打开或生产一个pyt…

Python 2023年9月20日
0041
Python读入txt中的数组

Python读入txt中的数组(下三角矩阵）最近写遗传算法作业要用老师给的数据进行测试，于是学习了一些方法…… txt数据格式提供的数据为城市间距离的下…

Python 2023年8月23日
0069
python3 生成MD5 方法

Python 2023年5月24日
0069

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

初识数据分析01——Pandas入门

大家都在看