【数据处理】Pandas读取CSV文件示例及常用方法（入门）

2023年7月3日下午5:49 • 人工智能 • 阅读 108

文章目录

*
– 1. 导入常用包
– 2. 文件读取
– 3. 查看有哪些列
– 4. 查看前几行数据
– 5. 查看数据信息
– 6. 查看获取指定列的数据
– 7. 判断某列是否有None值
– 8. 查看某列的None值数量
– 9. 获取指定行的数据
– 10. 填补None值
– 11.用原数据组合添加一列新数据
– 12. 删除指定某列的数据
– 13. 获取指定行与列
– 14. 将某一列设置为新的Index索引值
– 15. 查看某列数据的所有值
– 16. 类型转换Numpy
– 17. agg 聚合操作
– 18.指定列的数据绘图
– 19. 只要某列的数据
– 20.统计某列中各个数据的次数
– 21.两个数据上下拼接
– 22.随机获取若干行数据
– 23.查看最后几行数据

1. 导入常用包

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import datetime
%matplotlib inline

2. 文件读取

data = pd.read_csv('./xxxxxx_2010.1.1-2014.12.31.csv')

3. 查看有哪些列

data.columns

4. 查看前几行数据

data.head() # 默认前5行

查看读取前10行数据

data.head(10)

5. 查看数据信息

data.info()

6. 查看获取指定列的数据

data['pm2.5']

7. 判断某列是否有None值

data['pm2.5'].isna()

8. 查看某列的None值数量

data['pm2.5'].isna().sum()

2067

9. 获取指定行的数据

data.iloc[24:]

10. 填补None值

向前填充

data.iloc[24:].fillna(method = 'ffill')

指定列的插值填充

data['pm2.5'].interpolate()

使用某数据填充指定列的空值


data['pm2.5'].fillna(0, inplace = True)

11.用原数据组合添加一列新数据

示例:

data['tm'] = data.apply(lambda x : datetime.datetime(year = x['year'],
                                        month = x['month'],
                                        day = x['day'],
                                        hour = x['hour']),axis=1)

12. 删除指定某列的数据

data.drop(columns=['year','month','day','hour','No'],inplace = True)

13. 获取指定行与列

类似切片

data = data.iloc[:,:8]

14. 将某一列设置为新的Index索引值

data = data.set_index('tm')

15. 查看某列数据的所有值

data.cbwd.unique()

array([‘SE’, ‘cv’, ‘NW’, ‘NE’], dtype=object)

16. 类型转换Numpy

data.iloc[:,1:].to_numpy()

17. agg 聚合操作

类似数据库查询中的groupby查询

先添加新的一列按月将数据划分

data['timeForMonth'] = data.apply(lambda x: str(x['year'])+"-"+'{:02}'.format(int(x['month'])), axis=1)

聚合，对指定的列按月划分求平均值等

dataForMonth = data.groupby('timeForMonth').agg({'pm2.5':'mean','DEWP':'mean','TEMP':'mean','Iws':'mean','Is':'sum','Ir':'sum'})

min 最小值 max 最大值
sum 求和
mean 平均值
median 中位数
std 标准差
var 方差
count 计数

18.指定列的数据绘图

data['pm2.5'].plot()

19. 只要某列的数据

生成新的data

data = data[['pm2.5', 'tm']]

20.统计某列中各个数据的次数

data.列名.value_counts()
data.airline_sentiment.value_counts()

结果示例：
negative 9178
neutral 3099
positive 2363
Name: airline_sentiment, dtype: int64

21.两个数据上下拼接

data = pd.concat([data_a, data_b])

假如data_a的维度为4行6列，data_b为6行6列（列数相同），则data为10行6列

22.随机获取若干行数据

data2 = data.sample(2)
data = data.sample(len(data))

23.查看最后几行数据

data.tail()
data.tail(10)

如果觉得本文有用，点赞收藏鼓励一下吧，谢谢🌹！！！

Original: https://blog.csdn.net/AwesomeP/article/details/124975721
Author: 宛如近在咫尺
Title: 【数据处理】Pandas读取CSV文件示例及常用方法（入门）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/668049/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

cv2.drawContours()、cv2.findContours()、cv2.boundingRect(img)函数用法解析

cv2.drawContours()函数的功能是绘制轮廓，输入变量如下： cv2.drawContours(image, contours, contourIdx, color, …

人工智能 2023年6月19日
00174
程序分析与优化-6 循环优化

本章是系列文章的第六章，介绍了循环的分析方法。循环优化的逻辑相对简单，但对性能提升的效果却非常明显。循环优化的分析还产生了一个图灵奖。本文中的所有内容来自学习DCC888的学习笔…

人工智能 2023年6月4日
0096
（保姆教程)Spyder 配置Tensorflow(2.5.0)和keras(2.4.3)

（保姆教程)Spyder 配置Tensorflow(2.5.0)和keras(2.4.3) 前言其实安装Tensorflow和keras的过程不难，但是寻找匹配的版本，以及使得S…

人工智能 2023年5月23日
0081
pandas计数函数：value_counts( )的使用

在pandas中，value_counts常用于数据表的计数及排序，它可以用来查看数据表中，指定列里有多少个不同的数据值，并计算每个不同值在该列中的个数，同时还能根据需要进行排序。…

人工智能 2023年6月11日
0097
第四章 Jetson Nano Unet TensorRT模型推理

Jetson Nano系列学习第一章 Jetson Nano烧录镜像及jtop安装第二章 Jetson Nano安装Archiconda、PyTorch、torchvision第…

人工智能 2023年7月22日
0088
知识图谱构建技术

知识图谱的构建技术包括知识抽取、知识融合、知识加工和知识更新等。图1 知识图谱构建技术流程图 1.1 知识抽取知识抽取就是自动化或半自动化的从原始数据中获得实体、关系及属性等可…

人工智能 2023年7月28日
00104
【autoware感知模块】

系列文章目录 [TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is s…

人工智能 2023年6月2日
0088
Yolov5 v6.1网络结构

Yolov5 已经更新到v6.1版本了，与之前的版本有了不少区别，网络结构有了进一步优化。来整理一下。本文主要参考 https://blog.csdn.net/qq_375410…

人工智能 2023年6月17日
0072
【语音识别】基于matlab GUI HMM中文语音识别【含Matlab源码 1385期】

⛄一、获取代码方式获取代码方式1：完整代码已上传我的资源：【语音识别】基于matlab GUI HMM中文语音识别【含Matlab源码 1385期】点击上面的蓝色字体，付费直接下…

人工智能 2023年5月25日
0092
tensorflow人工智能项目-鸟类识别系统

介绍 Python作业机器学习、人工智能、模式识别课程、鸟类识别和检测系统。 [En] Machine learning, artificial intelligence, pat…

人工智能 2023年5月23日
00109
如何进行探索性数据分析

一般数据分析项目第一步都需要探索性数据分析。主要包括三个方面：使用描述性统计汇总数据使用图标可视化数据识别缺失值通过上述三个方面分析，可以在执行假设检验或统计模型之前对数据…

人工智能 2023年6月11日
00187
用python写一个脚本，自动连wifi，自动登录校园网

文章目录 1.实现原理 * 1.1认识 URL 1.2 http请求报文格式 1.3 http响应报头格式 2.具体实现 * 2.1 获取url 2.2 获取请求报文的报头 2.3…

人工智能 2023年7月4日
00113
用python从日期中获取年、月、日、星期等30种信息

大家好, 本博客将持续更新python数据分析技巧, 一次解决一类（个）问题，欢迎关注订阅! 这次介绍日期数据处理。用python中的方法对日期数据进行处理, 我们可以获取很多有用…

人工智能 2023年7月6日
00105
【交通数据（1）——加州高速路网PeMS交通数据】

交通数据（1）——加州高速路网PeMS交通数据一、PeMS数据介绍 * 1. 数据来源 2. 数据特点 3. 数据诊断与处理 4. PeMS数据格式二、相关数据下载 * 1. …

人工智能 2023年6月15日
0067
一文梳理ICML 2022中图机器学习热点和趋势

© 作者 |Mikhail Galkin，Zhaocheng Zhu 译者 | Zhaocheng Zhu 单位 | Mila研究所/麦吉尔大学/蒙特利尔大学研究方向 | 图机器…

人工智能 2023年6月25日
0064
automake搭建项目工程

工具介绍需要用到autoscan,aclocal,autoconf,automake这几个工具。在ubuntu中，我们通过apt-get install命令，系统会自动为我们安装…

人工智能 2023年6月28日
0080

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31