用python玩转办公软件（pandas数据分析）入门

2023年7月18日上午7:07 • 人工智能 • 阅读 56

使用pandas库进行数据分析教学

文章目录

使用pandas库进行数据分析教学
*
1、pandas介绍
2、csv文件介绍
3、pandas常用操作csv
–
4、搜指令网站

1、pandas介绍

Pandas 是python的一个数据分析包

pandas 是基于NumPy 的一种工具，该工具是为解决数据分析任务而创建的。

Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。

pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

pandas可以读取/写入txt、dox、excal、csv等文件，原理都一样，深度学习通常使用csv文件。

2、csv文件介绍

其文件以纯文本形式存储表格数据（数字和文本）。

纯文本意味着该文件是一个字符序列，不含必须像二进制数字那样被解读的数据。

即csv可以用txt编写，在txt中每一行输入若干数据，每个数据用逗号隔开，一行数据结束后换行写下一行，转成csv文件后打开后风格和excal一样。

效果如图：

txt文件数据：

csv文件数据：

; 3、pandas常用操作csv

（1）pandas读入csv操作

就一个函数：pandas.read_csv（…）

将 CSV 文件读入 pandas DataFrame

import pandas
df = pandas.read_csv(r'C:\Users\zhaohaobing\Desktop\pythond的pandas数据分析\111.csv',
            index_col='Employee',
            parse_dates=['Hired'],
            sep = ',',
            header=0,
            encoding="utf-8",
            names=['Employee', 'Hired','Salary', 'Sick Days'])
df.to_csv('hrdata_modified.csv')
print(df)

重要：

1）header第一行的设置：

header=0（将首行设为列名）；header=None，则首行最为数据，那么names第一行标题必须制定！

2）列名的设置：

names=[‘Employee’, ‘Hired’,’Salary’, ‘Sick Days’] #修改第一行列名

3）索引列的设置：

若不设置，默认最前一列加上0，1，2，3…；index_col=’Employee’ #将Employee列为索引

效果：

（2）常用参数解释：read_csv与read_table常用的参数（更多参数查看官方手册）

pandas.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, doublequote=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None）

filepath_or_buffer
sep / delimiter 列分隔符，普通文本文件，应该都是使用结构化的方式来组织，才能使用dataframe
header header=0（将首行设为列名）；header=None，则首行最为数据，那么names第一行标题必须制定！
shkiprows= 10
nrows = 10
usecols=[0,1,2,...]
parse_dates = ['col_name']
index_col = None /False /0，重新生成一列成为index值，0表示第一列，用作行索引的列编号或列名。可以是单个名称/数字或由多个名称/数宇组成的列表（层次化索引）
error_bad_lines = False
na_values = 'NULL'
encoding='utf-8'

（3）csv处理操作

列举几个常用的，保证能入门

常用的操作：

df['新一列']='new'
df.fillna(value=0,inplace=True)
df['0']=df['0'].map(str.strip)
df['0']=df['0'].str.lower()
df.drop_duplicates(['0'],inplace=True)
df['0'].replace('111','222',inplace=True)

df_inner.to_excel('excel_to_python.xlsx', sheet_name='bluewhale_cc')
df_inner.to_csv('excel_to_python.csv')
df.to_sql(table_name, connection_object)
df.to_json("filename")

常用查看打印：

print(df.head(3))
print(df.tail(3))
print(df.shape)
print(df.info())
print(df.dtypes)

print(df_inner.groupby('city').count())
print(df_inner.groupby('city')['id'].count())
print(df_inner.groupby(['city','price'])['id'].count())
print(df_inner.groupby('city')['price'].agg([len,np.sum, np.mean]) )

print(df_inner.loc[(df_inner['age'] > 25) & (df_inner['city'] == 'shanghai'), ['id','city','age','category','gender']])
print(df_inner.loc[(df_inner['age'] > 25) | (df_inner['city'] == 'shanghai'), ['id','city','age','category','gender']] )
print(df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age','category','gender']])

print(df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age','category','gender']].city.count())

print(df_inner.query('city == ["beijing", "shanghai"]'))

print(df_inner.query('city == ["Shenzhen", "shanghai"]').price.sum())

常用数据统计：


print(df_inner.sample(n=3))

weights = [0, 0, 0, 0.5, 0.5, 0.5]
print(df_inner.sample(n=2, weights=weights))

print(df_inner.sample(n=6, replace=False))
print(df_inner.sample(n=6, replace=True))

print(df_inner.describe().round(2).T)

print(df_inner['price'].std())
print(df_inner['price'].cov(df_inner['m-point']))
print(df_inner.cov())

print(df_inner['price'].corr(df_inner['m-point']))

print(df.describe())
print(df.mean())
print(df.corr())
print(df.count())
print(df.max())
print(df.min())
print(df.median())
print(df.median())

4、搜指令网站

pandas了解后，就跟数据库一样，需要什么操作直接网上搜指令就行了OVER
你学会了吗？

常用指令网站：
https://www.cnblogs.com/zhuminghui/p/9401489.html

Original: https://blog.csdn.net/zhaohaobingniu/article/details/121889105
Author: zhaohaobingSUI
Title: 用python玩转办公软件（pandas数据分析）入门

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/700323/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

JavaScript高级

目录 BOM window对象属性方法 screen对象 location对象 history对象 DOM Document Document属性 Document方法事件 …

人工智能 2023年6月27日
0057
安装tensorflow/keras

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月25日
0083
Pytorch机器学习（八）—— YOLOV5中NMS非极大值抑制与DIOU-NMS等改进

Pytorch机器学习（八）—— YOLOV5中NMS非极大值抑制与DIOU-NMS等改进目录 Pytorch机器学习（八）—— YOLOV5中NMS非极大值抑制与DIOU-NM…

人工智能 2023年6月12日
0088
李宏毅机器学习（八）自编码器（Auto-encoder）

怎么运作的？它是一个无监督的，不需要任何标注资料的任务！目的就是让图片经过中间的网络后和最终的目标尽可能的相似！和Cycle GAN中的方法是一样的！中间的Vector叫做…

人工智能 2023年6月1日
0078
物联网Mind+图形化编程

mind图形化编程实现光声控制灯和Easy IoT上mqtt消息的通讯、语音识别控制灯实验软硬件环境硬件：Arduino、掌控板ESP32软件：mind+ 实验目的及要求【实验一】…

人工智能 2023年5月27日
0064
基于麻雀算法改进的LSTM预测算法-附代码

基于麻雀算法改进的LSTM预测算法文章目录基于麻雀算法改进的LSTM预测算法 * 1.数据 2.LSTM模型 3.基于麻雀算法优化的LSTM 4.测试结果 5.Matlab代码…

人工智能 2023年7月28日
0042
200 BBB BBB b day I can

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月29日
0094
【exp-linux】用aplay直接播放音频文件（mp3，wav）

aplay -l //查看有哪些播放设备 aplay xxx.wav //用系统配置的设备播放 aplay -D plughw:1,0 xxx.wav // 用指定的设备播放 Q1…

人工智能 2023年5月27日
0069
Latex/科研入门，如何有效美化论文排版，借鉴别人的Latex排版技巧？

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月28日
0069
Pandas 中最常用的 7 个时间戳处理函数

在零售、经济和金融等行业，数据总是由于货币和销售而不断变化，生成的所有数据都高度依赖于时间。如果这些数据没有时间戳或标记，实际上很难管理所有收集的数据。Python 程序允许我们使…

人工智能 2023年7月17日
0063
时间序列数据的预处理

时间序列数据随处可见，要进行时间序列分析，我们必须先对数据进行预处理。时间序列预处理技术对数据建模的准确性有重大影响。在本文中，我们将主要讨论以下几点：时间序列数据的定义及其…

人工智能 2023年6月19日
0077
朴素贝叶斯（Naive Bayes）详解

朴素贝叶斯是贝叶斯分类器中的一种模型，用已知类别的数据集训练模型，从而实现对未知类别数据的类别判断。其理论基础是贝叶斯决策论（Bayesian decision theory）。 …

人工智能 2023年6月12日
0043
ubuntu18.04配置ORB-SLAM3（包含ROS）完整版教程

ORB_SLAM3安装教程 ORB_SLAM3安装准备 * 1、C++11 or C++0x Compiler 2、Pangolin ==出现的问题== 3、OpenCV安装 4、…

人工智能 2023年6月1日
0084
Pandas数据清洗

Pandas数据清洗数据清洗是对一些没有用的数据进行处理的过程。本文使用到的测试数据 property-data.csv 如下：上表包含了四种空数据： n/a NA na …

人工智能 2023年6月29日
0064
TF之DD：利用Inception模型+GD算法生成带背景的大尺寸、高质量的Deep Dream图片——五个架构设计思维导图

CV之IE之Inception：基于TF框架利用Inception模型+GD算法的某层网络图像生成不同尺寸和质量的Deep Dream幻觉梦境图片(特征可视化实现图像可解释性)—五…

人工智能 2023年5月25日
0072
Swin Transformer Object Detection 目标检测、问题汇总

文章目录 * – + 一、环境问题 + * – 1. unsupported Microsoft Visual Stadio version –…

人工智能 2023年7月27日
0052

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30