【备忘速查】Python数据分析常见操作合集（Matplotlib，Numpy和Pandas）

2023年9月6日下午9:46 • Python • 阅读 72

0.前言以及一些唠叨

笔者其实是一个超级不喜欢做数据分析的人，因为感觉没什么意思。话是这么说，但时不时还是会有数据分析相关的任务。简单的数据处理和操作其实也不多，来来去去就那么一些（平时用得不多，也就这么一些）；然而一段时间不用又忘了，还是得回去查以前回去写过的代码，烦不胜烦。因此想着趁有空把常用的东西写下来，免得又忘了。也希望能给观众带来一定的帮助。

由于笔者plt用得比较多，所以大部分重点在plt。

1.pandas

Pandas笔者用得非常少，主要是对excel进行读写操作。读写最容易的方式是：

df = pd.read_excel(filepath, encoding = 'GBK', header = None)

其中 encoding和 header是两个常用的选项。 encoding用于防止中文编码错误。 header指的是pandas在读取excel的时候自带表头，即不把第一行认为是数据，而认为是数据标签。因此，记录的数据从第二行开始读取。如果要读的excel本身并没有表头，就会造成一定的错误，此时用 header=None把表头功能关掉。

csv格式也是类似的。

在这之后， df中就存储了表格的所有信息。如果保留了表头的选项，那么 df可以作为一个字典来访问列，如

num = df['number']

就读取了表头为 number的一整列。

如果没有表头，又或者要按行读取， df.iloc里面存储了所有数据。这个成员是一个二维数组，如

item = df.iloc[2, 3]

读取了位置为 [2,3]的元素（从0开始）。支持切片。

2.numpy

numpy大部分时候使用的原则是：想怎么写就怎么写（x）。首先，所有的序列、矩阵数据结构都可以用 np.array转换为numpy数组；剩下的主要根据数学直觉进行书写。

因为别的也还没怎么用，所以先记录一下碰到的一个问题：拟合。

2.1拟合(多项式拟合)

coef = np.polyfit(x, y, deg = degree)
x:&#x62DF;&#x5408;&#x7684;&#x6570;&#x636E;&#x7684;x&#x5750;&#x6807;&#x5217;&#x8868;
y:&#x62DF;&#x5408;&#x7684;&#x6570;&#x636E;&#x7684;y&#x5750;&#x6807;&#x5217;&#x8868;
deg:&#x62DF;&#x5408;&#x591A;&#x9879;&#x5F0F;&#x7684;&#x6B21;&#x6570;
coef&#xFF08;&#x8FD4;&#x56DE;&#x503C;&#xFF09;&#xFF1A;&#x62DF;&#x5408;&#x5F97;&#x5230;&#x7684;&#x591A;&#x9879;&#x5F0F;&#x7CFB;&#x6570;&#x5F62;&#x6210;&#x7684;&#x5217;&#x8868;&#xFF0C;&#x9AD8;&#x6B21;&#x6570;&#x5230;&#x4F4E;&#x6B21;&#x6570;&#x6392;&#x5217;

numpy的拟合不会计算出R 2 R^2 R 2的值，但是这个值很容易手动计算：

y_average = np.average(y)
R2 = 1 - np.sum((y - f(y)) ** 2) / np.sum((y - y_average) ** 2)

f是拟合得到的函数，自己写一个就好了。

剩下的暂时没想到。以后再补吧。

3.matplotlib

3.1坐标轴设置

显示范围的设置：

plt.xlim(left, right)
plt.ylim(bottom, up)

坐标标签的设置：

plt.xlabel(xlabel)
plt.ylabel(ylabel)

坐标刻度的设置：

from matplotlib.pyplot import MultipleLocator
ax = plt.gca()
ax.xaxis.set_major_locator(MultipleLocator(xsec))
ax.yaxis.set_major_locator(MultipleLocator(ysec))

3.2图线样式

在散点图中，点的样式通过 marker决定：

plt.scatter(x, y, marker = '>', s = 14., color = 'b')

marker的选择选项搬运自
这篇blog

【备忘速查】Python数据分析常见操作合集（Matplotlib，Numpy和Pandas）

另一个选项 s代表的是散点的大小。

在曲线图中，曲线的样式通过 linestyle决定，曲线的粗细由 linewidth决定：

plt.plot(x, y, linestyle = 'solid', linewidth = 0.8)
linestyle = 'solid', 'dashed', 'dashdot', 'dotted'

3.3注释

plt.annotate('annotate', xy = (0.5, 0.5), xycoords = 'figure fraction', fontsize = 12)

这句话将字符串 'annotate'注释在图像的中间位置。注意， xy标识的是字符串的起始位置，所以这样运行的结果肯定不会显示在中间。’

xycoords指示的是坐标系统，推荐使用 'figure fraction'即百分比，否则 xy的取值将与具体坐标数值有关系，不方便肉眼估计。

3.4图例

plt.legend()

emmm一般情况下不写参数会自动识别，所以可以不写参数。如果要获得对图例的完全控制的话，就要加一些参数：

line1 = plt.plot(x1, y1)
line2 = plt.plot(x2, y2)
plt.legend([line1, line2], ['lineA', 'lineB'])

这样就会添加两条图例，一条是对应line1的，文字为lineA；另一条是line2的，文字是lineB。

4.Scipy

1.插值

from scipy.interpolate import interp1d
f = interp1d(x, y, 'linear')

x和 y是用于插值的插值点。后面的选项可以是 linear, quadratic和 cubic。这里进行的插值是分段插值，即在相邻的两个插值点之间构造一个多项式函数。 linear就是把相邻的两个插值点直接相连（分段线性插值）， quadratic就是分段二次插值， cubic就是三次样条插值。
返回值 f是一个函数， f(x)就可以得到插值预测的函数值：

newx = np.linspace(...)
newy = f(newx)

2.求解非线性方程组

对于一个非线性方程组（二元为例），将它整理成{ f ( x 0 , x 1 ) = 0 g ( x 0 , x 1 ) = 0 \begin{cases}f(x_0, x_1) = 0\g(x_0, x_1) = 0\end{cases}{f (x 0 ,x 1 )=0 g (x 0 ,x 1 )=0 的形式。然后，构造一个函数 equation：

def equation(x):
    return [f(x[0], x[1]), g(x[0], x[1])]

并估计一个初值 x[0], x[1] = x0_init, x1_init，然后就可以求解：

from scipy.optimize import fsolve
root = fsolve(equation, [x0_init, x1_init])

返回值 root是一个列表， root[i]是得到的x i x_i x i 的解。注意， fsolve得到的不一定是精确的解，有可能是局部的解。

暂时就写到这里，后续想到什么再补充吧。

（刚才又增加了一些莫名其妙的工作……相比之下，数据分析都要有意思得多。在这里替自己许一个愿，希望未来能少一些杂七杂八功利的破事，能专心学习。就这样吧。）

Original: https://blog.csdn.net/weixin_45570710/article/details/126613980
Author: Undermyth
Title: 【备忘速查】Python数据分析常见操作合集（Matplotlib，Numpy和Pandas）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/769807/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pygame 五子棋编程

编程说明： pygame编程五子棋程序。设计流程：新建棋盘，落子画圆，校验五子相连，赢家信息显示，自动重启下一局,程序打包成exe。关键点：新建棋盘：考虑线的间隔，需提前计算…

Python 2023年9月18日
0045
2. 无门槛学会数据类型与输入、输出函数，滚雪球学 Python python 入门教程非常详细

学习一门语言应该是一件充满乐趣的事情，为什么要把它变难呢？已完成的文章标题链接 1. 这才是 Python 学习的正确起手姿势，滚雪球学 Pythonhttps://drea…

Python 2023年6月3日
0072
用python实现自动化办公——Excel操作

用python实现自动化办公——Excel操作用python实现自动化办公——Excel操作 * – 用python实…

Python 2023年9月3日
0048
python flask项目结构_Flask—-目录结构

以此结构为例，这个小项目是《Flask Web开发：基于python的web应用开发实战》第一部分结束后的代码框架第一层有app、tests、migrations三个文件夹和c…

Python 2023年8月12日
0039
python学生管理系统毕业设计flask_python+flask实现简单的web端学生管理系统

发现之前写的代码丢了不少，好像自己什么都没学过，最近准备整理一下tensorflow的笔记，如果有什么问题或者错误，欢迎给我留言。下面是代码，配置好flask环境，把html文件…

Python 2023年8月13日
0053
微服务项目Git仓库自动化脚本

说明基于微服务项目，产生的的多项目仓库管理脚本。可直接保存 shell 脚本后酌情修改后试用目录结构 xxxx Xxx1Api/ Xxx2Api/ git_clone_api….

Python 2023年10月11日
0045
【图像处理】opencv | 图像的载入，显示，保存 | 视频流的载入，显示，保存

文章目录前言一、cv2读取图片并展示 * 1.1、cv2.imread读取图片 1.2、cv2.imshow展示图片 1.3、完整代码 1.4、封装函数调用 1.5、cv2读取…

Python 2023年9月5日
0057
matplotlib颜色、标记、线类型

fmt 参数 fmt 参数定义了基本格式，如标记、线条样式和颜色。fmt = ‘[marker][line][color]’ import matplotl…

Python 2023年9月3日
0029
SpringBoot3正式版将于11月24日发布：都有哪些新特性？

从 2018 年 2 月 28 号发布 Spring Boot 2.0 版本开始，整个 2.X 版本已经经过了 4 年多的时间，累计发布了 95 个不同的版本，而就在前不久，2.X…

Python 2023年10月15日
0040
18.自定义标签及模板中的使用【由浅入深】

紧接上文——《17.自定义过滤器及模板中的使用（实战通过自定义过滤器实现内置过滤器lower和cut的功能）》，本文来讲一讲自定义标签！！！自定义标签：源码学习：templat…

Python 2023年8月5日
0062
pytest基础

关于pytest的学习模块安装安装模块基本使用几个重要函数 * 装饰器生成报告文件模块安装安装由于我预先安装了anaconda，所以在anaconda中安装当然也可以在…

Python 2023年9月13日
0039
pytest–之测试报告allure配置

pytest–之测试报告allure配置环境安装 * 本地环境 pytest之基础应用 allure之基本用法描述信息环境安装本地环境安装jdk1.8，同时配…

Python 2023年9月11日
0042
python flask服务器搭建_Python 利用flask搭建一个共享服务器的步骤

零、概述我利用flask搭建了一个简易的共享服务器，分享给大家一、python代码 import os import time from flask import Flask,…

Python 2023年8月15日
0057
Scrapy入门到放弃06：Spider中间件

前言写一写Spider中间件吧，都凌晨了，一点都不想写，主要是也没啥用…哦不，是平时用得少。因为工作上的事情，已经拖更好久了，这次就趁着半夜写一篇。 Scrapy-d…

Python 2023年10月2日
0033
Python三维地址建模教程【Gempy】

Gempy 是一个开源 Python 库，用于生成完整的 3D 结构地质模型。该库是从界面、断层和层方向创建地质模型的完整开发，它还关联地质层序列以表示岩石侵入和断层顺序。地质建…

Python 2023年9月3日
0063
PCA（主成分分析法）的Python代码实现（numpy，sklearn）

PCA设法将原来众多具有一定相关性的属性（比如p个属性），重新组合成一组相互无关的综合属性来代替原属性。通常数学上的处理就是将原来p个属性做线性组合，作为新的综合属性。 PCA 中…

Python 2023年8月30日
0045

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31