pandas 转化np数据_python，numpy，pandas数据处理之小技巧

2023年8月18日下午5:20 • Python • 阅读 54

今日是端午4天假期的最后一天，自己的2台电脑一台在处理数据，另一台电源适配器也坏掉了。感觉闲来无事，在此就简单聊聊numpy和pandas的各种冷知识、小技巧和疑难杂症。个人觉得关于

这里就着重聊聊一些使用过程中常用到但教科书里找不着的问题，省的各位朋友还跑去stackoverflow找答案。

问题一、dataframe里面.values，.iloc，.ix，.loc的区别？

只有values是将原本dataframe数据强制转化为

可以，索引的话如果用loc或ix，则默认是用第一层的index或columns，最简单的方式是类似于这样：

example.loc[index1, columns1].loc[index2, columns2]

问题三、list, dict, numpy.ndarray, dataframe数据格式如何转换？

list转化为numpy.ndarray：

np.array(example)

numpy.ndarray转化为list：

list(example)

dict转化为dataframe:

example[‘a’] = {‘bb’:2, ‘cc’:3}

eee = pd.DataFrame(example)

example[‘a’]={‘bb’:2,’cc’:3}

eee=pd.DataFrame(example)

numpy.ndarray转化为dataframe:

pd.DataFrame(example)

dataframe转化为numpy.ndarray：

example.values[:, :]

问题四、numpy.ndarray和dataframe如何填补nan，inf？

对于numpy.ndarray来说：

example = np.where(np.isnan(example), 0, example)

example=np.where(np.isnan(example),0,example)

对于dataframe来说：

既可以用example.fillna(),还可以用example.replace(a, b)

问题五、各种OI的效率快慢问题？

npy读写效率最高，但最费硬盘空间，比如np.load(), np.save();
csv其次，比如pd.Dataframe.to_csv()，pd.load_csv()；
txt读写，当然也可以很快，但是需要频繁的split，对格式规范的数据比较麻烦；
至于简单的excel和word，可以用xlrd,xlwt来操作；

问题六、关于常见的os操作，包括新建文件夹、遍历文件夹的操作问题？

新建文件夹：

if not os .path .isdir (path_out ):

os .makedirs (path_out )

ifnotos.path.isdir(path_out):

os.makedirs(path_out)

遍历所有文件和子文件夹：

for a , b , filenames in os .walk (path_data ):

for filename in filenames :

fora,b,filenamesinos.walk(path_data):

forfilenameinfilenames:

只遍历当前文件，不包含子文件夹：

for a , b , filenames in os .walk (path_data ):

for filename in filenames :

if a == path_data :

fora,b,filenamesinos.walk(path_data):

forfilenameinfilenames:

ifa==path_data:

问题七、numpy.ndarray和dataframe如何选取满足条件的行和列数据？

根据新的columns来选取：

frame_[newcolumns]

根据新的index来选取：

frame_[frame_.index.isin(newindex)]

根据某一行或者列的条件来选取：

假如是根据dataframe的第一列，必须大于start_time这个常数，frame_ = frame_.ix[:, frame_.ix[0, :] >= start_date]

或者是根据dataframe的第一行，必须大于start_time这个常数，frame_ = frame_.ix[frame_.ix[:, 0] >= start_date, :]

假如是根据dataframe的第一列，必须大于start_time这个常数，frame_=frame_.ix[:,frame_.ix[0,:]>=start_date]

或者是根据dataframe的第一行，必须大于start_time这个常数，frame_=frame_.ix[frame_.ix[:,0]>=start_date,:]

问题八、如何计算相关性矩阵？

将y和所有x放入到sample = numpy.ndarray下，然后直接np.corrcoef(sample )，默认的是皮尔森相关系数，当然，也可以用ranked correlation，也就是spearman correlation，可以直接用scipy.stats.spearmanr。

问题九、如何取出一串字符串里面的字母或者数字？

取出example里面的数字：

int(”.join(x for x in example if x.isdigit()))

取出example里面的字母：

(”.join(x for x in example if x.alpha()))

1.取出example里面的数字：

int(”.join(xforxinexampleifx.isdigit()))

2.取出example里面的字母：

(”.join(xforxinexampleifx.alpha()))

问题十、各种merge操作？

纵向merge 格式为numpy.ndarray的数据：

np.hstack((example1, example2))

纵向merge 格式为dataframe的数据，并根据dataframe的index来merge，merge后保留原本各自列的所有index，其他没有该index的列则对应数值为nan：

pd.concat([example1, example2], axis=1)

纵向merge，但是只保留公共的index行：

example.sort_index(axis=1, inplace=True)

example.sort_index(axis=1,inplace=True)

横向merge格式为numpy.ndarray的数据：

np.vstack((example1, example2))

横向merge 格式为dataframe的数据，并根据dataframe的column来merge，merge后保留原本的index和columns，其他没有该index或columns的列则对应数值为np.nan：

pd.concat([example1, example2], axis=0)

横向merge，但是只保留公共的columns列：

example.sort_index(axis=0, inplace=True)

example.sort_index(axis=0,inplace=True)

问题十一、对dataframe数据的index统一加一个后缀

比如对原本dataframe下的index=[‘aa’, ‘cc’, ‘dddddd’]的，统一加上一个_5m的后缀，通常的操作大家一般就是直接example.index = [x + ‘_5m’ for x in example.index]，这个其实会产生些小问题，因为默认的index是pandas.indexes.base.Index，这个格式可能会默认index里面数据的长度是确定的，导致加_5m后缀失败，所以需要先把格式强制转化为list, 像这样：example.index = [x + ‘_5m’ for x in list(example.index)]

先就这些吧，其他的想到再慢慢加。

pandas 转化np数据_python，numpy，pandas数据处理之小技巧

Original: https://blog.csdn.net/weixin_39608478/article/details/113636415
Author: weixin_39608478
Title: pandas 转化np数据_python，numpy，pandas数据处理之小技巧

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/753245/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pytest学习-框架代码分层优化

Pytest学习-框架代码分层优化原创我的事说来话长2022-08-07 09:32:29博主文章分类：Pytest ©著作权文章标签 Pytest 文章分类 Python …

Python 2023年5月24日
0067
【量化投资】离散傅里叶变换求数组周期

好久没有更新量化分析相关的内容，本节将介绍如何通过傅里叶变换求解一组数据当中可能存在的周期性，后续将应用本节的结果实际在量化程序中进行应用。本文计算方法不一定正确，欢迎大家多多指…

Python 2023年8月28日
0062
【码尚教育】Python自动化测试框架pytest—入门学习笔记

目录前言一、pytest单元测试框架二、单元测试框架和自动化测试框架有什么关系三、pytest简介四、使用pytest默认的测试用例规则及基础应用五、pytest测试…

Python 2023年9月10日
0063
【毕业设计】基于Django与深度学习的股票预测系统

文章目录 0 前言 1 课题背景 2 实现效果 3 Django框架 4 数据整理 5 模型准备和训练 6 最后 0 前言 🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传…

Python 2023年8月4日
0067
为了删除数万封邮件，使用python模拟鼠标自动点击删除

公司的企业邮箱有段时间不知道为啥没有删除服务器上的邮件，屯了几万封。登陆企业邮网站，又不好清空邮箱，只能每次一页删除100封，光靠鼠标在那里点，真的费时费力。于是写了个python…

Python 2023年10月30日
0054
TensorBoard的使用

原文链接简介 TensorBoard是TensorFlow自带的一个强大的可视化工具，也是一个Web应用程序套件。使用进入保存节点目录，然后输入： [En] Enter th…

Python 2023年5月24日
00111
终极解决 mysql8.0 ERROR 1045 (28000): Access denied for user ‘ODBC‘@‘localhost‘ (using password: NO)

当你在Windows系统中，以命令行方式，输入 mysql 后，提示错误：ERROR 1045 (28000): Access denied for user ‘OD…

Python 2023年10月26日
0064
一份热力图可视化代码使用教程

前言特征图可视化与热力图可视化是论文中比较常用的两种可视化方法。上一篇文章《一份可视化特征图的代码》介绍了特征图可视化的代码，本篇将对如何进行热力图可视化做一个使用说明。本文介绍了…

Python 2023年9月29日
0059
form表单

form表单详解 form表单 form表单简介 form表单属性 * accept accept-charset action autocomplete enctype meth…

Python 2023年8月10日
0068
Python曲线拟合(polyfit , curve_fit, interp1d插值)

文章目录 * – np.polyfit 多项式拟合 – + * 例1 * 例2 – curve_fit () 自定义函数拟合 – s…

Python 2023年8月23日
0052
用pymysql封装项目通用的连接和查询

📋 个人简介 💖 作者简介：大家好，我是阿牛，全栈领域新星创作者。😜 🎉 支持我：点赞👍+收藏⭐️+留言📝 📣 系列专栏：拳打脚踢数据库🍁 💬格言：要成为光，因为有怕黑的人！🔥 前…

Python 2023年8月14日
0073
python编辑修改haproxy配置文件–文件基础操作

一.需求分析二.流程图三.代码实现本程序主要分成两部分，接口部分与主函数处理部分，接口部分主要是用于编写三个接口，添加、删除、查询接口，此部分程序存储在Data_Deal.p…

Python 2023年6月11日
00114
BUUCTF [HCTF 2018]admin 1

BUUCTF [HCTF 2018]admin 1 看来如果是admin（管理员）会有东西不同。随便注册一个账号，登录（注册登录的源码都看看，所有的页面源码都要看！找提示，甚至一行…

Python 2023年8月15日
0055
【Python爬虫实战项目】Python爬虫批量下载喜马拉雅评书音频并保存本地（附源码）

前言今天给大家介绍的是Python爬虫批量下载评书音频并保存本地，在这里给需要的小伙伴们代码，并且给出一点小心得。首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫，基本…

Python 2023年10月30日
0068
套接字编程

概述高性能的套接字编程围绕着两个方面：异步和复用。异步：高性能就是最大化计算机资源的利用，是不可能让线程有阻塞的，所以就有了各种异步模式。复用：计算机资源最好是能重复使用的，频繁…

Python 2023年10月21日
0083
pycharm如何导入第三方库函数（Blog.No.1）

目录前言一、修改下载的第三方库函数存储路径a.查看存储路径b.具体更改的操作二、使用指令下载第三方库及调用前言 pyhton语言中函数分为四种分别为： a. 内置函数（即程序…

Python 2023年8月31日
0066

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas 转化np数据_python，numpy，pandas数据处理之小技巧

大家都在看