python df list array 数据清洗、处理的一些常用代码

2023年7月7日下午2:59 • 人工智能 • 阅读 110

df 根据列排序后，index 索引并没有变，需要重新df.index = range(0,len(df))指定索引，才能df[“column_name”][0]

将某列值为通过的index取出，然后取该值对应的样本

index = data.loc[(data[‘check_flag’]==’通过’)].index.tolist()

data_sucess = data.iloc[index, 2:4] # 取2-3个列
data_sucess.head()

将某列值为通过的，编码为新列label，值为1

data.loc[data[‘check_flag’] == ‘通过’, “label”] = 1

炸裂函数

df = pd.DataFrame({'A': [[1, 2, 3], 'foo', [], [3, 4]], 'B': 1})

df.explode('A')

1.df中的数据以分隔符拆分

tmp = []
for i in range(len(data)):
    tmp.append(data.iloc[i][0].split(":"))
tmp

2.tmp（list类型）变为df，合并df，加上df列名

data_output_split = pd.DataFrame(tmp[:])
&#x5408;&#x5E76;&#x4E24;&#x4E2A;df
df = pd.concat([data_y,data_output_split],axis=1)
df.columns = ['test_y','group', 'sort_y', 'ipo', 'normal','none']

3.查询df某一列中含有某个值的样本

df[df['group']=='2']

4.pandas读取csv，读取excel

import pandas as pd
data = pd.read_excel('./data/province.xlsx')

data_train = pd.read_csv("./data/new_fivestar_rank_eval_neg_merge.csv")

5.df某一列数据加前后缀

data_train['ipo_test'] = '1:' + data_train['ipo']

6.df剔除某一列的缺失值

data.dropna(subset=['ipo_reg_compute'],inplace=True)

#&#x5220;&#x9664;table&#x503C;&#x4E3A;sc&#x7684;&#x90A3;&#x4E00;&#x884C;
>>> df.drop(index=(df.loc[(df['table']=='sc')].index))

7.df转换某一列的数据类型

data_train['ipo_reg_compute']=data_train['ipo_reg_compute'].astype("int")

8.df查看是否有缺失值，简单描述统计

data_train["merge_reg_compute"].info()
data_train["merge_reg_compute"].describe()

9.df看某一列各个类别的计数

data_train['ipo_industry'].value_counts()

10.df某一列分类变量变成哑变量

ipo_province_onehot = pd.get_dummies(data_train['ipo_province'])

11.df某一列具体有几个类别，保存到list

industry_cate_ipo = data_train['ipo_industry'].unique()

12.ROC曲线

from sklearn.metrics import roc_curve, auc
import matplotlib.pyplot as plt
def plot_roc(labels, predict_prob):
    false_positive_rate,true_positive_rate,thresholds=roc_curve(labels, predict_prob)
    roc_auc=auc(false_positive_rate, true_positive_rate)
    plt.title('ROC')
    plt.plot(false_positive_rate, true_positive_rate,'b',label='AUC = %0.4f'% roc_auc)
    plt.legend(loc='lower right')
    plt.plot([0,1],[0,1],'r--')
    plt.ylabel('TPR')
    plt.xlabel('FPR')

plot_roc(y_test, preds)
plt.show()

13.原df加新的某一列数据

tmpnew = []
for i in range(len(data_train)):
    tmpnew.append(str(data_train.iloc[i]["industry_newcate_ipo"])+"-"+str(data_train.iloc[i]["industry_newcate_normal"]))

    if i%100000==0:
        print(i)
        print(len(tmpnew))

data_train['industry_newcate_ipo-normal'] = tmpnew
data_train.head()

14.array按某一列值实现整体排序

data_new_array_sort = data_new_array[np.argsort(data_new_array[:,len(data_new_array[0])-1].astype(np.int)),:]

Original: https://blog.csdn.net/clearlove100/article/details/116493726
Author: clearlove100
Title: python df list array 数据清洗、处理的一些常用代码

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/676488/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

经典分类算法——SVM算法

文章目录经典分类算法——SVM算法 * 1 SVM算法：背景 2 SVM算法思想 3. Hard-SVM算法 4. Soft-Margin SVM算法 5. Kernel SVM…

人工智能 2023年6月30日
0077
python短期电力预测——基于LSTM神经网络

模型预测计算模型r^2值计算模型精确度代码： * -*- coding: utf-8 -*- @Time : 2022/3/22 15:36 @Author : 中意灬 @F…

人工智能 2023年6月12日
0083
Pandas数据分析：快速图表可视化各类操作详解+实例代码(三)

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月19日
00102
使用Anaconda安装tensorflow,keras(Windows)

主要记载一下在windows上安装tensorflow遇到的问题及安装步骤。不要在原来的环境上安装，因为会重新安装一套库如numpy等，会导致下载多个版本。 1. Anaconda…

人工智能 2023年5月26日
00100
一个优质软件测试工程师简历的范文（答应我一定要收藏起来）

很多刚转行软件测试的小伙伴是不是不知道怎么写好一份优质的软件测试工程师的简历。今天呢，就给大家分享一下一个优质软件测试工程师简历的范文。记得收藏起来哦。下面的案例：2-3年的软件…

人工智能 2023年7月3日
00106
COCO数据集Keypoint标注格式梳理和使用COCO-Annotator在自有数据集上进行标注

这里写自定义目录标题 COCO数据集Keypoint标注格式 * COCO数据集官网 Keypoint Detection关键点检测 – 统一数据格式 Keypoint…

人工智能 2023年7月6日
00107
学习笔记：深度学习（1）——基础概念和激活函数

学习时间：2022.04.08~2022.04.09 文章目录 * – 1. 神经网络基础概念 – + 1.1 什么是神经网络 + 1.2 [从神经元模型到…

人工智能 2023年6月15日
00107
学习笔记激活函数 ReLU,GELU, SELU …

The purpose of an activation function is to add non-linearity to the neural network. In th…

人工智能 2023年7月13日
0099
基于Python的语音识别系统（孤立词）

目录1 任务介绍 12 项目实现 12.1 预处理 22.2 特征提取 32.2.1 归一化 32.2.2 预加重 32.2.3 分帧 32.3 加窗 42.3.1 端点检测 62…

人工智能 2023年7月28日
0086
CMake：编译静态库和动态库

一个程序通常会按照功能需求，进行一定的划分，拆分成不同的子功能，子功能一般会被编译成库，每个库可能包含多个源文件和头文件，并且由不同的人同时进行开发。可以使用add_librar…

人工智能 2023年7月30日
0087
Windows下cuDNN7.6.4下载安装详细步骤

第二步：注册（1）点击：Join now，输入要注册的邮箱，然后点击下一步（2）使用电子邮箱注册一个账号：我使用的是谷歌的邮箱第三步：进入如下页面下载cudNN （1）点击：…

人工智能 2023年7月22日
00117
模型评估方法【附python代码】（信息准则：赤池信息量准则AIC、贝叶斯信息准则BIC）

前言为什么需要选择模型？答案很简单，我们需要一个准确的数据模型。对于同一个建模问题，在建模过程中，由于每个步骤选择的处理方式不同，我们会得到很多不同的数据模型，比如：模型方…

人工智能 2023年7月6日
00202
图像处理(1) : 图像增强

图像增强就是指通过某种图像处理方法对退化的某些图像特征，如边缘、轮廓、对比度等进行处理，以改善图像的视觉效果，提高图像的清晰度，或是突出图像中的某些”有用&#822…

人工智能 2023年6月18日
00115
电子元器件采购，你翻车过吗

大家好。我叫小哈，程序员。 [En] Hello, everyone. I’m Xiao Ha, a programmer. 哈哥的网文都是关于一些模块的使用，所以他经…

人工智能 2023年5月25日
0099
VS Code之配置Unity—C# and Python

VS code 配置Unity—C# 官网下载安装VS code Unity中Edit菜单Preferences 中选择 Exteral Tools，设置Exteral Scri…

人工智能 2023年6月18日
00139
Mac 安装使用 OpenCV 图像处理神器

大家好，我是青空。最近在折腾图像处理相关的事情，今天就给大家分享一下，Mac 上如何安装和使用 OpenCV。安装方法一使用homebrew安装其实 Mac 上安装 Op…

人工智能 2023年6月18日
00103

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python df list array 数据清洗、处理的一些常用代码

大家都在看