pandas数据分析与处理

2023年7月16日下午9:08 • 人工智能 • 阅读 84

1.插补用户用电量数据缺失值。

用户用电量数据呈现一定的周期性关系，missing_data.csv表中存放了用户A、用户B和用户C的用电量数据，其中存在缺失值，需要进行缺失值插补才能进行下一步分析。

（1）读取missing_data.csv表中的数据。

（2）查询缺失值所在位置。

（3）使用SciPy库中interpolate模块中的lagrange对数据进行拉格朗日插值。

（4）查看数据中是否存在缺失值，若不存在则说明插值成功。

源程序

import pandas as pd
import numpy as np
arr=np.array([0,1,2])
missing_data=pd.read_csv('C:/Users/Administrator/Desktop/上机3/missing_data.csv',names=arr)
print('missing_data每个特征缺失的数目为：\n',missing_data.notnull())#查询缺失值所在位置
from scipy.interpolate import lagrange#拉格朗日插值
for i in range(0,3):
    la=lagrange(missing_data.loc[:,i].dropna().index,missing_data.loc[:,i].dropna().values)#训练lagrange模型
    list_d=list(set(np.arange(0,21)).difference(set(missing_data.loc[:,i].dropna().index)))#记录当前列缺失值所在行
    missing_data.loc[list_d,i]=la(list_d)#缺失值带入
    print('第%d列缺失值的个数为：%d' %(i,missing_data.loc[:,i].isnull().sum()))
print('missing_data拉格朗日插值后每个特征缺失的数目为：','\n',missing_data.notnull())#查询缺失值所在位置

结果截屏

合并线损、用电量趋势与线路告警数据。

线路线损数据、线路用电量趋势下降数据和线路警告数据是识别用户窃漏电与否的3个重要特征，需要对由线路线路编号（ID）和时间（data）两个键值构成的主键进行合并。

（1）读取ele_loss.csv和alarm.csv表。

（2）查看两个表的形状。

（3）以ID和date两个键值作为主键进行内连接。

（4）查看合并后的数据。

源程序

import pandas as pd
ele_loss=pd.read_csv('C:/Users/Administrator/Desktop/上机3/ele_loss.csv',encoding='gbk')
alarm=pd.read_csv('C:/Users/Administrator/Desktop/上机3/alarm.csv',encoding='gbk')
print('ele_loss的形状为：',ele_loss.shape)
print('alarm的形状为：',alarm.shape)
merge=pd.merge(ele_loss,alarm,how='inner',left_on=['ID','date'],right_on=['ID','date'])
print('merge的数据为：',merge)

运行截图

3.对菜品数据去重及异常值处理。

菜品数据存在重复的现象，所以需要对菜品销售数据分别进行记录去重和特征去重，并将异常值进行处理。

（1）读取detail.csv表。

（2）对订单详情表的样本去重与特征去重。

（3）订单详情表异常值检测与处理。

源程序

import pandas as pd
detail=pd.read_csv('C:/Users/Administrator/Desktop/上机3/detail.csv',encoding='gbk')
print('进行去重操作前菜品数据的的形状为：',detail.shape)
#样本去重
detail.drop_duplicates(inplace = True)
#特征去重
def FeatureEquals(df):
    dfEquals=pd.DataFrame([],columns=df.columns,index=df.columns)
    for i in df.columns:
        for j in df.columns:
            dfEquals.loc[i,j]=df.loc[:,i].equals(df.loc[:,j])
    return dfEquals
detEquals=FeatureEquals(detail)#应用上述函数
lenDet = detEquals.shape[0]
dupCol=[]
for k in range(lenDet):
    for l in range(k+1,lenDet):
        if detEquals.iloc[k,1] & \
        (detEquals.columns[1] not in dupCol):
            detail.drop(dupCol,axis=1,inplace=True)
print('进行去重操作后订单详情表的形状为：',detail.shape)

运行截图

4.对菜品数据标准化，对部分数据进行转换。

（1）对订单详情表中的数值型数据做标准差标准化。

（2）对菜品dishes_name特征进行哑变量处理。

（3）对菜品售价使用等频法离散化。

源程序

#自定义标准差标准化函数
def StandardScaler(data):
    data=(data-data.mean())/data.std()
    return data
#对菜品订单表售价和销售量做标准化
data4=StandardScaler(detail['counts'])
data5=StandardScaler(detail['amounts'])
data6=pd.concat([data4,data5],axis=1)
print('标准差标准化之后销量和销量数据为：','\n',data6.head(10))

#哑变量处理
detail=pd.read_csv('C:/Users/Administrator/Desktop/上机3/detail.csv',encoding='gbk')
data=detail.loc[0:5,'dishes_name']
print('哑变量处理前的数据为：\n',data)
print('哑变量处理后的数据为：\n',pd.get_dummies(data))

#等频法散化
def SaneRateCut(data,k):
    w=data.quantile(np.arange(0,1+1.0/k,1.0/k))
    data=pd.cut(data,w)
    return data
result=SaneRateCut(detail['amounts'],5).value_counts()
print('菜品数据等频法离散化后各个类别数目分布情况为：','\n',result)

运行截图

Original: https://blog.csdn.net/m0_55685573/article/details/122696205
Author: 泠泠七弦上@静听松风寒
Title: pandas数据分析与处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/697230/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

AI 一键去背景

本文介绍如何使用 rembg 库去除图片背景，并解决其使用过程中的一些问题。rembg 库：https://pypi.org/project/rembg/ 上一篇文章介绍了如何通过…

人工智能 2023年6月19日
0077
Seaborn的简述

Seaborn（seaborn是python中的一个可视化库，是对matplotlib进行二次封装而成，既然是基于matplotlib，所以seaborn的很多图表接口和参数设置与…

人工智能 2023年7月5日
0079
Pandas – 完全基于DataFrame的标签平衡(balance)方法

完全基于Pandas – DataFrame的标签平衡(balance)方法：获取所有标签中(groupby)，标签中样本数量最大值(size().max())。遍…

人工智能 2023年7月8日
00103
Resource stopwords not found. Please use the NLTK Downloader to obtain the resource的解决

文章目录 * – + 引言 + 第一种下载方式 + 第二种下载方式 + 总结引言这个问题出现的原因是因为缺失 corpora/stopwords文件，所以我们要做的…

人工智能 2023年5月30日
00194
蓬莱小课：统计学数据分析须知这些：P值、T检验、卡方检验、假设检验……

P值的统计学意义是什么结果的统计学意义是结果真实程度（能够代表总体）的一种估计方法。专业上，p值为结果可信程度的一个递减指标，p值越大，我们越不能认为样本中变量的关联是总体中各…

人工智能 2023年7月16日
0086
python以第一列为索引列_关于python：查找以列表形式存在的列元素的数据框索引的最快方法…

我有一个pandas数据框，其中的列值作为列表存在。每个列表都有几个元素，一个元素可以存在于多行中。一个示例数据框是： X = pd.DataFrame([(1,[‘a…

人工智能 2023年7月7日
0067
Java多线程探究【二线程状态】

文章目录 🐞线程状态🐞 * 1.1 🐦线程方法🐦 1.2 🐳停止线程🐳 – 1.2.1 🍁栗子🍁 1.3 🐊线程休眠🐊 – 1.3.1 🪰模拟网络延时🪰 1…

人工智能 2023年6月27日
0068
matlab fft 与fftshift的理解

matlab fft 与fftshift的理解 matlab fft 与fftshift的理解直接看下图信号为：s=5+3 _cos(2_pi _200_t+60 _pi/18…

人工智能 2023年6月15日
00102
【OpenCV 例程200篇】203. 伪彩色图像处理

OpenCV 例程200篇总目录201. 图像的颜色空间转换202. 查表快速替换（cv.LUT）203. 伪彩色图像处理204. 图像的色彩风格滤镜205. 调节色彩平衡/饱和…

人工智能 2023年6月19日
0085
使用sklearn-LDA分析微博评论数据并进行主题聚类可视化

最近从微博评论中获取了部分关于俄乌局势的评论，于是尝试根据评论内容进行简单的LDA主题聚类分析。主要涉及评论数据清洗、LDA数据分析、pyLDAvis可视化、困惑度计算。一、数据…

人工智能 2023年5月27日
0074
工业相机——黑白相机像素格式排列解析

了解图像格式，首先要了解图像的常用属性：像素(Pixel)：人眼直接感受到的图像位图(bitmap)：通过记录每一个像素值来存储和表达的图像位深度：位图中每个像素点用多少个二…

人工智能 2023年6月18日
0057
Ubuntu 20.04 编译ORB_SLAM2源码（普通模式） + 点云地图构建 + 增加颜色信息

主要记录一下自己跑得时候遇见的问题的整合，自己搭建环境的时候差不多浏览了不下一百多个网站，整和一下资源提高大家的效率。参考链接里面的大佬都写的非常详细，可以看看他们的文章 *Wri…

人工智能 2023年7月18日
0068
Python深度学习基于PyTorch：第3章 Pytorch神经网络工具箱

Python深度学习基于PyTorch 第3章 Pytorch神经网络工具箱 * 3.1 神经网络核心组件 3.2实现神经网络实例 – 3.2.1背景说明 3.2.2准…

人工智能 2023年7月14日
0074
【深度学习】DSSM模型介绍（1）

DSSM (Deep Structured Semantic Models)用于文本相似度匹配场景，是为了平衡搜索的关键词，和被点击的文本标题之间的相关性。论文地址：https…

人工智能 2023年6月1日
0083
kaldi nnet3模型对单一语音文件在线解码

本文主要以 kaldi中的CSJ日语数据集为例进行讲解，文中涉及的路径都是在 egs/csj/s5 中可以找到的。 online2-wav-nnet3-latgen-faster …

人工智能 2023年5月25日
0075
卷积层的滤波器是怎样工作的？滤波器的大小和个数如何确定

问题描述卷积层是卷积神经网络（Convolutional Neural Network, CNN）中的关键组件之一，它通过使用滤波器（也称为卷积核或权重）对输入数据进行卷积运算，…

人工智能 2024年1月5日
0053

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas数据分析与处理

大家都在看