机器学习数据预处理–表格合并与数据可视化

2023年8月7日上午10:59 • Python • 阅读 55

数据清洗-表格合并并添加时间戳

提取文件名字

读取指定类型文件名字

分离文件名字

names = os.listdir(path)
for name in names:
    index = name.rfind('.')
    name = name[:index]
    print(name)
    flag = name.split('_')

原始表格如上图所示，无表头

对表格增加列，并将指定信息写入列中

定义表头

合并表格

总程序：
import os
import pandas as pd

path = os.getcwd()
names = os.listdir(path)
for name in names:
    index = name.rfind('.')
    csv = name[index:]
    if(csv =='.csv'):
        df = pd.read_csv(name,header=None,names=['temp','tempavg','tempmax','tempmin'])

        name_new = name[:index]
        flag = name_new.split('_')
        print(flag)
        time = flag[2]
        series = flag[1]
        df['time'] = time
        df['series'] = series
        df.to_csv(name,index=False)

for name in names:
    index = name.rfind('.')
    csv = name[index:]
    if(csv =='.csv'):
        print(csv)
        df = pd.read_csv(name)
        df.to_csv('allok.csv',encoding="utf_8_sig",header=False,index=False,mode='a+')

df = pd.read_csv('allok.csv',header=None,names=['temp','tempavg','tempmax','tempmin','time','series'])
df.to_csv('allok.csv',index=True)

index索引问题

针对默认添加的索引不是从1开始

df.index = np.arange(1, len(df))

导出数据过长变成科学计数法

由于导出的数据过长，变成了科学计数法；导致后面在合并表格时四舍五入了…

因此加入 df['time'] = str(time)+'\t'

成功解决！

; 合并表格升级（特征行列展开合并）

合并后成为了每个参数的均值、最值分开的总表

path = os.getcwd()
names = os.listdir(path)
i = 0
for name in names:
    index = name.rfind('.')
    csv = name[index:]
    if(csv =='.csv'):
        df = pd.read_csv(name)
        for index,row in df.iterrows():
            feature_name = row[0]
            feature_avg = feature_name+'_avg'
            feature_min = feature_name+'_min'
            feature_max = feature_name+'_max'
            df[feature_avg] = str(row[1])+'\t'
            df[feature_max] = str(row[2])+'\t'
            df[feature_min] = str(row[3])+'\t'
        data =df.iloc[:1,4:]
        if(i == 0):
            data.to_csv('gather_operate.csv',encoding="utf_8_sig",header =True,index = False ,mode='a+')
        else:
            data.to_csv('gather_operate.csv',encoding="utf_8_sig",header =False,index = False ,mode='a+')
        i=i+1

提取文件名字到表格，并保存到父目录

import os,sys
import xlwt

path = os.getcwd()
dirs = os.listdir(path)

write =xlwt.Workbook()
sheet = write.add_sheet('sheet_name')
i = 0

for file in dirs:
    if os.path.splitext(file)[1]=='.csv':
        sheet.write(i,0,file)
        i+=1
print(i)
write.save('../file_name.xls')

pandas写入csv格式文件出现中文乱码

df.to_csv("cnn_predict_result.csv",encoding="utf_8_sig")

批量合并表格时移植表头

i = 0
for name in names:
    index = name.rfind('.')
    csv = name[index:]
    if(csv =='.csv'):
        if(i==0):
            print("header")
            df = pd.read_csv(name)
            df.to_csv('特征值数据汇总.csv',encoding="utf_8_sig",header=True,index=False,mode='a+')
        else:
            print(csv)
            df = pd.read_csv(name)
            df.to_csv('特征值数据汇总.csv',encoding="utf_8_sig",header=False,index=False,mode='a+')
        i=i+1

Pandas输出表格字符串过长变为科学计数法

网上那种直接改单元格格式的方法，文件关闭后再打开还是老样子
后来看了一篇文章
df[‘time’]=[‘ %i’ % i for i in df[‘time’]]选择要修改的列加入/t，我的理解是加个字符就行

使用Excel 分列

; 可视化处理

风机叶片振动时域数据

Original: https://blog.csdn.net/weixin_54594861/article/details/120005349
Author: Harry恒
Title: 机器学习数据预处理–表格合并与数据可视化

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/739823/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

如何在Django中安全且完整的删除一个Model类（超详细！！！）

在Django中安全且完整的删除一个Model类（超详细！！！）有时候我们在Django项目中定义一个模型类且已经迁移到数据库中，可能会考虑得不够周到，想把这一个模型类给删除掉重…

Python 2023年8月5日
0075
【Python中统计矩阵元素个数 numpy.size()函数】

【小白从小学Python、C、Java】【Python全国计算机等级考试】【Python数据分析考试必会题】 ● 标题与摘要 Python中统计矩阵元素个数 numpy.siz…

Python 2023年8月23日
0067
决策树学生成绩python_基于Python数据分析之pandas统计分析

pandas模块为我们提供了非常多的描述性统计分析的指标函数，如总和、均值、最小值、最大值等，我们来具体看看这些函数： 1、随机生成三组数据 import numpy as np …

Python 2023年8月20日
0059
三维重建（知识点详细解读、主要流程）

基于本人大创项目所学习三维建模过程的笔记。 1.概念：三维重建是指对三维物体建立适合计算机表示和处理的数学模型,是在计算机环境下对其进行处理、操作和分析其性质的基础,也是在计算机中…

Python 2023年9月30日
0052
papers with code介绍（人工智能方向研究生的必备网站）

paperswithcode介绍（人工智能方向的必备网站）本文将从两个部分介绍：一、正文二、导航 A、browse State-of-the-Art B、Datasets C…

Python 2023年9月27日
0081
PyCharm搜索技巧快捷键

文章目录 * – 1、跳回上一步操作和撤销操作 – 2、pycharm 显示当前 python 文件下的函数和类的列表 – 3、文件内替换 &#…

Python 2023年8月2日
0059
0行代码拿210万年薪，ChatGPT催生新型「程序员」岗：工作纯靠和AI聊天

梦晨发自凹非寺量子位 | 公众号 QbitAI 靠玩ChatGPT，还能找到新工作？没错，Riley Goodside（后面叫他好面哥）4月份开始在网上发布玩GPT-3的心…

Python 2023年11月3日
0036
python带你实现快手视频采集、自动评论及自动点赞

Original: https://www.cnblogs.com/Qqun261823976/p/16543443.htmlAuthor: python倩Title: pytho…

Python 2023年11月1日
0067
注意了！这样用 systemd 可能会有风险

在 Linux 6 / CentOS 6 中，使用 service 来进行服务的起停，但是在 Linux 7 / CentOS 7 中，替换为使用 systemctl 命令来控制。…

Python 2023年10月22日
0056
scrapy 安装_爬虫框架Scrapy简介与安装

Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一…

Python 2023年10月6日
0030
机器学习——Matplotlib画廊的使用

绘制简单的折线图plt.plot import matplotlib.pyplot as plt #设置数值点 x= [1, 2, 3, 4, 5] y=[1,4,9,16,25]…

Python 2023年9月1日
0059
Python学习笔记

Python pandas库㈢前言一、数据清洗 * ①缺失值处理 – (1)查看缺失值 (2)处理缺失值 ②重复值处理 – (1)查看重复值 (2)处理…

Python 2023年8月19日
0045
Pandas数据处理参数说明+实例解析！！

Pandas缺失值处理使用Numpy中的np.NaN或者np.nan -*- coding: UTF-8 -*- import pandas as pd import numpy…

Python 2023年8月17日
0044
C语言练习4：找出所有3位数的水仙花数

1 /*练习题目为：找出所有3位数的水仙花数*/ 2 3 #include 4 #include 5 6 /**********************程序分割线【TOP】****…

Python 2023年6月10日
0072
大华海康NVR录像JAVA下载及WEB播放

近期在处理一个将NVR录像机上的录像下载到服务器并通过浏览器播放的需求。梳理记录下过程，做个备忘，同时遇到的一些细节问题解决，也供需要的同学参考。需求比较简单，就是把指定时间段…

Python 2023年10月20日
0027
【Python】向量叉积和凸包 | 引射线法 | 判断点是否在多边形内部 | 葛立恒扫描法 | Cross Product and Convex Hul

💭 写在前面：这个系列似乎反响不错，所以我继续水下去（bushi）。本篇博客是关于经典的 Cross Product and Convex Hull （向量叉积和凸包）的，我们…

Python 2023年7月31日
0062

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30