python常用数据文件处理方法（格式转换，文件读写，聚类，矩阵运算）

2023年7月18日上午11:17 • 人工智能 • 阅读 64

虽说python运行速度慢，但其编程速度，第三方包的丰富度是真的高。
涉及到文件批处理还是会选择python。

在文件批处理中，文件名经常只有编号是不同的，可以通过给字符串传递不同的编号来获取动态文件名。

file_num = 324

for i in range(file_num):
    file_name = "正常数据\\{}.正常.txt".format(i + 1)
    ...

一般数据提供者为了节省存储空间，都会通过规定的格式存储到txt文件中，这种格式对计算机可能并不友好。而逗号文件csv格式可以轻松被numpy、pandas等数据处理包读取。
首先通过逐行读取获取每行数据（大部分数据文件都是每行格式相同，如果数据只有一行，可以全部读取或者逐字符读取），之后通过line.replace(‘\n’, ”)将每行的换行符删除，以免最后得到的csv文件有空行。
使用line.split(‘:’)将字符串分解为多个字段。
通过csv.writer写入整行。

import csv
outFile = open(file_path + outFile_name, 'w', encoding='utf-8', newline='' "")
csv_writer = csv.writer(outFile)
with open(file_path + file_name, "r") as f:
    index = 0
    for line in f:

        if index == 0:
            csv_writer.writerow(['T', 'TimeStamp', 'RangeReport', 'TagID', 'AnchorID',
                                 'ranging', 'check', 'SerialNumber', 'DataID'])
            index = index + 1
            continue
        line = line.replace('\n', '')
        str = line.split(':')
        csv_writer.writerow(str)

一开始得到的csv文件往往是我们不想要的，需要进行简单的处理。
例如我想将四行数据合并为一行。
使用pandas读取csv文件为一个表df。将希望生成的格式简单做一个有标题、有一行数据的文件，读取为另一个表df2.

可以使用

del df['T']

来删除指定的列。

可以通过

df2.loc[row] = list

来确定新文件的一行数据。pandas访问行数据

import pandas as pd

df = pd.read_csv(file_path + file_name)

del df['T']
del df['RangeReport']
del df['TagID']

del df['AnchorID']

df2 = pd.read_csv(file_path + "合并格式.csv")
for row in range(int(df.shape[0]/4)):
    list = [3304,229,90531088,90531088,90531088,90531088,760,760,760,760,760,760,760,760]

    list[0] = df['DataID'][row*4]
    list[1] = df['SerialNumber'][row*4]
    list[2] = df['TimeStamp'][row*4+0]
    list[3] = df['TimeStamp'][row*4+1]
    list[4] = df['TimeStamp'][row*4+2]
    list[5] = df['TimeStamp'][row*4+3]
    list[6]  = df['ranging'][row*4+0]
    list[7]  = df['check'][row*4+0]
    list[8]  = df['ranging'][row*4+1]
    list[9]  = df['check'][row*4+1]
    list[10] = df['ranging'][row*4+2]
    list[11] = df['check'][row*4+2]
    list[12] = df['ranging'][row*4+3]
    list[13] = df['check'][row*4+3]

    df2.loc[row] = list
df2.to_csv(file_path+contact_name)

可以通过

df0 = df.iloc[:, 3:7]

df0 = df[["check0","check1","check2","check3"]]

来获取一个表的某几列。

一般会在list、numpy、pandas三种格式间进行数据转换。
自己创建数据时，经常使用

y_show = []
y_show.append(n_clusters_)

维度调整好后，可以是一维或者多维，再转换为numpy或者pandas。
其中转换成numpy的方法如下

y = np.array(y_show)

使用DBSCAN算法进行聚类。具体算法描述随便搜就有。
有两个重要参数，一个是聚类半径，另一个是最小邻居数。
指定较大半径以及较大邻居数可以筛选出离散点。
指定较小半径可以筛选出重合点、相似点。
代码如下，使用一个n*m的numpy矩阵作为输入，对m维的点进行聚类。
通过一通操作获取labels，是一个map，key值为int数值，-1,0,1,2…。-1代表离群点，其他代表第几簇。value是一个list，代表各簇的点的下标。

from sklearn.cluster import DBSCAN

y = df[["d0","d1","d2","d3"]].to_numpy()

db = DBSCAN(eps=3, min_samples=2).fit(y)
core_samples_mask = np.zeros_like(db.labels_, dtype=bool)
core_samples_mask[db.core_sample_indices_] = True
labels = db.labels_

n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0)

绘制二维的比较简单，这里只贴上三维绘制代码

import matplotlib.pyplot as plt
import pandas as pd

from mpl_toolkits.mplot3d import axes3d

df = pd.read_csv(file_path+file_name)
x1 = df["x"].to_numpy()
y1 = df["y"].to_numpy()
z1 = df["z"].to_numpy()

df = pd.read_csv(file_path+file_name2)
x2 = df["x"].to_numpy()
y2 = df["y"].to_numpy()
z2 = df["z"].to_numpy()

fig = plt.figure()
ax = fig.gca(projection='3d')

ax.set_xlabel("X")
ax.set_ylabel("Y")
ax.set_zlabel("Z")

figure2 = ax.plot(x2, y2, z2, c='r')

ax.set_xlim(0, 7000)

ax.set_zlim(0, 3000)

plt.show()


Zk = Zk.astype(float)

np.linalg.norm(a-b)

np.matmul(A, B)

np.linalg.inv(A)

np.eye(dims)

Zk = Zk.T

可以使用csv writerow存文件，见1.

也可以使用numpy或者pandas保存文件。
如果直接使用pandas的

df2.to_csv(file_path+contact_name)

保存文件，会额外保存一行index。可以通过参数，index=False来控制。
如果还有其他要求可以查阅pd.to_csv

也可使用numpy,将一个numpy类型数据通过指定格式存文件。这里一般要指定格式，否则有可能会存成自己不希望的类型。

np.savetxt(file_path + "异常数据.txt", np.array(y_show,dtype=np.int16), fmt="%d")

Original: https://blog.csdn.net/Fourier_1024/article/details/120874850
Author: Fourier_1024
Title: python常用数据文件处理方法（格式转换，文件读写，聚类，矩阵运算）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/700685/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

技术内幕 | StarRocks Community Champion、阿里云技术专家解读 Optimizer 实现

作者：范振（花名辰繁），阿里云计算平台-开源大数据-OLAP方向负责人，高级技术专家，StarRocks Community Champion 随着阿里云EMR StarRocks…

人工智能 2023年7月31日
0054
怎么把pandas.DataFrame搞的花里胡哨？？

首发公众号：pythonic生物人同类文章推荐：当Python邂逅Javascript擦出一款蠢萌蠢萌的可视化工具平日看到的pandas.DataFrame数据是这个样子的~ …

人工智能 2023年7月8日
0056
吴恩达机器学习课后作业

目录 01-linear regression * 线性回归预备知识单变量线性回归（一个特征值）单变量线性回归（多个特征值）单变量线性回归（正规方程） 01-linea…

人工智能 2023年6月23日
00107
【论文笔记】Unsupervised Embedding Enhancements of Knowledge Graphs using Textual Associations

Unsupervised Embedding Enhancements of Knowledge Graphs using Textual Associations 摘要知识图谱…

人工智能 2023年6月10日
0069
pytorch学习笔记（二）—传统神经网络之波士顿房价预测

文章目录前言一、读入数据二、数据预处理 * 1.取出标签，同时在读入的数据中删除标签 2.对输入数据做归一化 3.划分测试集和训练集 4.转换为tensor张量三、搭建网络…

人工智能 2023年7月24日
0068
【重要】ECG identification

Robust Deep Identification using ECG and Multimodal Biometrics for Industrial Internet of …

人工智能 2023年7月1日
0096
python dataframe重新索引_Concat DataFrame重新索引仅对唯一值索引对象有效

我正试图说明以下几点： df1型price side timestamp timestamp 2016-01-04 00:01:15.631331072 0.7286 2 1451…

人工智能 2023年7月7日
0066
【论文阅读】R3Det

论文地址：https://arxiv.org/abs/1908.05612 目录摘要 1. 介绍 2. 相关工作 3. 提出的方法 3.1. 旋转RetinaNet 3.2. 精…

人工智能 2023年7月10日
0063
MNIST手写数字识别 —— 图像分析法实现二分类

手写数字任务识别简介 1.下载MNIST数据集创建datasets目录 import os datasets_dir = ‘../datasets’ if not os.path…

人工智能 2023年7月1日
0073
利用MATLAB实现WAV音频的LSB信息隐藏

背景音频信息隐藏技术是将秘密数据直接嵌入到音频载体中，但不影响原始载体的使用价值，不易被感知系统感知或注意。 [En] Audio information hiding tech…

人工智能 2023年5月27日
00119
图神经网络的分类

图卷积神经网络 GCN、GraphSage都属于图卷积神经网络，都是利用节点与节点周围的邻居信息不断的聚合，以学习到节点的高层表示。 PATCH-SAN：因为GCN和GraphSa…

人工智能 2023年7月2日
00114
【论文向】Wav2vec无监督预训练语音模型

【论文向】Wav2vec无监督预训练语音模型 wav2vec: Unsupervised Pre-training for Speech Recognition 目录【论文向】W…

人工智能 2023年5月25日
0079
基于pytorch平台实现对MNIST数据集的分类分析（前馈神经网络、softmax）基础版

基于pytorch平台实现对MNIST数据集的分类分析（前馈神经网络、softmax）基础版文章目录基于pytorch平台实现对MNIST数据集的分类分析（前馈神经网络、sof…

人工智能 2023年7月23日
0056
Adam优化器（通俗理解）

网上关于Adam优化器的讲解有很多，但总是卡在某些部分，在此，我将部分难点解释进行了汇总。理解有误的地方还请指出。 Adam，名字来自： Adaptive Moment Estim…

人工智能 2023年6月22日
0092
卷积核大小、个数，卷积层数是如何确定的？

（1）Kernel_size是如何选取的？ Q: 为什么CNN中的卷积核一般都是奇数*奇数？ A: 原因有二。（1）卷积中有一种same convolution，也就是卷积前后…

人工智能 2023年6月17日
0077
xshell与xftp安装和使用

简介 xshell是用来远程登录linux系统，用来操作linux系统的终端工具 xftp是用来在linux和windows相互传送文件的工具 xshell xshell是目前最好…

人工智能 2023年6月28日
0087

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python常用数据文件处理方法（格式转换，文件读写，聚类，矩阵运算）

大家都在看