利用pandas读取txt文件，先转为csv文件，加入列名后统计某一列各个值出现的次数

2023年7月7日下午10:52 • 人工智能 • 阅读 78

最近在网上找了一个数据集，原始数据为txt文件，就想着利用pandas将txt文件转为csv文件，然后给csv文件加上列名之后统计第二列中各个值出现的次数

首先是将txt文件转为csv文件，代码如下：

import csv
out = open('file_list.csv','w',newline='')
csv_writer=csv.writer(out,dialect='excel')

f = open('file_list.txt',"r",encoding='utf-8')
for line in f.readlines():
    line=line.replace(',','\t')
    list=line.split()
    csv_writer.writerow(list)

此时，在读取txt文件时，一定要加上encoding=’utf-8′,要不然就会报错，属于编码格式错误。

运行，输出成功，但是csv文件中没有列名，于是利用pandas给csv文件加入列名，代码如下：

import pandas as pd
df = pd.read_csv('file_list.csv',header=None,encoding='gb18030')
df.columns=["id","key","html_id","html"]
df.to_csv('file.csv',encoding='utf-8',index=False)

此时的encoding要赋值为gb18030，也是编码格式的问题，不加的话会报错：error：UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xa1 in position 0

运行成功之后file.csv文件已经加入了列名，接着是统计第二列也就是key中各个值出现的次数，发现有三个值，为n、p、d三个，统计数量，代码如下：

import pandas as pd

list_data=[]
df =pd.read_csv('file.csv',encoding='utf-8')
df2 = df.key.value_counts()
print(df2)

最后可以统计出来n、p、d三个值的数量也就是次数。此处也要注意编码格式的错误。如果想清楚这些编码格式，可以去网上搜索了解，很容易搜到。

Original: https://blog.csdn.net/hkz0704/article/details/121382831
Author: Hkz74
Title: 利用pandas读取txt文件，先转为csv文件，加入列名后统计某一列各个值出现的次数

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/677251/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pandas DataFrame创建、增、删、改、查、并操作合集

本文代码在python 3.9.7，pandas…

人工智能 2023年7月6日
0096
数据分析中的异常值处理

今天来分享一下数据分析中的异常值处理办法异常值的常见判定方法是：均值±三个标准差，这样的话异常值就只会出现在99.87%的值的范围之外。当然选择三个标准差有点太过保守，有的研究也…

人工智能 2023年6月19日
00165
pandas get_dummies用法及代码示例

get_dummies 是 pandas 实现one hot encode的方式 one-hot的基本思想：将离散型特征的每一种特征取值都看成一种状态，若指定离散特征中有N个 …

人工智能 2023年7月8日
0088
【opencv学习】【运动物体检测】

今天学习运动物体检测一：帧差法捕获摄像头的运动的手 import cv2 import numpy as np cap = cv2.VideoCapture(0) ret, fra…

人工智能 2023年7月19日
0077
Generative Image Inpainting with Contextual Attention（CVPR2018）

目录 Abstract（摘要）： 1. Introduction 2、Related Work（相关工作） 2.1. Image Inpainting(图像修复) 2.2. Att…

人工智能 2023年6月20日
00101
多智能体强化学习—QMIX

多智能体强化学习—QMIX 论文地址：https://arxiv.org/pdf/1803.11485.pdf 1 介绍首先介绍一下VDN（value decomposition…

人工智能 2023年7月6日
00103
剑指offer07：重建二叉树

剑指offer07：重建二叉树题目输入某二叉树的前序遍历和中序遍历的结果，请构建该二叉树并返回其根节点。假设输入的前序遍历和中序遍历的结果中都不含重复的数字。示例 1: I…

人工智能 2023年6月6日
0066
经典的图像分类模型

目录经典的图像分类模型 * AlexNet – AlexNet的网络架构手写数字势识别 + 数据读取模型编译模型训练模型评估 VGG – VGG的…

人工智能 2023年7月1日
0074
DataFrame——基于jupyter

DataFrame表示一个长方形表格，并包含排好序的列，每一列都可以是不同的数值类型（数字，字符串，布尔值）。DataFrame有行索引和列索引（row index, column…

人工智能 2023年7月6日
0096
深度学习实战篇之 ( 十七) — TensorFlow之DenseNet

科普知识 ACM 国际多媒体会议（ACM International Conference on Multimedia）是计算机科学领域中多媒体领域的首要国际会议。多媒体研究的重点…

人工智能 2023年5月24日
0091
jupyter不是内部或外部命令,也不是可运行程序的解决方案

我是在跟着李沐老师安装的时候发现了这问题具体的解决办法如下：如果确认已经安装了jupyter，那么这部分是因为没有将可以找到jupyter的路径添加到系统变量中，具体的做法如…

人工智能 2023年7月25日
0096
transformer在图像分类上的应用以及pytorch代码实现

文章目录 1.对transformers的简单介绍 * 1.1序列数据的介绍（seq2seq） 1.2self-Attention 1.3 transformer的完整结构 2.t…

人工智能 2023年6月17日
0066
自动驾驶目标识别—–毫米波雷达学习笔记（1）

1、毫米波雷达介绍 1.1 什么是毫米波雷达通常将波长为1～10毫米的电磁波称毫米波，车载毫米波雷达工作的频段为24GHz和77GHz，少数国家（如日本）采用60GHz频段。车载…

人工智能 2023年6月2日
00119
对比学习系列（四）—BYOL

BYOL 文章目录 BYOL * BYOL 算法对比 – BN的作用参考附录 – 指数滑动平均 Group normalization Weight s…

人工智能 2023年6月15日
0091
机器学习——基于R的svm练习

步骤 1. 数据预处理 2. 建模 * 1. linear 2. polynomial 3. radial basis 4. sigmoid 3. 模型选择 4. 特征选择 5. …

人工智能 2023年6月19日
00136
担心家里冻货太多放不下？那就趁双十一买TCL格物冰箱呗

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月28日
0084

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

利用pandas读取txt文件，先转为csv文件，加入列名后统计某一列各个值出现的次数

最近在网上找了一个数据集， 原始数据为txt文件，就想着利用pandas将txt文件转为csv文件，然后给csv文件加上列名之后统计第二列中各个值出现的次数

大家都在看

最近在网上找了一个数据集，原始数据为txt文件，就想着利用pandas将txt文件转为csv文件，然后给csv文件加上列名之后统计第二列中各个值出现的次数