写bug的日常——pandas导入csv文件的编码问题（UnicodeDecodeError:）

2023年7月8日下午12:32 • 人工智能 • 阅读 57

通常，在利用python做数据分析时，pandas库的

pd.read_csv('XXX.csv')

是个很好用的导入csv文件的工具。
但是，今天在导入一份csv文件时却出现了UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb7 in position 0: invalid start byte
根据之前的经验，一般需要加上encoding的格式，然而加上encoding=’utf-8’后依然报错，错误同上。

data = pd.read_csv('XXX.csv',encoding='utf-8')

考虑到文件中有不少汉字，于是尝试改为gbk编码格式：

data = pd.read_csv('XXX.csv',encoding='gbk')

依然报错，错误如下：

UnicodeDecodeError: 'gbk' codec can't decode byte 0xaa in position 128912: illegal multibyte sequence

最后，将encoding改为’gb18030’即可正常读取。

data = pd.read_csv('XXX.csv',encoding='gb18030')

原因在于这份csv文件中有不少是汉字，所以在编码时可能会出现问题，常见的编码主要有：

1.ASCII码与扩展的ASCII码。
2.Unicode编码：UTF-8就是Unicode字符的实现方式之一。
3.GBK/GB2312/GB18030：针对汉字的编码，如果csv文件中汉字较多，可能就需要这几中编码格式。如果不需要了解背后的原理的话，可以在实际使用中多尝试几次。

具体的编码原理与分类可以通过其他大佬的博客学习~

注意：如果导入使用了GB18030编码格式，那么在导出DataFrame到csv文件时，可能会出现乱码，可以指定导出的编码格式为 utf-8-sig，例如：

data.to_csv('test.csv', encoding = 'utf-8-sig', index = False)

Original: https://blog.csdn.net/qq_37383582/article/details/115422308
Author: YLL的LLY
Title: 写bug的日常——pandas导入csv文件的编码问题（UnicodeDecodeError:）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/678496/

转载文章受原作者版权保护。转载请注明原作者出处！

赞 (0)

0

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

《基于卷积神经网络（CNN）的网络流量分类》优秀本科毕设实验总结

从毕业设计完成到现在不知不觉已经大半年了，依稀记得当时毕设双选时给老师发邮件时的忐忑，老师给我答复时的喜悦。在毕业设计的过程中，遇到过许多困难。刚开始看文献综述的时候都是陌生的概念…

人工智能 2023年7月3日
0071
VScode配置conda虚拟环境

VScode学习Python 记录自己利用VScode学习Python的一些坑，和大家学习分享一下 VScode配置conda的虚拟环境，遇到一些问题问题 VScode安装好以后…

人工智能 2023年7月5日
0077
机器学习、深度学习、神经网络还傻傻分不清吗？

目录一.人工智能、机器学习、深度学习、神经网络是什么二.机器学习介绍 2.1分类 2.2常用算法一.人工智能、机器学习、深度学习、神经网络是什么简单来说，人工智能的概念是最…

人工智能 2023年6月15日
0070
输电线路图像数据集

本人根据项目需求、研究兴趣收集了一些输电线路数据集、电网数据集、电气工程相关数据集，可结合人工智能中图像识别、目标检测、图像处理等技术实现智能化的设备状态诊断！包含以下数据集：（…

人工智能 2023年6月17日
00110
用YOLOv5ds训练自己的数据集——同时检测和分割

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月16日
0063
全面解析PaDiM

使用PaDiM网络跑自己的数据集，除去测试时读入dataloader的时间，每张图片测试时间在20-30ms，精度比较高，图像分类准确率99-100，像素分割准确率97以上，但是最…

人工智能 2023年7月28日
0090
Pandas之数据读取与储存

一.pandas之读取文件使用Pandas做数据分析时，首先要读取数据。Pandas常用的读取文件有： pd.read_csv() 用于读取csv格式文件 pd.read_exc…

人工智能 2023年7月15日
0070
如何在Windows上一键部署PaddleOCR的WebAPI服务

PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库，助力开发者训练出更好的模型，并应用落地。官方开源项目地址：PaddlePaddle/PaddleOCR: Awe…

人工智能 2023年6月4日
0094
神经网络：实现感知机算法-python

主要原理： f(x) = sign(w*x + b) 损失函数 L(w, b) = -\Sigma{y_{i}(w*x_{i} + b)} 随即梯度下降法 Stochastic G…

人工智能 2023年7月14日
0042
R语言数据包自带数据集之ToothGrowth数据集字段解释、数据导入实战

R语言数据包自带数据集之ToothGrowth数据集字段解释、数据导入实战目录 R语言数据包自带数据集之ToothGrowth数据集字段解释、数据导入实战 #数据字段说明 #导入…

人工智能 2023年6月19日
00121
YOLO学习02（解决CUDA和Pytorch版本不匹配的问题）[CUDA11.6+PyTorch1.12.0]

接着上一章解决问题：目录一、CUDA版本选择二、卸载装错的CUDA 三、安装对应PyTorch 一、CUDA版本选择 PyTorch下载界面，通过这里可以看到PyTorch最…

人工智能 2023年7月23日
00165
【深度学习】常见的神经网络层（上）

🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🥰 博客首页：knighthood2001😗 欢迎点赞👍评论🗨️❤️ 热爱python，期待与大家一同进步成长！！❤️👀 给大家推荐一款很火爆的刷题、面试求…

人工智能 2023年7月26日
0079
（二十七）【2021 WWW】Learning Intents behind Interactions with Knowledge Graph for Recommendation

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OpZWgm7T-1634540652258)(C:\Users\小轩\AppData\Roaming…

人工智能 2023年6月4日
0068
【人工智能大作业】A*和IDA*搜索算法解决十五数码（15-puzzle）问题（Python实现）（启发式搜索）

Astar和IDAstar搜索算法解决十五数码（15-puzzle）问题 (文末附实现代码，此前为理论与具体问题分析) 文章目录 Astar和IDAstar搜索算法解决十五数码（1…

人工智能 2023年6月19日
00140
音频-WAV数据格式

（转：https://www.jianshu.com/p/947528f3dff8）（转多媒体文件格式（五）：PCM / WAV 格式 – 灰色飘零 – …

人工智能 2023年5月23日
00154
回归预测 | MATLAB实现RF(随机森林)多输入单输出

回归预测 | MATLAB实现RF(随机森林)多输入单输出目录 * – 回归预测 | MATLAB实现RF(随机森林)多输入单输出 – + 基本介绍 + …

人工智能 2023年6月17日
0067

亲爱的 Coder【最近整理，可免费获取】👉 最新必读书单 | 👏 面试题下载 | 🌎 免费的AI知识星球