UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xff in position 41: invalid start byte

2023年5月27日下午5:27 • 人工智能 • 阅读 96

在代码再现过程中，笔者在读取数据时遇到错误：

[En]

In the process of code reproduction, the author encountered an error when reading the data:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 41: invalid start byte

报错原因：查阅资料，这句话的意思是遇到了 utf-8无法解码的字节。

最可能的情况是：出现了错误数据，导致解码出错。 需要查看自己的数据中是否存在错误文件。

摆出代码：

song_path = os.path.join(AUDIO_FOLDER, str(int(song_id)) + SOUND_EXTENSION)
print(song_path)
audio_file = tf.io.read_file(song_path)
waveforms, _ = tf.audio.decode_wav(contents=audio_file)  # &#x62A5;&#x9519;&#x4EE3;&#x7801;

根据报错信息显示： waveforms, _ = tf.audio.decode_wav(contents=audio_file)这句出错。
因此 从该行代码往上进行错误排查：

定位到 audio_file
定位到 song_path
此时，不妨将 song_path打印出来： print(song_path)
观察打印结果。如下图所示，当打印到 10.wav时就停止打印并报错了，因此排查 10.wav文件。

原来，此处的 10.wav文件当初是手动从 10.mp3经过 修改后缀得来的，这种方式使得文件出错，此时没有办法被正确读取。因此，笔者通过librosa+soundfile用4行代码，重新根据 10.mp3生成了 10.wav文件。

想知道如何将MP3文件修改为wav文件的，可以查看笔者之前的文章《librosa实现音频格式转换（单曲&批量） | MP3转wav》
在此，我们要在此强调一次， wav文件不要通过修改后缀的形式生成！虽然很方便，但是后续程序读取的时候很可能会出错。而且，通过 librosa+ soundfile，以代码的形式进行格式更改很方便速度也很快，生成的文件也不会出错，它不香嘛！
修改后，重新运行代码。
可以看到， print语句顺利地打印出了后面的 wav信息，并且不再报错。说明报错确实是因为 10.wav存在文件错误。

debug小技巧：善用 print。
根据 print打印的信息可以帮助我们更好地看到程序执行的过程，从而与我们期望的结果进行比对，发现错误。

（本文完）

Original: https://blog.csdn.net/qq_44250700/article/details/125342128
Author: Begonia_cat
Title: UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xff in position 41: invalid start byte

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/527069/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

R语言基础数据分析——双因素方差分析

双因素方差分析（Double factor variance analysis) ：拥有二个自变量（A,B），一个因变量（C）；双因素方差分析有两种类型：一个是无交互作用的双因素方…

人工智能 2023年6月19日
00122
关于Attention的超详细讲解

文章目录一、动物的视觉注意力二、快速理解Attention思想三、从Encoder-Decoder框架中理解为什么要有Attention机制四、Attention思想步骤 …

人工智能 2023年6月23日
0083
业务模型设计

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月29日
0071
以Apollo为例学习/分析自动驾驶运动规划算法

这篇文章写得很粗糙，作为我入门学习的笔记，其中的思路、分析很可能不正确，也希望有在工业界工作的朋友能给我提出一些意见建议。这将是一篇大杂烩，也是我一直在学习的主线。想要一下子整理…

人工智能 2023年6月2日
0061
FusionGAN：一种生成式红外与可见光图像融合对抗网络

FusionGAN：一种生成式红外与可见光图像融合对抗网络 FusionGAN：一种生成式红外与可见光图像融合对抗网络 * – 简要介绍损失函数网络架构训练细节 …

人工智能 2023年6月17日
00105
论文阅读(9)—基于Transformer的多模态CNN心电图心律失常分类

Multi-module Recurrent Convolutional Neural Network with Transformer Encoder for ECG Arrhy…

人工智能 2023年7月1日
00114
缺失值处理

处理思路在数据预处理过程中，难免会有数据的确实情况，无论是自己爬虫获取的还是从公开数据源上获取的数据集，都不能保证数据集是完全准确的，难免会有一些缺失值。而以这样数据集为基础进行…

人工智能 2023年7月7日
0055
OneHotEncoder函数

仅介绍常用功能，详情请看结尾参考链接。将分类特征编码为one-hot数字数组。这个转换器的输入应该是一个类似数组的整数或字符串，表示分类（离散）特征所采用的值。使用 one-…

人工智能 2023年6月19日
00101
Latex中也能展示动态图？

技术背景在学术领域，很多文档是用Latex做的，甚至有很多人用Latex Beamer来做PPT演示文稿。虽然在易用性和美观等角度来说，Latex Beamer很大程度上不如Po…

人工智能 2023年6月4日
00107
蓝桥杯2022年第十三届决赛真题-修路

题目描述这天，小明在修路。他需要修理两条平行的道路 A, B，两条路上面分别有 n 个和 m 个点需要维修，它们相对于道路起点的距离分别为 a1, a2, . . . , an…

人工智能 2023年6月29日
0074
将yolov5项目打包成exe可执行文件

在进行此项工作之前，原本计划是将yolov5项目部署到android，无奈水平不足，部署到手机后，存在很多的问题，效果太差了，所以退而求其次，将其打包成exe文件。直接白嫖一下别…

人工智能 2023年7月12日
0071
事件抽取综述

事件抽取综述 1 基本概念 * 1.1 事件 1.2 事件抽取 2 国内外研究现状 3 语料库 * 3.1 ACE事件语料库 3.2 MUC语料库 3.3 TDT语料库 3.4 K…

人工智能 2023年5月30日
0068
基于 Multiple Teacher Single Student 框架的多领域对话模型

凌云时刻 · 技术导读：一个源于高考的高性能多领域对话模型。作者 | 珂蓝、元淳来源 | 凌云时刻（微信号：linuxpk）朴素的思想: 多个师傅教出综合徒弟一切都从高考…

人工智能 2023年6月10日
0080
pytorch框架自动调整学习率的几种方式

目录 * – 一、前言 – 二、Pytorch中自动调整学习率的几种方式 – + 2.1 ExponentialLR-指数衰减方式 + 2.2 …

人工智能 2023年7月20日
0079
【JavaWeb的从0到1构建知识体系（七）】JUnit和JUL日志系统

使用JUnit可进行单元测试首先一问：我们为什么需要单元测试？随着我们的项目逐渐变大，比如我们之前编写的图书管理系统，我们都是边在写边在测试，而我们当时使用的测试方法，就是直…

人工智能 2023年6月29日
0076
世界坐标系转换/相机标定/畸变矫正-Python

import numpy as np import os import cv2 import glob *******************utils**************…

人工智能 2023年6月4日
0077

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xff in position 41: invalid start byte

大家都在看