深度学习 – 语音应用

2023年5月27日上午6:43 • 人工智能 • 阅读 85

1 语音技术概览

语音的定义

语音指的是人们讲话时发出的话语

它是构成一种语言的声音，或者是带有语言信息的声音。

[En]

It’s a sound that makes up a language or a sound with a language message.

它是人们交换信息时发出的一种声音。

[En]

It’s a kind of sound produced by people exchanging information.

语音(Speech)= 声音(Acoustic) + 语言(Language)

语音信号的产生

激励源： 气流和声带

声带振动频率：音调频率

[En]

Vocal cord vibration frequency: pitch frequency

清音：声带不振动

浊音：声带振动

声道：可变谐振腔

不同形状、不同声音

共振(谐振)频率

发音的分类

浊音（voiced sounds）：声道打开， 声带先打开后关闭，气流经过 使声带发生张驰振动，变为准周期振动气流。浊音的激励源被等效为准周期的脉冲信号；

清音（unvoiced sounds）： 声带不振动，而在声道某处保持收缩，气流在声道里收缩后高速通过产生湍流，再经过主声道（咽、口腔）的调整最终形成清音。清音的 激励源被等效为一种白噪声信号；

爆破音（plosive sounds）：声道 关闭之后产生压缩空气然后突然打开声道所发出的声音；

过零率 — 语音识别，音乐信息检索常用的特征（深度学习之前经常用）

过零就是指 信号通过零值;

过零率就是 每秒内信号值通过零值的次数;

短时能量和过零率可以近似为互补的情况， 短时能量大的地方过零率小，短时能量小的地方过零率较大（在0处抖动）；

短时能量:通常指 一帧语音段的能量;语音段的能量 比噪声段的能量大;浊音的能量值 比清音大得多;

语音的声学特性

音色:又称为音质，是一种声音 区别于另一种声音的基本特性。与人声带的振动频率、发音器官的送气方式和声道的形状、尺寸密切相关;

音调：声音的高低，取决于声波的频率;

音强：声音的强弱，它由声波的振动幅度所决定;

音长：声音的长短，取决于发音持续时间的长短;

语音信号的时域波形

语音信号的频域波形

语音信号处理涉及 语言学、声学、认知科学、生理学、心理学和数理统计等多学科知识；

语音信号处理的目标是让机器像人一样听和说。

[En]

The goal of speech signal processing is to make the machine listen and speak like a human.

语音信号处理

预加重：预加重（Pre-emphasis）是一种在发送端事先对语音信号的 高频分量进行补偿的方法，目的是 减少尖锐噪声影响，提升高频部分

相邻信号的时间差扩大了差值，使变化更大。

[En]

The time difference of the adjacent signal enlarges the difference and makes the change bigger.

接收端要去补偿

成帧：在短期分析中，语音流被分成几个片段，每个片段被称为一个帧。

[En]

Framing: speech stream is divided into segments in short-term analysis, and each segment is called a “frame”.

帧长：帧的 时间跨度。 10~30ms，常用20ms

帧移：帧与帧之间的 平滑过度，0~1/2帧长，，若截断，，可能会出现无穷帧（能量泄漏，会产生吉布斯效应–处理（加窗处理））；

加窗：为防止吉布斯（Gibbs）效应，需要加窗处理;

方法：矩形窗、Hamming、Hanning，通常采用Hamming

线性预测模型

一个语音的抽样能够用 过去若干个语音抽样的线性组合来逼近；

这个 线性预测的抽样和实际语音抽样之间存在着误差；

通过实现预测采样在最小均方误差意义下逼近实际采样，可以得到一组唯一的预测系数。

[En]

By realizing that the predictive sampling approaches the actual sampling in the sense of minimum mean square error, a set of unique prediction coefficients can be obtained.

Linear Prediction Cepstral Coefficients (LPCC)

语音信号的倒谱可以通过对信号做 傅里叶变换，取模的对数，再求 反傅里叶变换得到;

共振峰的特征可以用多个倒谱系数来表示。

[En]

The characteristics of formant can be represented by multiple cepstrum coefficients.

在语音识别中实现良好的性能

[En]

Achieve good performance in speech recognition

梅尔频率倒谱系数特征提取

信号的预处理，包括 预加重(Pre-emphasis)，分帧(Frame Blocking)，加窗(Windowing);

假设语音信号的采样频率fs=8KHz，由于语音信号在10-30ms认为是稳定的，则可设置帧长为80~240点。帧移可以设置为帧长的1/2;

对每一帧进行FFT变换，求频谱，进而求得幅度谱;

Mel频率倒谱系数的特征提取：

[En]

Feature extraction of Mel frequency cepstrum coefficients:

对幅度谱加Mel滤波器组

对所有的滤波器输出做 对数运算(Logarithm)，再进一步做 离散余弦变换（DCT）可得MFCC

语音信号的采集和存储

语音信号的采集:

可以使用Windows系统自带的”录音机”进行录音。如果有更高要求，需使用专用设备;

语音信号的存储:

波形音频文件：一种最直接的 表达声波的数字形式，”.wav”;

MIDI音频文件： 计算机数字音乐接口生成的音频文件，”.mid”

压缩音频文件：一种 MP3格式的压缩音频文件，”.mp3″

语音信号处理的主要类别

语音识别：识别具有表现力的语言的语音内容

[En]

Speech recognition: recognizing the speech content of an expressive language

声纹识别：识别特定语音对应的人

[En]

Voiceprint recognition: identify the person corresponding to a particular voice

语音合成：将文本转换为相应的语音

[En]

Speech synthesis: converting text into corresponding speech

语音技术发展史

50年代：AT&T Bell Lab，可识别10个英文数字;

60年代： 线性预测编码（Linear Prediction Coefficient,LPC)较好地解决了语音信号产生模型, 动态规划（Dynamic Programming, DP)则有效解决了不等长语音的匹配问题;

70年代： 动态时间规整（Dynamic Time Warp，DTW）技术基本成熟，实现了基于LPC和DTW技术相结合的特定人孤立词语音识别系统;

80年代： HMM模型和人工神经元网络（ANN）在语音识别中成功应用。1988年美国CMU大学基于HMM开发SI-CSR系统SPHINX;

90年代：大规模应用，理论进展缓慢;

2001年：语音识别达到了80％的准确度，但此后鲜有进展;

2010年：深度学习方法的使用，语音识别取得突破性进展;

语音技术的典型应用

2 常见语音数据集

THCHS30

由清华大学语音与语言技术中心（CSLT）出版的开放式免费中文语音数据库;

包含了1万余条语音文件，大约40小时的中文语音数据，内容以文章诗句为主，全部为女声;

该数据库对学术用户完全免费。

[En]

The database is completely free for academic users.

https://arxiv.org/abs/1512.01882

AISHELL

北京希尔公司发布免费中文语音数据集

[En]

A free Chinese voice data set released by Beijing Hill Company

包含约178小时的开源版数据;

该数据集包含400个来自中国不同地区、具有不同的口音的人的语音;

该数据免费供学术使用;

https://arxiv.org/abs/1709.05522

openslr.org

ST-CMDS

由一个AI数据公司发布的免费中文语音数据集;

包含10万余条语音文件，大约100余小时的语音数据;

数据内容以平时的 网上语音聊天和智能语音控制语句为主，855个不同说话者，同时有男声和女声;

openslr.org

Primewords Chinese Corpus Set 1

上海普利信息技术有限公司发布免费普通话语料库。

[En]

Free Mandarin Corpus released by Shanghai Puli Information Technology Co., Ltd.

包含了大约100小时的中文语音数据，语料库由296名母语为中文的智能手机录制；

学术用途免费

openslr.org

TIMIT

由德州仪器、麻省理工学院和SRI International合作构建的声学－音素连续语音语料库；

TIMIT数据集的语音采样频率为16kHz，一共包含6300个句子；

语音由来自美国八个主要方言地区的630个人每人说出给定的10个句子，所有的句子都在音素级别（phone level）上进行了手动分割，标记

TIMIT Acoustic-Phonetic Continuous Speech Corpus – Linguistic Data Consortium

TED-LIUM Corpus

包括TED演讲音频和对应讲稿。其中包括1495段演讲录音和对应的演讲稿，数据获取自TED网站；

openslr.org

VoxForge

这个数据集是一个带有口音的语音清洗数据集，这对于测试模型在不同重音或语调下的稳健性非常有用。

[En]

This data set is a speech cleaning data set with an accent, which is very useful for testing the robustness of the model under different stress or intonation.

Free Speech… Recognition (Linux, Windows and Mac) – voxforge.org

3 语音识别

语音识别基本概念

语音识别(Speech Recognition，SR)是 以语音信号为研究对象，让机器通过识别和理解的过程，将 语音信号转为相应文字或命令的技术；

目的是让机器”听懂”人说话，是人机交互的重要方式之一；

技术框架

声学模型（Acoustic Model, AM）的任务是建模给定文本下 产生语音波形的概率；

将 声学和发音学的知识进行整合，以特征提取模块提取的特征为输入，生成 声学模型得分；

声学模型是 语音识别系统的重要组成部分，它占据着 语音识别大部分的计算开销，决定着语音识别系统的性能；

声学模型：GMM-HMM

高斯混合模型（Gaussian mixture model，GMM）用于 对语音信号的声学特征分布进行建模；

隐马尔科夫模型（Hidden Markov model，HMM）则用于 对语音信号的时序性进行建模；

维特比算法（Viterbi）：针对 篱笆网络的有向图（Lattice）的最短路径问题而提出的 动态规划算法。凡是 使用隐含马尔可夫模型描述的问题都可以用维特比算法来解码；

GMM-HMM语音识别分三步：

第一步，把帧识别成状态（难点），GMM；

第二步，把状态组合成音素，HMM；

第三步，把音素组合成单词，HMM；

声学模型：DNN-HMM

GMM模拟任意函数的功能取决于 混合高斯函数的个数，所以 具有一定的局限性，属于浅层模型；

深度神经网络 可以模拟任意的函数，因而表达能力更强；

随着深度学习的发展，DNN模型 展现出了明显超越GMM模型的性能，于是替代了GMM进行HMM状态建模；

声学模型：BLSTM-CTC

然而在混合DNN/HMM系统的训练过程中， 依然需要利用GMM 来对训练数据进行强制对齐，以获得 语音帧层面的标注信息进一步训练DNN。这样显然 不利于针对整句发音进行全局优化，同时也相应地增加了 识别系统的复杂度和搭建门槛；

对于序列标记任务，Graves 等人提出了在 循环神经网络训练中引入联结时序分类(Connectionist Temporal Classification，CTC)目标函数， 使得RNN可以自动地完成序列输入自动对齐任务，进而提出了BLSTM-CTC模型；

声学模型：DFCNN-CTC

深度全序列卷积神经网络（Deep Fully Convolutional Neural Network，DFCNN ）：由科大讯飞2016年提出的一种使用深度卷积神经网络来对语音时频图进行识别的方法；

连接时序分类（Connectionist temporal classification，CTC ）： CTC不需要标签在时间上一一对齐就可以进行训练，在对输入数据的任一时刻做出的预测不是很关心， 而关心的是整体上输出是否与标签一致，从而减少了 标签预划定的冗杂工作。在整个网络结构中把CTC作为损失函数；

DFCNN 比较灵活，可以方便地和其他建模方式融合，比如 和连接时序分类模型(CTC)方案结合，以实现整个模型的 端到端声学模型训练；

和目前（2016年）业界最好的语音识别框架BLSTM-CTC系统相比，DFCNN 系统获得了额外15%的性能提升；

语音识别的主要应用

智能家居：用语音可以 控制电视机、VCD、空调、电扇、窗帘的操作；

语音搜索：搜索内容直接 以语音的方式输入，响应速度更快，适用于 音乐、电影、小说等内容搜索场景，让搜索内容输入更加便捷，高效；

人机对话：将 语音识别为文字，毫秒级响应，可用于聊天机器人、故事机等近场语音识别环境，让人机对话更加流畅自然；

语音输入：通过 语音识别将语音转换为文字实现输入，如语音输入法等；

4 声纹识别

声纹识别的基本概念

声纹识别（Voice Print Recognition, VPR），作为生物识别的一种，是根据说话 人的声波特性进行 身份辨识的服务；

身份辨识 与口音无关，与语言无关，可以 用于说话人辨认和说话人确认；

根据 是否与说话内容有关，声纹识别又可分为： 文本相关的声纹识别（Text-Dependent）、文本独立的声纹识别（Text-Independent）；

声纹模型：GMM-UBM

说话人识别最主要的两部分是 特征提取和模式匹配，在模式匹配中，常用GMM；

通用背景模型(Universal Background Model, UBM)描述的是 语音特征在空间中的平均分布，且 语音特征与目标说话者无关，与 环境噪声和声道有关；

模型的流程：

先使用大量的 非目标用户数据训练UBM，然后使用极 大后验概率(MAP)自适应算法和目标说话人数据来 更新局部参数得到对应的GMM；

MAP自适应算法相当于先进行一轮EM迭代得到新的参数，然后将 新参数和旧参数整合；

声纹模型：GMM-SVM

说话人识别：该模型对 GMM中每个高斯分量均值构建一个高斯超向量（Gaussian Super Vector，GSV）作为SVM的样本；

利用带 核函数的SVM的非线性分类能力，在原始GMM-UBM的基础上大幅提升了识别性能；

声纹模型：GMM-I-Vector

Dehak提出了 从GMM均值超向量中提取一个更紧凑的向量，称为 I-Vector（Identity-Vector）；

Dehak提出了 全局差异空间模型，将说话人差异和信道差异作为一个整体进行建模；

当前，I-Vector在大多数情况下仍然是 文本无关声纹识别中表现性能比较好的建模框架；

声纹模型：深度神经网络模型

传统模型上进行改进

声纹识别的主要应用

公共安全领域中的声纹识别技术

[En]

Voiceprint recognition Technology in the Field of Public Safety

公安司法人员还可以利用电话敲诈勒索、绑架等刑事案件的声音，识别嫌疑人的声音，缩小刑事侦查范围。

[En]

Public security and judicial personnel can also use the voice of criminal cases such as telephone extortion and kidnapping to identify the voice of the suspect and narrow the scope of criminal investigation.

金融身份认证：

为了防止刷子被盗等情况的发生，在交易支付中加入声纹确认技术，通过动态声纹密码验证客户语音身份，有效提高个人资金和交易支付的安全性。

[En]

In order to prevent the occurrence of stolen brushes and other situations, the voiceprint confirmation technology is added to the transaction payment, and the client voice identity is verified by * dynamic voiceprint password * , which can effectively improve the security of personal funds and transaction payment.

在国外，巴克莱、花旗银行、澳大利亚国民银行和万事达卡已经开始引入声纹技术。

[En]

Abroad, Barclays, Citibank, National Bank of Australia and MasterCard have begun to introduce voiceprint technology.

采用声纹技术的个性化语音交互时代

[En]

The era of personalized voice interaction with voiceprint technology

利用 声纹辨认技术，可 支持智能音箱、智能语音助手等提供个性化服务，如针对家庭用户中的老年人、儿童等不同年龄段用户，按照兴趣推荐不同的歌曲、新闻等

设备的访问控制授权

比如智能手机锁屏、各类网络账号的声控密码锁、电脑声控锁、声控防盗门、汽车声控锁等。

[En]

For example, smartphone lock screen, voice-controlled password locks for all kinds of network accounts, computer voice-controlled locks, voice-activated security doors, car voice-activated locks, etc.

5 语音合成

语音合成的基本概念

语音合成（Text To Speech，TTS）是将文本转为语音的技术；

语音合成是 实现人机语音交互，建立一个 有听和讲能力的交互系统所必需的关键技术；

语音合成模型：WAVENET

WaveNet模型是 一种序列生成模型，可以用于 语音生成建模；

2017年由DeepMind提出，在TTS(文字转语音)任务上可以达到当时state-of-art的效果；

在语音合成的声学模型建模中，Wavenet可以 直接学习到采样值序列的映射，因此具有很好的合成效果；

语音合成模型：Parallel WaveNet

DeepMind公司2017年对此前的WaveNet版本进行改进；

使用一个经过完全训练的WaveNet 模型作为” 教师” 网络，把自己的能力教给一个”学生” 网络——更小、更平行、更适用于现代计算机硬件的神经网络；

比WaveNet网络的速度提升不少；

语音合成模型：Tacotron1.0

TACOTRON是一个端到端的深度学习TTS模型；

我们不必花费大量的时间去 了解TTS中需要用的模块或者领域知识，直接用 深度学习的方法训练出一个TTS模型；

模型训练完成后，给定input，模型就能生成对应的音频

语音合成模型：Tacotron 2.0

Tacotron2.0利用了谷歌此前在语音生成方面最强大的两种技术：WaveNet和Tacotron 1.0；

Tacotron 2使用 文本和文字叙述来计算所有语言规则，而不再需要人工明确告知系统规则；

文本本身被转换为 Tacotron风格的”梅尔频谱”，实现节奏和强调。而单词本身则基于 WaveNet风格的系统来生成；

语音合成模型：ClariNet

ClariNet是由百度2018年提出的语音合成领域第一个完全端到端的系统

语音合成的主要应用

语音交互：可集成到儿童故事机、智能机器人、平板设备等智能硬件设备中让用户与设备的交互更加自然友好

[En]

Voice interaction: can be integrated into intelligent hardware devices such as children’s story machines, intelligent robots, tablet devices, etc. * make the interaction between users and devices more natural and friendly *

有声阅读：通过阅读类APP阅读小说或新闻时，使用语音合成技术为用户 提供多种发音人的朗读功能，释放双手和双眼，获得更极致的阅读体验；

语音播报：可应用于 打车软件、餐饮叫号、排队软件等场景，通过语音合成 进行订单播报，让您便捷获得通知信息；

参考：国科大 – 深度学习课件

Original: https://blog.csdn.net/qq_40671063/article/details/124826887
Author: 无脑敲代码，bug漫天飞
Title: 深度学习 – 语音应用

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/524775/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

注意力机制——CAM、SAM、CBAM、SE

CAM、SAM、CBAM详见：CBAM——即插即用的注意力模块（附代码）目录 1.什么是注意力机制？ 2.通道注意力机制——SE （1）Squeeze （2）Excitation…

人工智能 2023年7月4日
00122
CiteSpace知识图谱的安装心得

CiteSpace知识图谱的安装心得 PS：这学期可真是收获满满啊，学了好几个软件呢（就是有点点累）好了，进入正题，怎么用CiteSpace做数据分析的可视化呢？步骤如下：下…

人工智能 2023年6月10日
0092
Transformer中的Position Encoding

主要记录一下Transformer中的Position Encoding，一些理解来自下面大佬的回答。 Transformer中的Position Encodeing：思考：首…

人工智能 2023年5月28日
0086
【访谈】Eotalk Vol.05: API 全生命周期管理，如何解决企业 API 安全问题

Eotalk 是由 Eolink 和各合作方一起发起的泛技术聊天活动，每期我们会邀请一些技术圈内的大牛聊聊天，聊一下关于技术、创业工作、投融资等热点话题。本期 Eotalk 我们…

人工智能 2023年6月28日
0086
锁及其简单概念

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月28日
0085
torch优化器与学习率设置

学习率设置对于学习过程来说相当重要。学习率过低会导致学习速度太慢，学习率过高又容易导致难以收敛。在很多学习过程中，都会采用动态调整学习率的方法。刚开始训练的时候，学习率设置大一点，…

人工智能 2023年7月22日
0069
基于4G工业路由器和无线终端可实现电动汽车充电桩联网解决方案

一、行业背景智能绿色出行是促进新能源战略部署的催化剂，也是未来发展目标，全面建设小康社会的重要战略之一。国务院办公厅在2014年发布有关新能源的推广应用文件《国务院关于印发节能与…

人工智能 2023年6月6日
00100
原创：Tensorflow1.0GPU版本最全最详细的安装(转载请标明出处)

全网Tensorflow1.0GPU版本最全最详细的安装关于Tensorflow 电脑配置具体安装 * 所有安装包对应版本所需要的安装包 – 详细安装步骤 1、安…

人工智能 2023年5月26日
0067
OpenCV项目1-OCR识别

文章目录项目思路： * 1、灰度化处理： 2、采用高斯滤波去噪 3、边缘检测 4、查找轮廓并排序： 5、绘制全部轮廓 6、多边形逼近 7、仿射变换 8、写入图片文件 9、扫描读取…

人工智能 2023年5月26日
00117
ObjectBox: From Centers to Boxes for Anchor-Free Object Detection

ObjectBox: From Centers to Boxes for Anchor-Free Object Detection ECCV2022 oralpaper:https…

人工智能 2023年7月9日
0079
【ROS2&AI】电脑摄像头、intel-D435，利用ros2发布订阅图像(Python)

本文欲分享两个代码来实现图像的传输，利用ros2，ROS2～配置：Ubuntu20.04 ; Python ;ROS2 foxy ; opencv ；电脑相机 or Intel-…

人工智能 2023年7月29日
0088
神经网络技巧篇之寻找最优参数的方法

在神经网络的学习中，其中一个重要目的就是找到使损失函数的值尽可能小的参数，为了找到这个最优参数，我们使用梯度（导数）作为线索，沿着梯度方向来更新参数，并重复这个步骤，从而逐渐靠近…

人工智能 2023年7月14日
0085
将Python程序打包成exe文件

我新写了一篇更加完整的文章，与这篇文章相比，它新增了两种打包方式：多python文件打包和含有资源文件的打包方式，具体请戳链接：用 Pyinstaller 模块将 Python 程…

人工智能 2023年7月4日
0088
在Framework中，如何处理模型的可解释性和内存占用问题

问题：在Framework中，如何处理模型的可解释性和内存占用问题？介绍: 模型的可解释性和内存占用问题是在Framework中经常遇到的挑战。理解模型的决策过程对于解释模型的预…

人工智能 2024年1月1日
0038
Python讯飞语音转文字保存到文件

因为有朋友需要将录音转成文字, 给我的是m4a格式, 我给转成txt发给他的. 我找了找, 发现网上很多都是收费软件,而且转换结果不尽人意., 最后决定使用讯飞服务来完成转换, 讯…

人工智能 2023年5月27日
00100
多模态数据集论文阅读 | WRDI: A Multimodal Dataset of mmWave Radar Data and Image, 2021 IEEE Big Data

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月9日
0056

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

深度学习 – 语音应用

大家都在看