语音开源库积累

2023年5月31日上午1:43 • 技术杂谈 • 阅读 108

音频采集播放

OpenAL

OpenAL 最初是由 Loki Software 所开发。是为了将 Windows 商业游戏移植到 Linux 上。Loki 倒闭以后，这个专案由自由软件/开放源始码社群继续维护。不过现在最大的主导者（并大量发展）是创新科技，并得到来自 Apple 和自由软件/开放源代码爱好者的持续支援。

OpenAL 主要的功能是在来源物体、音效缓冲和收听者中编码。来源物体包含一个指向缓冲区的指标、声音的速度、位置和方向，以及声音强度。收听者物体包含收听者的速度、位置和方向，以及全部声音的整体增益。缓冲里包含 8 或 16 位元、单声道或立体声 PCM 格式的音效资料，表现引擎进行所有必要的计算，如距离衰减、多普勒效应等。

PortAudio

PortAudio is a free, cross-platform, open-source, audio I/O library. It lets you write simple audio programs in ‘C’ or C++ that will compile and run on many platforms including Windows, Macintosh OS X, and Unix (OSS/ALSA). It is intended to promote the exchange of audio software between developers on different platforms. Many applications use PortAudio for Audio I/O.

PortAudio provides a very simple API for recording and/or playing sound using a simple callback function or a blocking read/write interface. Example programs are included that play sine waves, process audio input (guitar fuzz), record and playback audio, list available audio devices, etc.

SDL

SDL（Simple DirectMedia Layer）是一套开放源代码的跨平台多媒体开发库，使用C语言写成。SDL提供了数种控制图像、声音、输出入的函数，让开发者只要用相同或是相似的代码就可以开发出跨多个平台（Linux、Windows、Mac OS X等）的应用软件。目前SDL多用于开发游戏、模拟器、媒体播放器等多媒体应用领域。

————————————————————————————————————————————————————————-

语音合成平台

The Festival Speech Synthesis System

Festival offers a general framework for building speech synthesis
systems as well as including examples of various modules. As a whole
it offers full text to speech through a number APIs: from shell level,
though a Scheme command interpreter, as a C++ library, from Java, and
an Emacs interface.

HTS

The Synthesis ToolKit in C++ (STK)

The Synthesis ToolKit in C++ (STK) is a set of open source audio signal processing and algorithmic synthesis classes written in the C++ programming language. STK was designed to facilitate rapid development of music synthesis and audio processing software, with an emphasis on cross-platform functionality, realtime control, ease of use, and educational example code. The Synthesis ToolKit is extremely portable (it’s mostly platform-independent C and C++ code), and it’s completely user-extensible (all source included, no unusual libraries, and no hidden drivers). We like to think that this increases the chances that our programs will still work in another 5-10 years. In fact, the ToolKit has been working continuously for nearly 20 years now. STK currently runs with realtime support (audio and MIDI) on Linux, Macintosh OS X, and Windows computer platforms. Generic, non-realtime support has been tested under NeXTStep, Sun, and other platforms and should work with any standard C++ compiler.

—————————- – ——————————————————————————————————————————————–

语音识别平台

HTK

HTK是Hidden Markov Model Toolkit（隐马尔科夫模型工具包）的简称，HTK主要用于语音识别研究，现在已经被用于很多其他方面的研究，包括语音合成、字符识别和DNA测序等。

HTK最初是由剑桥大学工程学院（Cambridge University Engineering Department ，CUED）的机器智能实验室（前语音视觉及机器人组）于1989年开发的，它被用来构建CUED的大词汇量的语音识别系统。93年Entropic Research Laboratory Inc.获得了出售HTK的权利，并在95年全部转让给了刚成立的Entropic Cambridge Research Laboratory Ltd，Entropic一直销售着HTK，直到99年微软收购了Entropic，微软重新将HTK的版权授予CUED，并给CUED提供支持，这样CUED重新发布了HTK，并在网络上提供开发支持。

HTK的最新版本是09年发布的3.4.1版，关于HTK的实现原理和各个工具的使用方法可以参看HTK的文档HTKBook。

sphinx

CMU-Sphinx也简称为Sphinx（狮身人面像），是卡内基 – 梅隆大学（ Carnegie Mellon University，CMU）开发的一款开源的语音识别系统，它包括一系列的语音识别器和声学模型训练工具。

Sphinx有多个版本，其中Sphinx1~3是C语言版本的，而Sphinx4是Java版的，另外还有针对嵌入式设备的精简优化版PocketSphinx。Sphinx-I 由李开复（Kai-Fu Lee）于1987年左右开发，使用了固定的HMM模型（含3个大小为256的codebook），它被号称为第一个高性能的连续语音识别系统（在Resource Management数据库上准确率达到了90%+）。Sphinx-II由Xuedong Huang于1992年左右开发，使用了半连续的HMM模型，其HMM模型是一个包含了5个状态的拓扑结构，并使用了N-gram的语言模型，使用了Fast lextree作为实时的解码器，在WSJ数据集上的识别率也达到了90%+。

Sphinx-III主要由Eric Thayer 和Mosur Ravishankar于1996年左右开发，使用了完全连续的（也支持半连续的）HMM模型，具有灵活的feature vector和灵活的HMM拓扑结构，包含可选的两种解码器：较慢的Flat search和较快的Lextree search。该版本在BN（98的测评数据集）上的WER（word error ratio）为19%。Sphinx-III的最初版还有很多limitations，诸如只支持三音素文本、只支持Ngram模型（不支持CFG/FSA/SCFG）、对所有的sound unit其HMM拓扑结构都是相同的、声学模型也是uniform的。Sphinx-III的最新版是09年初发布的0.8版，在这些方面有很多的改进。

最新的Sphinx语音识别系统包含如下软件包：
 Pocketsphinx — recognizer library written in C.

 Sphinxbase — support library required by Pocketsphinx
 Sphinx4 — adjustable, modifiable recognizer written in Java
 CMUclmtk — language model tools
 Sphinxtrain — acoustic model training tools
这些软件包的可执行文件和源代码在sourceforge上都可以免费下载得到。

julius

Julius是一个高性能、双通道的大词汇量连续语音识别（large vocabulary continues speech recognition，LVCSR）的开源项目，适合于广大的研究人员和开发人员。它使用3-gram及上下文相关的HMM，在当前的PC机上能够实现实时的语音识别，单词量达到60k个。

Julius整合了主要的搜索算法，高度的模块化使得它的结构模型更加独立，它同时支持多种HMM模型（如shared-state triphones 和 tied-mixture models等），支持多种麦克风通道，支持多种模型和结构的组合。它采用标准的格式，这使得和其他工具箱交叉使用变得更容易。它主要支持的平台包括Linux和其他类Unix系统，也适用于Windows。它是开源的，并使用BSD许可协议。

自97年后，Julius作为日本LVCSR研究的一个自由软件工具包的一部分而延续下来，后在2000年转由日本连续语音识别联盟(CSRC)经营。从3.4版起，引入了被称为”Julian”的基于语法的识别解析器，Julian是一个改自Julius的以手工设计的DFA作为语言模型的版本，它可以用来构建小词汇量的命令识别系统或语音对话系统。

kaldi

加入了深度学习

simon

在HTK基础上加上UI

微软的Speech API

微软推出的包含语音识别（SR）和语音合成（SS）引擎的应用编程接口（API），在Windows下应用广泛。

sdhumming

————————————————————————————————————————————————————————-

音频处理平台

录音与放音

对声音做剪切、复制、粘贴（可撤消无限次数）

杂音消除

对声音档进行切割。

SOX

ffmpeg

lame

————————————————————————————————————————————————————————-

Original: https://www.cnblogs.com/lidabo/p/16489556.html
Author: DoubleLi
Title: 语音开源库积累

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/547617/

转载文章受原作者版权保护。转载请注明原作者出处！

技术杂谈

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Jenkins发布SpringBoot项目

第二步：Configure System (系统设置) 我们只需要设置最后面的一项，配置远程服务SSH：配置完成后点击保存即可，为后面我们配置自动化部署做准备，配置如下图：第三…

技术杂谈 2023年7月11日
0070
立体声中l、r、ls、rs、c、sw分别代表什么

L:左声道R:右声道LS:左环绕声道RS：右环绕声道C：中置声道SW：重低音声道作者：柒月出处：https://www.cnblogs.com/qiynet/ 开源：https…

技术杂谈 2023年5月31日
0099
Hello World

写Hello World的步骤新建文件夹存放代码新建一个java文件文件后缀名为.java Hello.java 【注意】系统可能没有显示后缀名，需要手动打开（如果没有Win…

技术杂谈 2023年6月21日
0086
Failed to process import candidates for configuration class [com.simple…..]

主要原因：是因为自己定制的starter在打包时（package)用了spring-boot-maven-plugin,即在你的定制starter工程的pom.xml中有如下配置…

技术杂谈 2023年5月30日
00108
asp 遍历文件夹

转载请注明出处：http://www.cnblogs.com/cloudgamer/ 如有任何建议或疑问，欢迎留言讨论。如果觉得文章不错的话，欢迎点一下右下角的推荐。程序中包含…

技术杂谈 2023年5月30日
00106
自动化测试之争：code vs codeless

在TesterHome看到的一个话题，当我们选择做自动化时是否需要code 或者codeless。 code方案用code去做自动化，实现过程就是拿个IDE撸代码。 python…

技术杂谈 2023年5月31日
0090
linux多路转接select—服务器代码

一、linux多路转接select—服务器代码 #include #include #include #include<string.h> #include…

技术杂谈 2023年7月10日
0059
Git&Gitee

Git Git介绍安装命令学习 Git的作用 git与svn比较 Git,GitHub,GitLab,Gitee Git工作流程 Git常用命令在仓库目录终端下 &#8211…

技术杂谈 2023年6月21日
0082
在windows下使用s3cmd和s3browser来管理amazon s3的笔记

S3是Amazon S3的简称，s3cmd是一款命令行工具用来管理s3，同时还有一款图形化的管理工具：s3 browser。因为绝大多数用户都是在linux下管理s3，而我们的打…

技术杂谈 2023年6月1日
00115
php命名规范

获取单条数据命名：get+要获取的数据+Info 比如获取用户数据 getUserInfo；获取多条数据： get+要获取的数据+List 比如获取用户数据 getUserLis…

技术杂谈 2023年5月31日
0099
解决eclipse中的Java文件，使用idea打开的乱码问题

转码前：转码后：核心方法： new String(content, "GBK").getBytes("utf-8")); 吐槽：在克隆…

技术杂谈 2023年7月23日
0089
[学习笔记]Java接口

接口是Java中的一种抽象类型，是抽象方法的集合；接口使用 interface关键字声明；接口不是类，它们属于不同的概念，类描述对象的属性和方法，接口则包含要实现的方法；一个…

技术杂谈 2023年7月24日
0076
集合

Collection(接口) 单列”集合” List(接口) (列表) 有序可重复 ArrayList 数组 LinkList 链表 Set (接口) 无序…

技术杂谈 2023年6月21日
0082
PageHelper的使用

PageHelper pagehelper是mybatis的一个插件，其作用是更加方便地进行分页查询分页查询的实现有两种方式 1：直接在sql中使用 limit子句进行分页查询…

技术杂谈 2023年5月31日
00108
一个轻量级的C++log日志库

一、简介为了自己使用写的一个简单日志库，使用仅需包含一个头文件，支持Windows和Linux平台，支持多线程控制台输出以及写日志文件。二、调用方式 #include &quo…

技术杂谈 2023年7月23日
0093
After Effects 教程，如何在 After Effects 中对图层应用蒙版？

Original: https://www.cnblogs.com/123ccy/p/16540816.htmlAuthor: -Mac123-Title: After Effec…

技术杂谈 2023年5月31日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

语音开源库积累

大家都在看