教程 | 如何使用TensorFlow实现音频分类任务

本文介绍了一种使用 TensorFlow 将音频进行分类(包括种类、场景等)的实现方案,包括备选模型、备选数据集、数据集准备、模型训练、结果提取等都有详细的引导,特别是作者还介绍了如何实现 web 接口并集成 IoT。

有很多不同的项目和服务能够识别人类的语音,例如 Pocketsphinx、Google』s Speech API,等等。这些应用和服务能够以相当好的性能将人类的语音识别成文本,但是其中却没有一个能够分得清麦克风捕捉到的是哪一种声音:人声、动物声音或者音乐演奏声。

我们面临这个任务的时候,就决定去调研一下,并开发一个能够使用机器学习算法来区分声音的示例项目。这篇文章具体描述了我们选择哪款工具、我们面临的挑战是什么、我们如何用 TensorFlow 训练模型,以及如何运行我们的开源项目。为了把它们用在给第三方应用提供的云服务上,我们还在 DeviceHive 和 IoT 平台上提供了识别结果。

选择工具和分类模型

首先我们需要选择一些能够运行神经网络的软件。我们发现的第一个合适的解决方案是 Python Audio Analysis。

机器学习中的主要问题是要有一个好的训练数据集。对于音乐分类和语音识别而言,有很多数据集,但是并没有多少数据集是用来做随机声音分类的。经过调查,我们发现了 urban sound dataset(https://serv.cusp.nyu.edu/projects/urbansounddataset/)这个数据集。

经过一些测试,我们面临着以下问题:

[En]

After some testing, we are faced with the following problems:

  • pyAudioAnalysis 不够灵活。它的参数种类参数太少,并且一些参数的计算是不受控制的,例如&

Original: https://blog.csdn.net/update7/article/details/110294338
Author: code_kd
Title: 教程 | 如何使用TensorFlow实现音频分类任务

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/525953/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球