AI听曲识歌！哼曲、口哨吹，都能秒识！

2023年5月27日下午11:36 • 人工智能 • 阅读 69

💡 作者：韩信子@ShowMeAI
📘 深度学习实战系列：https://www.showmeai.tech/tutorials/42
📘 自然语言处理实战系列：https://www.showmeai.tech/tutorials/45
📘 本文地址：https://www.showmeai.tech/article-detail/311
📢 声明：版权所有，转载请联系平台与作者并注明出处
📢 收藏ShowMeAI查看更多精彩内容

音乐是我们日常生活娱乐必不可少的部分，我们会收听电台、欣赏音乐、我们能通过旋律和音色快速分辨歌曲和歌手。

大家都对 QQ 音乐、网易云音乐等 App 中的『听曲识歌』『哼唱识别』功能并不陌生，但是它是怎么样快速从海量歌曲库中找到匹配的这一首的呢？

今天 ShowMeAI 就来和大家聊一聊音频检索的技术，实际上音频检索技术有非常广泛的应用场景，除了识歌辨曲，基于实时检索、审查和监控还可以很有效地保护版权。

; 💡 核心技术

音频检索的核心流程如图所示，我们会对已知歌曲抽取特征并构建特征向量库，而对于待检索的歌曲音频，同样做特征抽取后进行比对和匹配。其中最核心的技术就是『特征提取』和『海量向量数据匹配检索』。

📌 音频特征提取

我们在上述过程里也可以看到，要经过音频内容特征提取后才能进行后续的相似度检索。而特征提取的质量好坏，直接影响最终的效果。有2大类提取音频特征的方法：

传统统计模型：经典的高斯混合模型 (GMM) 和隐马尔可夫模型 (HMM) 等。
深度学习模型：循环神经网络、长短期记忆 (LSTM)、编码-解码框架和注意力机制模型等。

随着深度学习神经网络技术的不断革新突破，在音频的表征能力上优于传统方法，基于深度学习的音频特征提取技术正逐渐成为音频处理领域的核心技术。

在本篇内容中，特征提取的部分使用的是基于深度学习网络的 📘PANNs (Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition) 模型提取音频的特征向量。PANNs 模型的平均准确率 (mAP) 0.439 高于 Google 的0.317。

而提取音频数据的特征向量表征后，我们可以通过 Milvus 实现高性能的特征向量比对检索，关于 Milvus 的介绍可以参考 ShowMeAI 的文章 📘使用Milvus向量数据库进行可扩展的快速相似性搜索。

📌 向量检索引擎

在众多海量数据的场景下进行向量检索，都会采用Milvus这款开源的向量相似度搜索引擎，它具备高效的检索速度和精准的检索精度。

实际上，非结构化的数据，基于深度学习等模型进行特征表征后，都可以借助 Milvus 搭建检索系统，它的整体工作流程如下：

典型的步骤为以下3步：

① 基于深度学习模型，将非结构化数据（图像、视频、语音、文本）转化为表征特征向量。
② 将特征向量存储到 Milvus 并对特征向量构建索引。
③ 对检索数据提取特征并进行向量相似性检索，返回结果。

; 💡 系统搭建

下面我们搭建基本的音频检索系统，总体包含2个核心板块：

音频特征抽取与索引构建（下图黑线所示）。
音频数据检索（下图红线所示）。

对应的项目在 Milvus 的官方项目中已开源，地址为 📘Audio Similarity Search，其中使用到的示例数据为开源游戏声音数据。

📌 第一步：特征抽取&索引构建

在 Google drive 中下载示例数据（也可以通过 ShowMeAI 的百度网盘地址下载），

🏆 实战数据集下载（百度网盘）：公众号『ShowMeAI研究中心』回复『实战』，或者点击这里获取本文 [20]基于深度学习的音频检索技术与系统搭建『 音频检索示例数据集』

⭐ ShowMeAI官方GitHub：https://github.com/ShowMeAI-Hub

遍历文件夹并调用 panns-inference 预训练模型将音频数据转换为特征向量，将得到的特征向量导入到 Milvus 中，Milvus 将返回向量对应的 ID。示例代码如下：

import os
import librosa
import gdown
import zipfile
import numpy as np
from panns_inference import SoundEventDetection, labels, AudioTagging

data_dir = './example_audio'
at = AudioTagging(checkpoint_path=None, device='cpu')

def download_audio_data():
    url = 'https://drive.google.com/uc?id=1bKu21JWBfcZBuEuzFEvPoAX6PmRrgnUp'
    gdown.download(url)
    with zipfile.ZipFile('example_audio.zip', 'r') as zip_ref:
        zip_ref.extractall(data_dir)

def embed_and_save(path, at):

    audio, _ = librosa.core.load(path, sr=32000, mono=True)
    audio = audio[None, :]
    try:
        _, embedding = at.inference(audio)
        embedding = embedding/np.linalg.norm(embedding)
        embedding = embedding.tolist()[0]
        mr = collection.insert([[embedding]])
        ids = mr.primary_keys
        collection.load()
        red.set(str(ids[0]), path)
    except Exception as e:
        print("failed: " + path + "; error {}".format(e))

print("Starting Insert")
download_audio_data()
for subdir, dirs, files in os.walk(data_dir):
    for file in files:
        path = os.path.join(subdir, file)
        embed_and_save(path, at)
print("Insert Done")

📌 第二步：向量检索&音频匹配

在这一步中，我们会继续使用 panns-inference 预训练模型对待检索音频提取特征向量，基于 Milvus 在此前导入 Milvus 库的音频数据特征向量中进行检索。根据检索返回结果并输出。示例代码如下：


def get_embed(paths, at):
    embedding_list = []
    for x in paths:
        audio, _ = librosa.core.load(x, sr=32000, mono=True)
        audio = audio[None, :]
        try:
            _, embedding = at.inference(audio)
            embedding = embedding/np.linalg.norm(embedding)
            embedding_list.append(embedding)
        except:
            print("Embedding Failed: " + x)
    return np.array(embedding_list, dtype=np.float32).squeeze()

random_ids = [int(red.randomkey()) for x in range(2)]
search_clips = [x.decode("utf-8") for x in red.mget(random_ids)]
embeddings = get_embed(search_clips, at)
print(embeddings.shape)

import IPython.display as ipd

def show_results(query, results, distances):
    print("Query: ")
    ipd.display(ipd.Audio(query))
    print("Results: ")
    for x in range(len(results)):
        print("Distance: " + str(distances[x]))
        ipd.display(ipd.Audio(results[x]))
    print("-"*50)

embeddings_list = embeddings.tolist()

search_params = {"metric_type": "L2", "params": {"nprobe": 16}}

try:
    start = time.time()
    results = collection.search(embeddings_list, anns_field="embedding", param=search_params, limit=3)
    end = time.time() - start
    print("Search took a total of: ", end)
    for x in range(len(results)):
        query_file = search_clips[x]
        result_files = [red.get(y.id).decode('utf-8') for y in results[x]]
        distances = [y.distance for y in results[x]]
        show_results(query_file, result_files, distances)
except Exception as e:
    print("Failed to search vectors in Milvus: {}".format(e))

💡 系统展示

📌 接口展示

完整的音频检索系统基于FastAPI等搭建完成部署，主要接口功能为音频数据插入与删除。启动服务后，在浏览器中输入 127.0.0.1/docs 可查看所有 API。API 查询页面如下图所示：

; 📌 系统演示

接下来大家就可以上传自己的音频数据，体验基于深度学习与Milvus搜索引擎构建的音频检索系统了，部分系统截图如下：

💡 参考文献

📘PANNs (Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition)
📘使用Milvus向量数据库进行可扩展的快速相似性搜索
📘Milvus官网
📘Audio Similarity Search
📘声音检索型业务
📘PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition
📘 Hershey, S., Chaudhuri, S., Ellis, D.P., Gemmeke, J.F., Jansen, A., Moore, R.C., Plakal, M., Platt, D., Saurous, R.A., Seybold, B. and Slaney, M., 2017, March. CNN architectures for large-scale audio classification. In 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 131-135, 2017

Original: https://blog.csdn.net/ShowMeAI/article/details/126296290
Author: ShowMeAI
Title: AI听曲识歌！哼曲、口哨吹，都能秒识！

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528150/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

ROC曲线的含义以及画法

ROC的含义及画法 ROC的全名叫做Receiver Operating Characteristic（受试者工作特征曲线），又称为感受性曲线（sensitivity curve…

人工智能 2023年6月15日
0089
使用pandas遍历csv表格数据的效率问题（df.loc/iloc与df.at/iat的异同）

在处理数据量较大的表格（25万行）时，需要遍历表格中的每个值，前期使用df.loc进行遍历，不仅非常耗时，而且运行十几个小时程序经常崩溃。。。解决方法在网上搜索解决方案，使用d…

人工智能 2023年7月8日
0091
行业案例 | 数据分析在银行业应用之欺诈检测

CDA数据分析师出品作者：Elena Kosourova 编译：Mika 在本文中我们将通过探索一个很常见的用例——欺诈检测，从而了解数据分析在银行业是如何运用的。背景介绍银…

人工智能 2023年6月11日
0074
【论文阅读笔记】使用结构代码嵌入检查智能合约

论文标题：Checking Smart Contracts With Structural Code Embedding原文链接Checking Smart Contracts W…

人工智能 2023年5月28日
0064
小程序canvas 缩放/拖动/还原/封装和实例–开箱即用

小程序canvas 缩放/拖动/还原/封装和实例一、预览二、使用 * 2.1 创建和配置方法三、源码 * 3.1 实例组件 3.2 核心类 3.2 工具类一、预览之前写…

人工智能 2023年7月29日
0067
Pysyft学习笔记

文章目录 1 隐私、分布式数据科学的基础工具 * 1.1 张量指针 1.2 使用张量指针 2 联邦学习简介 * 2.1 一个联邦学习的范例 3 高级远程执行工具 * 3.1 指向指…

人工智能 2023年6月23日
0080
【NLP】word2vec 模型

参考：《深度学习从0到1-基于Tensorflow2》【参考：深入浅出Word2Vec原理解析 – 知乎】总结 word2vec的前生 NNLM（神经网络语言模型）…

人工智能 2023年5月28日
00115
边境的悍匪—机器学习实战：第三章分类

第三章分类文章目录第三章分类前言一、思维导图二、主要内容 * 1、MNIST 2、训练二元分类器 3、性能测量 4、多类分类器 5、误差分析 6、多标签分类 7、多输…

人工智能 2023年7月2日
0076
Autoware入门到精通

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月27日
0063
基于强化学习的医疗诊断 Inquire and Diagnose: Neural Symptom Checking Ensemble using Deep Reinforcement Learning

将强化学习应用于医疗诊断的早期代表工作是发表在2016年人工智能领域顶级会议NIPS深度强化学习研讨会上的一篇工作（Inquire and Diagnose: Neural Sym…

人工智能 2023年5月28日
0085
C#调用OpenCV（C++原版）思路和实现方法（小白教程）

目录：前言：一，下载和安装OpenCV到本地二，主要原理三，C++生成供C#调用OpenCV的.dll * 1.添加头文件 2.添加cpp文件 3.添加模块定义文件四，建…

人工智能 2023年6月17日
00145
4.3 AlexNet CNN、tensorflow实现——python实战

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月25日
0054
互联网指标体系构建及分析方法

目录一、One Metric – 第一关键指标法二、AARRR海盗指标法 2.1 为什么叫海盗模型呢？ 2.2 AARRR模型的核心点 2.3 AARRR海盗模型…

人工智能 2023年7月16日
0075
表面肌电信号处理流程——基于肌电信号分类的特征抽取的设计

如图为表面肌电信号研究的一般流程，仅作参考。本文中主要在特征提取方面进行研究！动动小手指，帮我投上一票：摄影比赛，复制链接在微信搜索框打开哦🌹🌹http://h5.34313733…

人工智能 2023年7月27日
0072
《WeNet语音识别实战》答疑回顾（三）

问 1：dpp init是会自动生成的吗？需要自己预先touch 吗？答：自动生成的。问 2：请问一下，远程服务器docker启动了，本地如何前端访问？答：可以参考连接远程服…

人工智能 2023年5月25日
0088
论文导读 | 使用有偏随机游走进行带约束的局部图聚类

北京大学庞悦编者按：原文《Constrained Local Graph Clustering by Colored Random Walk》发表于WWW 2019，提出了…

人工智能 2023年6月1日
0094

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31