实现自动连续的语音转文字，使用speech_recognition实现静音检测的录音，并使用百度AI开放平台的语音转文字接口将语音转文本

2023年5月27日下午2:45 • 人工智能 • 阅读 71

首先新建AipSpeech（百度语音识别的SDK客户端）

""" 百度AI开放平台的 APPID AK SK """
APP_ID = '你的 App ID'
API_KEY = '你的 Api Key'
SECRET_KEY = '你的 Secret Key'

client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)

然后定义语音到文本的功能。

[En]

Then define a function of voice to text.

path = 'voices/voice.wav'

def listen():
    with open(path, 'rb') as fp:
        voice = fp.read()

    result = client.asr(voice, 'wav', 16000, {'dev_pid': 1537})
    try:
        result_text = result["result"][0]
        print(result_text)
    except KeyError:
        print("KeyError")
        print(result)

定义录音的函数


def record_audio(rate=16000):
    r = sr.Recognizer()
    with sr.Microphone(sample_rate=rate) as source:
        print("please say something")
        r.adjust_for_ambient_noise(source)
        audio = r.listen(source,phrase_time_limit=59)
        print('record finish')

    with open("voices/voice.wav", "wb") as f:
        f.write(audio.get_wav_data())

Microphone()的使用方法

实现自动连续的语音转文字，使用speech_recognition实现静音检测的录音，并使用百度AI开放平台的语音转文字接口将语音转文本

实例化Recognize()后调用下面的方法（这里面的r指的就是下面的recognizer_instence)

用speech_recognition模块可以实现有静音识别的录音（还可以与snowboy集成，实现热词识别）

动态调整能量门限，解决环境噪声(自动调整静音检测门限)(使用后效果明显提升)

[En]

Dynamically adjust the energy threshold to solve the ambient noise (automatically adjust the threshold of mute detection) (the effect can be significantly improved after use)

参考手册：https://github.com/Uberi/speech_recognition/blob/master/reference/library-reference.rst

完整代码：

import speech_recognition as sr
from aip import AipSpeech

APP_ID = '18490357'
API_KEY = 'PdZpve6uqC7qg8kgW7LsazWZ'
SECRET_KEY = '4fNWQFkTeyxAku412byYYoRArBDGkiSg'
client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
path = 'voices/voice.wav'

def record_audio(rate=16000):
    r = sr.Recognizer()
    with sr.Microphone(sample_rate=rate) as source:
        print("please say something")
        r.adjust_for_ambient_noise(source)
        audio = r.listen(source,phrase_time_limit=59)
        print('record finish')

    with open("voices/voice.wav", "wb") as f:
        f.write(audio.get_wav_data())

def listen():
    with open(path, 'rb') as fp:
        voice = fp.read()

    result = client.asr(voice, 'wav', 16000, {'dev_pid': 1537})
    try:
        result_text = result["result"][0]
        print(result_text)
    except KeyError:
        print("KeyError")
        print(result)

if __name__ == "__main__":
    while True:
        record_audio()
        listen()

Original: https://blog.csdn.net/milk_paramecium/article/details/110094565
Author: 喝牛奶的草履虫
Title: 实现自动连续的语音转文字，使用speech_recognition实现静音检测的录音，并使用百度AI开放平台的语音转文字接口将语音转文本

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/526565/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

预训练模型：一种低资源实体NER标注的方法

前言今天介绍一篇最新的NER预训练模型paper~ 有关于在预训练模型上面训练命名实体识别(NER)有关的任务，这方面的研究还不多，注意不是NER fintune，是NER pr…

人工智能 2023年5月30日
0075
2D目标检测论文大盘点（37篇）

文章目录 * – 1.LeNet – 2.AlexNet – 3.VGGNet – 4.OverFeat – 5.Goo…

人工智能 2023年7月9日
0072
终于有人把SaaS讲明白了

导读：如果把云计算简单想象成一台大电脑，那么IaaS是直接给你一台裸机，PaaS是安装好操作系统和基础运行环境再给你，而SaaS则很像网吧，你要玩的游戏已经装好在电脑里面，点击图标…

人工智能 2023年6月24日
0059
ROS：rosbag play系列指令（详解）

Rosbag play系列指令 Rosbag play bagFile01.bag bagFile02.bag … 播放多个录制文件：由于我们的bag录制文件并不是同…

人工智能 2023年6月16日
0056
学习笔记——tensorflow1.14.0环境安装（win10）

选择win 64位下载即可。下载后exe安装，可能需要注意的是会询问你是否添加到环境变量中，可以选择不添加，以后开Anaconda可以用开始里面的Anaconda Prompt打开…

人工智能 2023年5月25日
0084
大数据技术原理与应用实验3——NoSQL和关系数据库的操作比较

NoSQL和关系数据库的操作比较一、实验目的二、实验环境三、实验内容 * （一） MySQL数据库操作 – 1. 根据上面给出的Student表，在MySQL数据…

人工智能 2023年7月30日
0075
一文带你读懂DETR模型

论文地址： End-to-End Object Detection with Transformers Detr是Facebook提出来的一种目标检测结构，使用了一种基于trans…

人工智能 2023年6月24日
0076
【中文金融事件抽取】DCFEE: A Document-level Chinese Financial Event Extraction System …

Motivation：因为都是基于监督学习方法，所以特定领域没有足够的标签数据；大部分事件抽取方法都是局限于句子级别的，而事件通常都是在一个文档中用多个句子表达的。 Cont…

人工智能 2023年5月31日
0076
超越GraphCL，GNN+对比学习的节点分类新SOTA

关注 ▲对白▲ 和百万AI爱好者，一起向上生长这是对白的第 83 期分享作者 l 对白出品 l 对白的算法屋大家好，我是对白。今天给大家解读一篇 NIPS2021中GNN…

人工智能 2023年7月2日
00176
TensorFlow中的循环神经网络（RNN）是如何实现的

Tensorflow中的循环神经网络（RNN）循环神经网络（Recurrent Neural Network，简称RNN）是一种可以处理序列数据的神经网络模型。在Tensorfl…

人工智能 2023年12月30日
0027
java计算机毕业设计ssm基于C程序课程的题库在线平台

项目介绍 本题库在线平台是针对目前学校的实际需求,从实际工作出发,对过去的题库在线平台系统存…

人工智能 2023年6月28日
0057
相机与IMU标定教程

标定教程 way 相机与IMU联合标定 1、imu_utils 标定IMU的内参 1、 imu_utils标定IMU的内参，可以校准IMU的噪声密度和随机游走噪声 2、kalibr…

人工智能 2023年7月29日
0079
学习残差神经网络(ResNet)

残差网络（Residual Network）是一种非常有效的缓解梯度消失和梯度爆炸问题网络，极大的提高了可以有效训练的网络的深度。 1.1残差网络的介绍和结构残差单元可以以 …

人工智能 2023年6月16日
0099
pandas基础操作

pandas数据结构series： Series类似与表格中的列，类似于一维数组，可以保存任意数据类型。 Series由索引index和列组成生成series： pandas.S…

人工智能 2023年7月7日
0061
洛谷刷题C语言：月份天数、找最小值、分类平均、一尺之棰、数字直角三角形

记录洛谷刷题QAQ 题目描述输入年份和月份，输出这一年的这一月有多少天。需要考虑闰年。输入格式输入两个正整数，分别表示年份 y y y 和月数 m m m，以空格隔开。输出…

人工智能 2023年7月2日
0044
【python/ros】python小程序实现rosbag数据包解析保存

序言模型训练要求感知数据集按照如下格式存储 timestamp:float agent_ID:int pos_x:float pos_y:float v_x:float v_y:…

人工智能 2023年7月5日
00100

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

实现自动连续的语音转文字，使用speech_recognition实现静音检测的录音，并使用百度AI开放平台的语音转文字接口将语音转文本

大家都在看