Python调用百度API进行语音识别

2023年5月27日下午6:10 • 人工智能 • 阅读 94

2.1语音识别

语音识别就是将一段语音信号转换成相应的文本信息。该系统主要包括四个部分：特征提取、声学模型、语言模型、词典和解码。此外，为了更有效地提取特征，往往需要对采集到的声音信号进行滤波、成帧等音频数据的预处理，从原始信号中恰当地提取出需要分析的音频信号。

[En]

Speech recognition is to convert a section of speech signal into corresponding text information. the system mainly includes four parts: feature extraction, acoustic model, language model, dictionary and decoding. In addition, in order to extract features more effectively, it is often necessary to filter, frame and other audio data preprocessing of the collected sound signal, and properly extract the audio signal that needs to be analyzed from the original signal.

一般流程：

; 2.2百度API调用方法

通过在百度智能开发平台中建立语音技术等应用，获得相对的技术权威功能。

[En]

Through the establishment of voice technology and other applications in the Baidu intelligent development platform, we will obtain the relative technical authority function.

创建完毕后百度会给你一个应用列表，使用这里的AppID，API Key及Secret Key便可以进行API的调用。

3．实验

3.1实验准备

本次实验我们采用的是百度API进行识别，故需要安装baidu-aip模块
首先打开命令行，在里面输入pip install baidu-aip。

如上图，即是安装成功。
因为本项目采用pyqt5进行了界面编写，故还需要安装pyqt5模块。
打开命令行，在里面输入pip install pyqt5即可安装。
接下来需要去百度AI的官网去创建应用，获取AppID,APIKey,Secret Key。

; 3.2实验结果

在此就可直接输入对应的数字，enter键后便开始录音，随即弹出百度搜索界面，可直接进行搜索，即实验成功！

4.实验代码

import wave
import requests
import time
import base64
from pyaudio import PyAudio, paInt16
import webbrowser

framerate = 16000
num_samples = 2000
channels = 1
sampwidth = 2
FILEPATH = 'speech.wav'

base_url = "https://openapi.baidu.com/oauth/2.0/token?grant_type=client_credentials&client_id=%s&client_secret=%s"
APIKey = "********"
SecretKey = "**********"

HOST = base_url % (APIKey, SecretKey)

def getToken(host):
    res = requests.post(host)
    return res.json()['access_token']

def save_wave_file(filepath, data):
    wf = wave.open(filepath, 'wb')
    wf.setnchannels(channels)
    wf.setsampwidth(sampwidth)
    wf.setframerate(framerate)
    wf.writeframes(b''.join(data))
    wf.close()

def my_record():
    pa = PyAudio()
    stream = pa.open(format=paInt16, channels=channels,
                     rate=framerate, input=True, frames_per_buffer=num_samples)
    my_buf = []

    t = time.time()
    print('正在录音...')

    while time.time() < t + 4:
        string_audio_data = stream.read(num_samples)
        my_buf.append(string_audio_data)
    print('录音结束.')
    save_wave_file(FILEPATH, my_buf)
    stream.close()

def get_audio(file):
    with open(file, 'rb') as f:
        data = f.read()
    return data

def speech2text(speech_data, token, dev_pid=1537):
    FORMAT = 'wav'
    RATE = '16000'
    CHANNEL = 1
    CUID = '*******'
    SPEECH = base64.b64encode(speech_data).decode('utf-8')

    data = {
        'format': FORMAT,
        'rate': RATE,
        'channel': CHANNEL,
        'cuid': CUID,
        'len': len(speech_data),
        'speech': SPEECH,
        'token': token,
        'dev_pid': dev_pid
    }
    url = 'https://vop.baidu.com/server_api'
    headers = {'Content-Type': 'application/json'}

    print('正在识别...')
    r = requests.post(url, json=data, headers=headers)
    Result = r.json()
    if 'result' in Result:
        return Result['result'][0]
    else:
        return Result

def openbrowser(text):
    maps = {
        '百度': ['百度', 'baidu'],
        '腾讯': ['腾讯', 'tengxun'],
        '网易': ['网易', 'wangyi']

    }
    if text in maps['百度']:
        webbrowser.open_new_tab('https://www.baidu.com')
    elif text in maps['腾讯']:
        webbrowser.open_new_tab('https://www.qq.com')
    elif text in maps['网易']:
        webbrowser.open_new_tab('https://www.163.com/')
    else:
        webbrowser.open_new_tab('https://www.baidu.com/s?wd=%s' % text)

if __name__ == '__main__':
    flag = 'y'
    while flag.lower() == 'y':
        print('请输入数字选择语言：')
        devpid = input('1536：普通话(简单英文),1537:普通话(有标点),1737:英语,1637:粤语,1837:四川话\n')
        my_record()
        TOKEN = getToken(HOST)
        speech = get_audio(FILEPATH)
        result = speech2text(speech, TOKEN, int(devpid))
        print(result)
        if type(result) == str:
            openbrowser(result.strip('，'))
        flag = input('Continue?(y/n):')

Original: https://blog.csdn.net/m0_37758063/article/details/123645822
Author: ZHW_AI课题组
Title: Python调用百度API进行语音识别

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/527185/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

利用Jupyter Notebook进行科学计算和数据分析

Jupyter Notebook Jupyter Notebook 作为一个编辑器，非常的受欢迎。它的代码和输出结果都保存在同一个文件中。需要时直接发一个文件就能在其它电脑快速运行…

人工智能 2023年7月15日
00130
云原生之K8S——list-watch机制，调度约束以及故障排查

一，list-watch机制 1，list-watch介绍 1，kubernetes是通过list-watch的机制进行每个组件的动作，保持数据同步的，每个组件之间的设计实现了解耦…

人工智能 2023年6月26日
0064
图像分割 – 孤立点的检测

目录 1. 介绍 2. 代码实现介绍因为，一阶导数通常会产生粗边缘。二阶导数对精细细节（细线、孤立点、噪声）有更强的响应。所以，检测孤立点应该以二阶导数为基础，而二阶导数的差…

人工智能 2023年6月29日
0075
知识库问答KB-QA——语义解析

一、语义解析二、逻辑形式三、语义解析KB-QA的方法框架 * 训练分类器构建词汇表桥接操作实验结果该方法的缺陷以一个经典的语义解析baseline方法为例，介绍语义解…

人工智能 2023年6月10日
00100
自建引用包报错：CMake Error at /opt/ros/melodic/share/catkin/cmake/catkinConfig.cmake:83 (find_package):

报错内容： CMake Error at /opt/ros/melodic/share/catkin/cmake/catkinConfig.cmake:83 (find_packa…

人工智能 2023年6月1日
00139
数据分析（Data Analysis）

数据分析一、数据分析——基础 * 1.什么是数据分析 – 1.1数据分析的概念 1.2数据分析的应用 1.3数据分析方法 + 1.3.1对比分析 1.3.2同比分析 …

人工智能 2023年6月19日
0099
使用百度api实现文本转语音功能

文本转语音工具类*/public class TextToAudio { //private final String filepath = “/fileupload&…

人工智能 2023年5月25日
0081
PyTorch 详细常用图像数据集加载及预处理（三种）

前言： from torch.utils.data import Dataset from torchvision import datasets from torch.utils…

人工智能 2023年6月15日
00123
R语言dataframe数据索引、访问: 使用中括号[]和列号索引访问dataframe数据的指定列

R语言dataframe数据索引、访问: 使用中括号[]和列号索引访问dataframe数据的指定列目录 R语言dataframe数据索引、访问: 使用中括号[]和列号索引访问d…

人工智能 2023年7月17日
0067
虚拟变量怎么做回归_等级变量的检验怎么做？

今天，我们讲等级变量的假设检验。首先，回顾一下，什么叫等级变量。一般而言，等级变量属于分类变量的一种，与之相对的就是无序变量。大家生活中经常碰到的”满意程度&#822…

人工智能 2023年6月18日
0064
各种弱人工智能产品已经逐步走入了我们的生活

在过往的三四十年之间科学的发展与科技的进步让我们所处的世界发生了翻天覆地的变化，而在未来这种变化也许会更加惊人。不知不觉中，我们已经进入了人工智能的时代各种弱人工智能产品已经逐步…

人工智能 2023年7月17日
0074
TensorFlow安装教程

诸神缄默不语-个人CSDN博文目录 TensorFlow是学习深度学习时常用的Python神经网络框架，本文将介绍其部分版本在Linux系统使用pip进行安装的方法。（注：Tens…

人工智能 2023年7月26日
0046
pandas计数函数：value_counts( )和counts( )的使用

介绍一下如何在python里使用value_counts( )和counts( )进行计数。一、counts( )函数 1、count()在字符串里的使用函数体及主要参数： c…

人工智能 2023年7月31日
00126
statemodels 笔记： lowess

机器学习笔记：局部加权回归 LOESS_UQI-LIUWJ的博客-CSDN博客 1 基本使用方法 statsmodels.nonparametric.smoothers_lowes…

人工智能 2023年6月17日
00128
如何在jupyter中运行创建的虚拟环境（用于tensorflow）

1.创建虚拟环境(以 py36 为例) 打开anaconda>>environment>>create>>创建虚拟环境的名字，并选择python…

人工智能 2023年5月24日
0078
PyTorch中如何读取数据（Dataset类的使用）

在pytorch中如何读取数据主要有两个类。分别是Dataset和Dataloader。dataset可以理解为：提供一种方式去获取数据及其label(标签)。可以实现（1）如何…

人工智能 2023年7月21日
0058

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python调用百度API进行语音识别

目录

2.1语音识别

; 2.2百度API调用方法

3.1实验准备

; 3.2实验结果

大家都在看