Python使用websocket调用实时语音识别，语音转文字

2023年5月27日下午12:00 • 人工智能 • 阅读 114

Python使用websocket调用实时语音识别，语音转文字

0. 太长不看系列，直接使用
1. Python调用标贝科技语音识别websocket接口，实现语音转文字
*
1.1 环境准备：
1.2 获取权限
–
2. 代码实现
*
2.1 获取access_token
2.2 准备数据
2.3 配置接口参数
2.4 建立websocket客户端
2.5 完整demo
2.6 执行
标贝科技 https://ai.data-baker.com/#/?source=qwer12
填写邀请码fwwqgs，每日免费调用量还可以翻倍
太长不看系列，直接使用

在1.2官网注册后拿到APISecret和APIKey，直接复制文章2.5demo代码，保存为real_time_audio_recognition.py，在命令行执行

python real_time_audio_recognition.py -client_secret=&#x60A8;&#x7684;client_secret -client_id=&#x60A8;&#x7684;client_id -file_path=test.wav --audio_format=wav --sample_rate=16000

如果您在使用中有任何问题，请随时留言。

[En]

If you have any questions in use, please feel free to leave a message.

Python调用标贝科技语音识别websocket接口，实现语音转文字

1.1 环境准备：

Python 3

1.2 获取权限

标贝科技 https://ai.data-baker.com/#/?source=qwer12

填写邀请码fwwqgs，每日免费调用量还可以翻倍

; 1.2.1 登录

点击产品地址登录。支持短信、密码、微信登录。

[En]

Click the product address to log in. SMS, password and Wechat are supported to log in.

1.2.2 创建新应用

登录后，进入[首页总览]，开发者可以创建多个应用。包括一句话识别、长语音识别、录音文件识别；在线合成、离线合成、长文本合成。

[En]

After logging in, go to [Home Overview], and developers can create multiple applications. Including one-sentence recognition, long speech recognition, recording file recognition; online synthesis, offline synthesis, long text synthesis.

; 1.2.3 选择服务

进入【已创建的应用】，左侧选择您需调用的AI技术服务，右侧展示对应服务页面概览（您可查询用量、管理套餐、购买服务量、自主获取授权、预警管理）。

1.2.4 获取Key&Secret

通过服务 / 授权管理，获取对应参数，进行开发配置（获取访问令牌token）

拿到Key和Secret就可以正式使用啦！

; 2. 代码实现

2.1 获取access_token

在拿到Key和Secret后，我们还需要调用授权接口获取access_token，这个access_token有效时长是24小时。

&#x83B7;&#x53D6;access_token&#x7528;&#x4E8E;&#x9274;&#x6743;
def get_access_token(client_secret, client_id):
    grant_type = "client_credentials"
    url = "https://openapi.data-baker.com/oauth/2.0/token?grant_type={}&client_secret={}&client_id={}" \
        .format(grant_type, client_secret, client_id)

    try:
        response = requests.post(url)
        response.raise_for_status()
    except Exception as e:
        print(response.text)
        raise Exception
    else:
        access_token = json.loads(response.text).get('access_token')
        return access_token

2.2 准备数据

需要根据接口要求设置参数，并对音频数据进行分段。

[En]

The parameters need to be set according to the interface requirements, and the audio data should be segmented.

&#x51C6;&#x5907;&#x6570;&#x636E;
def prepare_data(args, access_token):
    # &#x8BFB;&#x53D6;&#x97F3;&#x9891;&#x6587;&#x4EF6;
    with open(args.file_path, 'rb') as f:
        file = f.read()

    # &#x586B;&#x5199;Header&#x4FE1;&#x606F;
    audio_format = args.audio_format
    sample_rate = args.sample_rate

    splited_data = [str(base64.b64encode(file[i:i + 5120]), encoding='utf-8') for i in range(0, len(file), 5120)]
    asr_params = {"audio_format": audio_format, "sample_rate": int(sample_rate), "speech_type": 1}

    json_list = []
    for i in range(len(splited_data)):
        if i != len(splited_data) - 1:
            asr_params['req_idx'] = i
        else:
            asr_params['req_idx'] = -len(splited_data) + 1
        asr_params["audio_data"] = splited_data[i]
        data = {"access_token": access_token, "version": "1.0", "asr_params": asr_params}

        json_list.append(json.dumps(data))

    return json_list

2.3 配置接口参数

client_secret和client_id：在文章1.2的官网获取，必填

file_save_path：文件保存路径，必填

audio_format：音频类型，默认wav格式

sample_rate：采样率，默认16000Hz

&#x83B7;&#x53D6;&#x547D;&#x4EE4;&#x884C;&#x8F93;&#x5165;&#x53C2;&#x6570;
def get_args():
    parser = argparse.ArgumentParser(description='ASR')
    parser.add_argument('-client_secret', type=str, required=True)
    parser.add_argument('-client_id', type=str, required=True)
    parser.add_argument('-file_path', type=str, required=True)
    parser.add_argument('--audio_format', type=str, default='wav')
    parser.add_argument('--sample_rate', type=str, default='16000')
    args = parser.parse_args()

    return args

2.4 建立websocket客户端

class Client:
    def __init__(self, data, uri):
        self.data = data
        self.uri = uri

    #&#x5EFA;&#x7ACB;&#x8FDE;&#x63A5;
    def connect(self):
        ws_app = websocket.WebSocketApp(uri,
                                        on_open=self.on_open,
                                        on_message=self.on_message,
                                        on_error=self.on_error,
                                        on_close=self.on_close)
        ws_app.run_forever()

    # &#x5EFA;&#x7ACB;&#x8FDE;&#x63A5;&#x540E;&#x53D1;&#x9001;&#x6D88;&#x606F;
    def on_open(self, ws):
        print("sending..")
        for i in range(len(self.data)):
            ws.send(self.data[i])

    # &#x63A5;&#x6536;&#x6D88;&#x606F;
    def on_message(self, ws, message):
        code = json.loads(message).get("code")
        if code != 90000:
            # &#x6253;&#x5370;&#x63A5;&#x53E3;&#x9519;&#x8BEF;
            print(message)
        if json.loads(message).get('end_flag') == 1:
            print(json.loads(message).get('asr_text'))

    # &#x6253;&#x5370;&#x9519;&#x8BEF;
    def on_error(slef, ws, error):
        print("error: ", str(error))

    # &#x5173;&#x95ED;&#x8FDE;&#x63A5;
    def on_close(ws):
        print("client closed.")

2.5 完整demo

import argparse
import json
import base64
import requests
import websocket

class Client:
    def __init__(self, data, uri):
        self.data = data
        self.uri = uri

    #&#x5EFA;&#x7ACB;&#x8FDE;&#x63A5;
    def connect(self):
        ws_app = websocket.WebSocketApp(uri,
                                        on_open=self.on_open,
                                        on_message=self.on_message,
                                        on_error=self.on_error,
                                        on_close=self.on_close)
        ws_app.run_forever()

    # &#x5EFA;&#x7ACB;&#x8FDE;&#x63A5;&#x540E;&#x53D1;&#x9001;&#x6D88;&#x606F;
    def on_open(self, ws):
        print("sending..")
        for i in range(len(self.data)):
            ws.send(self.data[i])

    # &#x63A5;&#x6536;&#x6D88;&#x606F;
    def on_message(self, ws, message):
        code = json.loads(message).get("code")
        if code != 90000:
            # &#x6253;&#x5370;&#x63A5;&#x53E3;&#x9519;&#x8BEF;
            print(message)
        if json.loads(message).get('end_flag') == 1:
            print(json.loads(message).get('asr_text'))

    # &#x6253;&#x5370;&#x9519;&#x8BEF;
    def on_error(slef, ws, error):
        print("error: ", str(error))

    # &#x5173;&#x95ED;&#x8FDE;&#x63A5;
    def on_close(ws):
        print("client closed.")

&#x51C6;&#x5907;&#x6570;&#x636E;
def prepare_data(args, access_token):
    # &#x8BFB;&#x53D6;&#x97F3;&#x9891;&#x6587;&#x4EF6;
    with open(args.file_path, 'rb') as f:
        file = f.read()

    # &#x586B;&#x5199;Header&#x4FE1;&#x606F;
    audio_format = args.audio_format
    sample_rate = args.sample_rate

    splited_data = [str(base64.b64encode(file[i:i + 5120]), encoding='utf-8') for i in range(0, len(file), 5120)]
    asr_params = {"audio_format": audio_format, "sample_rate": int(sample_rate), "speech_type": 1}

    json_list = []
    for i in range(len(splited_data)):
        if i != len(splited_data) - 1:
            asr_params['req_idx'] = i
        else:
            asr_params['req_idx'] = -len(splited_data) + 1
        asr_params["audio_data"] = splited_data[i]
        data = {"access_token": access_token, "version": "1.0", "asr_params": asr_params}

        json_list.append(json.dumps(data))

    return json_list

&#x83B7;&#x53D6;&#x547D;&#x4EE4;&#x884C;&#x8F93;&#x5165;&#x53C2;&#x6570;
def get_args():
    parser = argparse.ArgumentParser(description='ASR')
    parser.add_argument('-client_secret', type=str, required=True)
    parser.add_argument('-client_id', type=str, required=True)
    parser.add_argument('-file_path', type=str, required=True)
    parser.add_argument('--audio_format', type=str, default='wav')
    parser.add_argument('--sample_rate', type=str, default='16000')
    args = parser.parse_args()

    return args

&#x83B7;&#x53D6;access_token&#x7528;&#x4E8E;&#x9274;&#x6743;
def get_access_token(client_secret, client_id):
    grant_type = "client_credentials"
    url = "https://openapi.data-baker.com/oauth/2.0/token?grant_type={}&client_secret={}&client_id={}" \
        .format(grant_type, client_secret, client_id)

    try:
        response = requests.post(url)
        response.raise_for_status()
    except Exception as e:
        print(response.text)
        raise Exception
    else:
        access_token = json.loads(response.text).get('access_token')
        return access_token

if __name__ == '__main__':
    try:
        args = get_args()

        # &#x83B7;&#x53D6;access_token
        client_secret = args.client_secret
        client_id = args.client_id
        access_token = get_access_token(client_secret, client_id)

        # &#x51C6;&#x5907;&#x6570;&#x636E;
        data = prepare_data(args, access_token)

        uri = "wss://openapi.data-baker.com/asr/realtime"
        # &#x5EFA;&#x7ACB;Websocket&#x8FDE;&#x63A5;
        client = Client(data, uri)
        client.connect()
    except Exception as e:
        print(e)

2.6 执行

复制所有代码，确定音频为wav格式，采样率为16K，在命令行执行

python real_time_audio_recognition.py -client_secret=&#x60A8;&#x7684;client_secret -client_id=&#x60A8;&#x7684;client_id -file_path=test.wav --audio_format=wav --sample_rate=16000

标贝科技 https://ai.data-baker.com/#/?source=qwer12

填写邀请码fwwqgs，每日免费调用量还可以翻倍

Original: https://blog.csdn.net/DataBaker/article/details/118085555
Author: DataBaker标贝科技
Title: Python使用websocket调用实时语音识别，语音转文字

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/525999/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

图像分类模型总结

【结构变迁】【变迁的点】使用small filter size的卷积层和pooling 去掉parameters过多的全连接层 Inception的使用跳层连接 Lenet …

人工智能 2023年7月2日
0067
深度学习车道线检测之 LaneNet （使用tensorflow2.4.0跑通）

本文用来整理回顾所学知识，也能使视觉领域初学者的同伴们少走些弯路。参考链接：无人驾驶汽车系统入门（三十）——基于深度神经网络LaneNet的车道线检测及ROS实现_AdamShan…

人工智能 2023年5月23日
00135
Python:jieba库的介绍与使用

前言： jieba是优秀的中文分词第三方库，由于中文文本之间每个汉字都是连续书写的，我们需要通过特定的手段来获得其中的每个词组，这种手段叫做分词，我们可以通过jieba库来完成这个…

人工智能 2023年7月5日
0090
音频信号处理基础知识

语音信号处理基础知识 1.均值 1.1.均值公式定义 x ‾ = x 1 + x 2 + ⋯ + x n n = ∑ j = 1 n x j n \overline{x} = \f…

人工智能 2023年5月27日
0059
Python手撸机器学习系列（十六）：循环神经网络RNN的实现

目录循环神经网络RNN * 1.公式推导 2.代码实现循环神经网络RNN 1.公式推导对于该循环神经网络，以中间的RNN单元为例，推导前向传播：对于Layer-1： z h…

人工智能 2023年6月15日
0076
【使用差分演化算法优化小波参数以提升其降噪性能】

使用差分演化算法优化小波参数以提升其降噪性能 1. 背景 2. 小波变换的发展和原理 * 2.1 傅里叶变换 2.2 小波理论原理 2.3 小波阈值降噪原理 2.4 小波阈值降噪原…

人工智能 2023年6月20日
0074
Word2Vec实战

Word2Vec实战 – 潘登同学的NLP学习笔记文章目录 * – Word2Vec实战 — 潘登同学的NLP学习笔记* 回顾词向量算法* –…

人工智能 2023年5月28日
0073
AssertionError: CUDA unavailable, invalid device 0 requested

1、查看报错 Traceback (most recent call last): File "train.py", line 651, in <modu…

人工智能 2023年7月22日
0037
时间序列回归：EAP.time_series_regress

实证资产定价中的时间序列回归多用于估计资产的因子暴露（beta值）。此外，时间序列分析可以通过GRS检验来考察资产收益率是否存在未被风险因子（risk factor）解释的异象（a…

人工智能 2023年6月18日
0083
知识图谱概述之笔记1

文章目录 1 什么是知识图谱？ 2 知识图谱的应用 3 知识图谱的技术流程 * 3.1 知识图谱技术要素 4 知识图谱架构 5 数据库划分 1 什么是知识图谱？知识图谱是一种用图…

人工智能 2023年6月10日
0094
Python图像处理丨带你掌握图像几何变换

摘要：本篇文章主要讲解图像仿射变换和图像透视变换，通过Python调用OpenCV函数实。本文分享自华为云社区《[Python图像处理] 十二.图像几何变换之图像仿射变换、图像透…

人工智能 2023年7月20日
0068
如何用DETR（detection transformer）训练自己的数据集

DETR(detection transformer)简介 DETR是Facebook AI的研究者提出的Transformer的视觉版本，是CNN和transformer的融合，…

人工智能 2023年6月26日
0094
UDA/语义分割-ColorMapGAN: Unsupervised Domain Adaptation for Semantic Segmentation Using Color Mapping G

ColorMapGAN: Unsupervised Domain Adaptation for Semantic Segmentation Using Color Mapping …

人工智能 2023年6月20日
0095
MAE 论文逐段精读【论文精读】（深度学习论文篇）

源于沐神： MAE 论文逐段精读【论文精读】 (bilibili.com) MAE 2021.11.11提交 arxiv 知乎百万 view; Reddit or Twitter…

人工智能 2023年5月28日
00106
基于tensorflow2.0+使用bert获取中文词、句向量并进行相似度分析

本文基于 transformers库，调用bert模型，对中文、英文的稠密向量进行探究开始之前还是要说下废话，主要是想吐槽下，为啥写这个东西呢？因为我找了很多文章要么不是不清晰，…

人工智能 2023年6月17日
0078
词表示

在NLP领域，自然语言通常是指以文本的形式存在，但是计算无法对这些文本数据进行计算，通常需要将这些文本数据转换为一系列的数值进行计算。那么具体怎么做的呢？这里就用到词向量的概念。 …

人工智能 2023年6月4日
0093

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python使用websocket调用实时语音识别，语音转文字

Python使用websocket调用实时语音识别，语音转文字

1.1 环境准备：

1.2 获取权限

; 1.2.1 登录

1.2.2 创建新应用

; 1.2.3 选择服务

1.2.4 获取Key&Secret

2.1 获取access_token

2.2 准备数据

2.3 配置接口参数

2.4 建立websocket客户端

2.5 完整demo

2.6 执行

​标贝科技 https://ai.data-baker.com/#/?source=qwer12

填写邀请码fwwqgs，每日免费调用量还可以翻倍

大家都在看

标贝科技 https://ai.data-baker.com/#/?source=qwer12