QT应用(9)-百度AI语音识别(音频-＞文字)

2023年5月27日下午1:14 • 人工智能 • 阅读 264

功能：给百度发一条音频，百度会给你返回一条文字。

[En]

Function: send an audio to Baidu, and Baidu returns a text to you.

结果图： 语音识别一般分在线和离线两种。本文说的是在线过程。录制一段音频文件->baidu,baidu ->返回一段文字给你。

1.注册账户
2.录制音频文件
3.发送http请求
4.解析json数据

1.百度注册账户+创建应用+API文档 https://console.bce.baidu.com/ai/#/ai/speech/overview/index https://cloud.baidu.com/doc/SPEECH/s/ek38lxj1u
请AK和SK请自行注册

const QString baiduSpeechTokenUrl = "https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=%1&client_secret=%2";
const QString speech_client_AK= "yLnualRuHnCcZDi2B3wEZ1rs";
const QString speech_client_SK= "LA55muGIGSWZPBkcQWnjA9AmlKeSRGLA";
const QString BaiduSpeechVideoUrl = "https://vop.baidu.com/pro_api?dev_pid=1537&cuid=%1&token=%2";

2.录制音频文件

1.一般支持的音频格式：pcm、wav、amr、m4a
2.编码要求：采样率 16000、16bit、单声道

3.发送http请求
3.1向 baiduSpeechTokenUrl 发请求得access_token (参数为：AK,SK)

 QString m_accessToken,m_text;
    QString TokenUrl = QString(baiduSpeechTokenUrl).arg(speech_client_AK).arg(speech_client_SK);
    QMap<qstring ,qstring>header;
    header.insert(QString("Content-Type") ,QString("audio/pcm;rate=16000"));
    QByteArray requestData;
    QByteArray replyData;
    myhttp m_http;
    bool ret;
    if(m_accessToken.isEmpty() == true)
    {
        ret = m_http.post_sync(TokenUrl ,header ,requestData ,replyData);
        if(ret)
        {
            QString key = "access_token";
            m_accessToken = getJsonValueBtn(replyData ,key);
            replyData.clear();
            qDebug() << "&#x83B7;&#x53D6;&#x7684;token" << m_accessToken;
        }
        else
        {
        }
  }</qstring>

下图为返回结果

3.2 向BaiduSpeechVideoUrl 发请求得文本(参数为：access_token,录音文件流)
发送代码：

 QString speechUrl = QString(BaiduSpeechVideoUrl).arg(QHostInfo::localHostName()).arg(m_accessToken);
     ret = m_http.post_sync(speechUrl ,header ,requestData ,replyData);
     if(ret)
     {
         QString key = "result";
         m_text = getJsonValueBtn(replyData ,key);
         replyData.clear();
         qDebug() << "&#x5F97;&#x5230;&#x7684;&#x6587;&#x672C;&#x7ED3;&#x679C;&#xFF1A;" << m_text;
     }

3.3 post代码：

bool myhttp::post_sync(QString Url ,QMap<qstring ,qstring>header ,QByteArray &requestData ,QByteArray &replyData)
{

    //QNetworkAccessManager Url QNetworkRequest  QNetworkReply
    QNetworkAccessManager m_manager;
    QNetworkRequest m_request;
    m_request.setUrl(Url);
    QMapIterator<qstring ,qstring> it(header);
    while(it.hasNext())
    {
        it.next();
        m_request.setRawHeader(it.key().toLatin1() ,it.value().toLatin1());
    }
    QNetworkReply *pReply = m_manager.post(m_request ,requestData);
    QEventLoop l;
    connect( pReply ,&QNetworkReply::finished ,&l ,&QEventLoop::quit);
    l.exec();
    if(pReply != nullptr && pReply->error() == QNetworkReply::NoError)
    {
       replyData = pReply->readAll();
       qDebug()<<"replydata:"<<replydata; return true; } false; }< code>
</"replydata:"<<replydata;></qstring></qstring>

4.解析json数据

JSONRAW编码读取二进制后base64编码读取直接放在Body中数据长度数据增大1/3 len =原始大小音频文件大小 Content-LengthheaderContent-Type:application/jsonContent-Type: audio/pcm;rate=16000url:cuid token：APPID ,API KEY,Secret KEY dev_pid1537(普通话)

QString mySpeech::getJsonValue(QByteArray &data, QString &key)
{
    QString ansstr="";
    QJsonParseError parseError;
    QJsonDocument jsonDocument = QJsonDocument::fromJson(data, &parseError);
     if(parseError.error == QJsonParseError::NoError)
    {
        if(jsonDocument.isObject())
        {
            QJsonObject jsonObj = jsonDocument.object();
            if(jsonObj.contains(key))
            {
                QJsonValue jsonVal = jsonObj.value(key);
                if(jsonVal.isString())
                {
                    return jsonVal.toString();
                }
                if(jsonVal.isArray())
                {
                    QJsonArray arr = jsonVal.toArray();
                    for(int index = 0;index < arr.size();index++)
                    {
                        QJsonValue subValue = arr.at(index);
                        if(subValue.isString())
                        {
                            ansstr += subValue.toString() + " ";
                        }
                    }
                    return ansstr;
                }
            }
            else
            {
                qDebug() << "&#x4E0D;&#x5305;&#x542B;&#x5173;&#x952E;&#x5B57;:" << key;
            }//contains(key)
        }
        else
        {
            qDebug() << "&#x4E0D;&#x662F;json&#x5BF9;&#x8C61;";
        }//isObject
    }
    else
    {
        qDebug() << "&#x672A;&#x6210;&#x529F;&#x89E3;&#x6790;JSON";
    }//NoError
    qDebug() << "&#x672A;&#x6210;&#x529F;&#x89E3;&#x6790;JSON&#xFF1A;"<< data.data();
    return QString("");
    return ansstr;
}
&#x70B9;&#x51FB;&#x5E76;&#x62D6;&#x62FD;&#x4EE5;&#x79FB;&#x52A8;

Original: https://blog.csdn.net/aggie4628/article/details/114682323
Author: 多云的夏天
Title: QT应用(9)-百度AI语音识别(音频-＞文字)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/526299/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

openCV实践项目：拖拽虚拟方块

一、项目效果：学校宿舍今天搬家，累麻了，突然发现展示处理的也很粗糙，就这样吧嘿嘿~~~ 二、核心流程： 1、openCV读取视频流、在每一帧图片上画一个矩形。 2、使用media…

人工智能 2023年6月23日
0088
目标检测ReXnet:Rethinking Channel Dimensions for Efficient Model Design

摘要 cvpr2021作者从特征矩阵秩的角度来改进，提出了关于卷积通道设置的一些限制要求。 1.知识储备扩张层：如果某个层的输出通道数（秩）大于输入通道数（秩）收缩层：如果某…

人工智能 2023年7月10日
0044
python实现随机森林

1. 随机森林的介绍随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一大分支——集成学习（Ensemble Learning）…

人工智能 2023年7月29日
0043
深度学习—鸢尾花分类—注意力机制模型和一般线性神经网络

注意力机制模型一般，线性模型的全连接网络如下，图1. 线性模型全连接神经网络图1是一个全连接的神经网络，所有特征有等同的地位。在前向传播中，前一层网络的节点和下一层网络的节点…

人工智能 2023年7月13日
0054
face_recognition库的使用

一：简介 face_recognition库是世界上最简洁的人脸识别库，可以使用Python和命令行工具提取、识别、操作人脸。 face_recognition库的人脸识别是基于业…

人工智能 2023年7月26日
0065
Google Earth Engine——无人机影像进行分类处理

本次我们是利用无人机影像采集的影像数据，对特征点的一些特征进行提取分析，然后再加载的矢量转化的过程中出现了以下问题，主要是超限，另外还有几个函数可以 ee.Algorithms.I…

人工智能 2023年7月1日
0082
eviews怎么回归道格拉斯生产函数_【干货分享】Eviews估计方法汇总

1最小二乘法 (1)普通最小二乘估计(OLS)：这是使用的最为普遍的模型，基本原理就是估计残差平方和最小化，不予赘述。 (2)加权最小二乘估计(WLS) Eviews路径：LS模型…

人工智能 2023年6月18日
0049
Python数据分析中的训练集、验证集、测试集

【小白从小学Python、C、Java】【Python全国计算机等级考试】【Python数据分析考试必会题】 ● 标题与摘要 Python数据分析中的训练集、验证集、测试集 …

人工智能 2023年7月15日
0055
简述回归，分类，聚类方法的区别和联系并分别举出一个例子

简述回归，分类，聚类方法的区别和联系并分别举出一个例子以前偶然找到过下图，该图对分类，聚类及其回归表达的很清晰。由上图我们可以看到，机器学习分为四大块，分别是 classific…

人工智能 2023年7月2日
0093
Conformer论文以及代码解析（上）

Conformer: Local Features Coupling Global Representations for Visual Recognition 1. Abstra…

人工智能 2023年5月28日
0085
Unity用代码写行走移动（第一人称）

利用代码写物体移动,首先我们要知道按键检测一般按键检测if (Input.GetKey(KeyCode.按键值)) 比如说我按W触发就是 if (Input.GetKey(Key…

人工智能 2023年7月31日
0055
python控制ppt翻页_python 操作ppt

转自其他博客实测可用加载库 import os import pandas as pd from pptx import Presentation from pptx.util…

人工智能 2023年7月9日
0050
机器学习——支持向量机

支持向量机简述线性可分支持向量机 * 泛化性基本思想间隔与向量机软间隔最大化非线性支持向量机序列最小优化算法线性可分支持向量机泛化性先来了解一下什么叫泛化性？我们…

人工智能 2023年7月3日
0086
双目深度估计——视差到深度的两种推导方法

双目深度估计——视差到深度的两种推导方法文章目录双目深度估计——视差到深度的两种推导方法 * 0. 基本假设 1. 几何法（直观） 2. 相机参数推导法 3. 总结 0. 基本…

人工智能 2023年5月28日
0062
2s-AGCN【复现】EOFError:Ranoutofinput问题解决记录（win10+pycharm）

在 win10上用 pycharm复现 2s-AGCN论文程序，在环境和文件路径都调通之后在终端里输入 python main.py –config ./config/nturg…

人工智能 2023年7月24日
0061
我也和 chatGPT 聊了聊

大家好啊，我是董董灿。我也和 chatGPT 聊了聊，都是因为最近 chatGPT 太火了！这是一个大型的 AI 语言模型。你不仅可以和它聊天，问它各种各样的问题，还可以让它写…

人工智能 2023年7月31日
0055

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

QT应用(9)-百度AI语音识别(音频-＞文字)

大家都在看