ESP32在线语音识别词法解析

2023年5月25日上午7:33 • 人工智能 • 阅读 112

文章目录

*
– 在线语音识别的优势
– 一，语音识别流程图
– 二，录音
– 三，词法分析

在线语音识别的优势

结合语义分析的在线语音识别具有识别准确、灵活性高的特点，但其处理速度不如离线识别。

[En]

Online speech recognition combined with semantic analysis has the characteristics of accurate recognition and high flexibility, but its processing speed is not as fast as offline recognition.

一，语音识别流程图

与离线识别不同的是，在esp32被唤醒后，会进行录音，录音结束后将音频发送到云端进行语音识别，并将返回的文本结果进行词法分析，得到特征值，根据特征值，执行相应的命令。

; 二，录音

esp32被唤醒后就开始录音，通过VAD音量检测，判断用户是否在讲话，若讲话停止则停止录音（或到达录音最大时间），并将数据通过http客户端发送到百度云语音识别接口。

这里展示主要的代码，录音的数据保存到recoder中：


    vad_handle_t vad_inst = vad_create(VAD_MODE_4, VAD_SAMPLE_RATE_HZ, VAD_FRAME_LENGTH_MS);

    int16_t *vad_buff = (int16_t *)malloc(VAD_BUFFER_LENGTH * sizeof(short));
    if (vad_buff == NULL)
    {
        ESP_LOGE(TAG, "Memory allocation failed!");
    }
    int index = 0;
    int timeout = 0;
    int total_rec = 0;

    while (1)
    {

        raw_stream_read(raw_read, (char *)buffer, audio_wn_chunksize * sizeof(short));
        if (enable_wn)
        {

            if (wakenet->detect(model_wn_data, (int16_t *)buffer) == 1)
            {
                ESP_LOGI(TAG, "wake up start listening");

                LED_ON;
                enable_wn = false;
            }
        }
        else
        {

            if (recoder != NULL)
            {

                if (total_rec < (MAX_RECODER - 960) && timeout < RECODER_TIMEOUT)
                {

                    memcpy(recoder + (index * audio_wn_chunksize * sizeof(short)), buffer, audio_wn_chunksize * sizeof(short));
                    index++;

                    total_rec += audio_wn_chunksize * sizeof(short);
                }
                else
                {
                    LED_OFF;

                    ESP_LOGI(TAG, "stop listening");
                    memset(http_buff, 0, MAX_HTTP_LEN);
                    memset(url, 0, 200);

                    esp_http_client_config_t config = {
                        .method = HTTP_METHOD_POST,
                        .event_handler = http_event_handle,
                        .user_data = (void *)http_buff,
                    };

                    sprintf(url, BAIDU_ASR_URL, baidu_access_token);

                    config.url = url;
                    printf("start connect to url = %s\r\n", config.url);

                    esp_http_client_handle_t client = esp_http_client_init(&config);
                    esp_http_client_set_header(client, "Content-Type", "audio/pcm;rate=16000");
                    esp_http_client_set_post_field(client, (const char *)recoder, total_rec);

                    ESP_LOGI(TAG, "start trasnlate");
                    esp_http_client_perform(client);
                    esp_http_client_close(client);
                    esp_http_client_cleanup(client);

                    free(recoder);
                    recoder = NULL;
                    index = 0;
                    total_rec = 0;
                    timeout = 0;
                    enable_wn = true;
                }
            }
            else{
                recoder = malloc(MAX_RECODER);
            }

            memcpy(vad_buff, buffer, VAD_BUFFER_LENGTH * sizeof(short));

            vad_state_t vad_state = vad_process(vad_inst, vad_buff);

            if (vad_state == VAD_SPEECH)
            {

                timeout = 0;
            }
            else
            {

                timeout++;
            }

三，词法分析

百度词法分析文档

百度词法分析定制说明

接收到语音识别返回的文本后，还需要对文本进行词法分析，解析出文本中包含的指令。这个功能使用的是百度的词法分析定制版。具体逻辑是：首先我们确定一个词汇集，如：{打开，开启，启动}，并将该词汇集命名为OPEN，{空调，格力空调}命名为”AC”

例如，用户输入”打开空调”，词法分析就会得到以下结果

{
    "log_id": 4870567568319578302,
    "items": [
        {
            "loc_details": [

            ],
            "byte_offset": 0,
            "uri": "",
            "ne": "OPEN",
            "basic_words": [
                "打开"
            ],
            "item": "打开",
            "pos": "",
            "byte_length": 6,
            "formal": ""
        },
        {
            "loc_details": [

            ],
            "byte_offset": 6,
            "uri": "",
            "ne": "AC",
            "basic_words": [
                "空调"
            ],
            "item": "空调",
            "pos": "",
            "byte_length": 6,
            "formal": ""
        }
    ],
    "text": "打开空调"
}

我们读取”ne”键中的内容，就能判断用户的意图。以下代码请求词法分析


int Etymology_Analysis()
{

    cJSON *root = cJSON_Parse(http_buff);
    if(root==NULL)
    {
        ESP_LOGI(TAG,"cjson parse error");
        return 0;
    }
    cJSON *item=cJSON_GetObjectItem(root, "err_no");
    if(item->valueint!=0)
    {
        ESP_LOGI(TAG,"translate error,err_no:%d",item->valueint);
        cJSON_Delete(root);
        return 0;
    }
    item = cJSON_GetObjectItem(root, "result");
    item = cJSON_GetArrayItem(item,0);
    char *result = cJSON_GetStringValue(item);

    char *post_data = malloc(POST_DATA_LEN);

    snprintf(post_data, POST_DATA_LEN, "{\"text\":\"%s\"}", result);

    ESP_LOGI(TAG, "POST DATA:%s", post_data);

    memset(http_buff, 0, MAX_HTTP_LEN);
    memset(url, 0, 200);

    esp_http_client_config_t config={
        .method=HTTP_METHOD_POST,
        .event_handler=http_event_handle,

        .user_data = (void *)http_buff,
    };

    sprintf(url, BAIDU_ETY_URL, baidu_access_token);
    config.url = url;

    esp_http_client_handle_t client = esp_http_client_init(&config);
    esp_http_client_set_header(client, "Content-Type", "application/json");
    esp_http_client_set_post_field(client,(const char*)post_data,strlen(post_data));

    printf("start connect to url = %s\r\n",config.url);
    esp_http_client_perform(client);
    int con_len = esp_http_client_get_content_length(client);
    ESP_LOGI(TAG, "Status = %d, content_length = %d", esp_http_client_get_status_code(client), con_len);

    esp_http_client_close(client);
    esp_http_client_cleanup(client);

    cJSON_Delete(root);
    free(post_data);
    return 1;
}

在获取到以上的JSON数据后，接下来就是提取”ne”中的内容，用下面的数据结构来辅助解析。


typedef struct
{
    enum Lexical lexical;
    char text[10];
} Ety_Element;
static Ety_Element ety_eles[10] = {0};

typedef struct
{
    int number;
    enum Object object;
    enum AC_Option option;

} Audio_Order;

以下代码会解析每个词，并填充到ety_eles数组，每个单词对应一个ety_eles成员：


int parse_items()
{
    cJSON *root = cJSON_Parse(http_buff);

    cJSON *items = cJSON_GetObjectItem(root, "items");
    if(items == NULL)
    {
        return 0;
    }

    int arry_size=cJSON_GetArraySize(items);

    memset(ety_eles, 0, 10 * sizeof(Ety_Element));

    cJSON *item,*sub_item;
    char *character, *text;

    for (int i = 0; i < arry_size; i++)
    {
        item = cJSON_GetArrayItem(items, i);

        sub_item = cJSON_GetObjectItem(item, "pos");

        character = cJSON_GetStringValue(sub_item);

        if (strncmp(character,"",1)==0)
        {

            sub_item = cJSON_GetObjectItem(item, "ne");
            character = cJSON_GetStringValue(sub_item);
        }

        printf("char = %s \r\n", character);

        if (strncmp(character, "NUM", 3) == 0)
        {

        }
        else if(strncmp(character,"AC",2)==0){
            ety_eles[i].lexical = Aircon;
        }
        else if(strncmp(character,"BT",2)==0){
            ety_eles[i].lexical = Bt;
        }
        else if(strncmp(character,"WEA",3)==0){
            ety_eles[i].lexical = Weather;
        }
        else if(strncmp(character,"DOWN",4)==0){
            ety_eles[i].lexical = Down;
        }
        else if(strncmp(character,"UP",2)==0){
            ety_eles[i].lexical = Up;
        }
        else if(strncmp(character,"CLOSE",5)==0){
            ety_eles[i].lexical = Close;
        }
        else if(strncmp(character,"OPEN",4)==0){
            ety_eles[i].lexical = Open;
        }
        else if(strncmp(character,"TOMO",4)==0)
        {
            ety_eles[i].lexical = Tomorrow;
        }
        else if(strncmp(character,"AFTTO",5)==0)
        {
            ety_eles[i].lexical = Aftermotorrow;
        }
        else if(strncmp(character,"TODAY",4)==0)
        {
            ety_eles[i].lexical = Today;
        }
        else if(strncmp(character,"TIME",4)==0){

            ety_eles[i].lexical = TIME;
        }
        else if(strncmp(character,"n",1)==0){
            ety_eles[i].lexical = Nouns;
        }
        else if(strncmp(character,"w",1)==0){
            ety_eles[i].lexical = Word;
        }
        else if(strncmp(character,"v",1)==0){
            ety_eles[i].lexical = Verbs;
        }
        else if(strncmp(character,"m",1)==0){

            sub_item = cJSON_GetObjectItem(item, "basic_words");
            sub_item = cJSON_GetArrayItem(sub_item, 0);
            text = cJSON_GetStringValue(sub_item);
            ety_eles[i].lexical = Mount;
            strncpy(ety_eles[i].text, text, strlen(text));
        }
        else if(strncmp(character,"r",1)==0){
            ety_eles[i].lexical = Pronouns;
        }
        else{
            ety_eles[i].lexical = Other;
        }

    }
    cJSON_Delete(root);
    return arry_size;
}

下面，根据得到的ety_eles数组，组装成一个Audio_Order类型的命令：


Audio_Order build_order(int i)
{

    Audio_Order ord={
        .number=0,
        .object=obj_other,
        .option=AC_OPTION_MAX
    };

    for (int x = 0; x < i; x++)
    {

        switch(ety_eles[x].lexical)
        {
            case Aircon:
                ord.object = obj_Ac;
                break;
            case Bt:
                ord.object = obj_Bt;
                break;
            case Weather:
                ord.object = obj_Weather;
                break;
            case Open:
                ord.option = AC_OPTION_OPEN;
                break;
            case Close:
                ord.option = AC_OPTION_CLOSE;
                break;
            case Up:
                ord.option = AC_OPTION_UP;
                break;
            case Down:
                ord.option = AC_OPTION_DOWN;
                break;
            case Num:
                ord.number = atoi(ety_eles[x].text);

                break;
            case Mount:
                ord.number = atoi(ety_eles[x].text);

            case TIME:

                break;
            case Today:
                ord.number = 0;
                break;
            case Tomorrow:
                ord.number = 1;
                break;
            case Aftermotorrow:
                ord.number = 2;
                break;

            default:

                break;

        }

    }

    return ord;
}

有了Audio_Order命令，我们就能根据命令的内容作出反应。

Original: https://blog.csdn.net/weixin_44821644/article/details/115325281
Author: killer-p
Title: ESP32在线语音识别词法解析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/512908/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python 大数据的进行信用卡欺诈检测（附源码与注释）

本案例可用于帮助大家对前面知识的掌握，同样也可以用于毕业设计等用途，我写文的初衷只是帮助大家对知识的掌握。一、背景和目的该数据集包含使用信用卡进行的金融交易的数据。这些数据是指…

人工智能 2023年7月15日
0070
动手学深度学习（三十六）——语言模型和数据集

文章目录语言模型和数据集 * 一、学习语言模型 – 1.1 理论说明 1.2 实例推导二、马尔可夫模型与n n n 元语法三、自然语言统计 – 3.1…

人工智能 2023年5月25日
0074
中文数据清洗

1、HTML标签去除从Web获得的数据通常包含许多HTML实体、注释，如lt；& gt；& &；，嵌入在原始数据中。这些信息属于噪音数据，会严重影响数据的…

人工智能 2023年5月31日
0078
[动手学深度学习(PyTorch)]——线性模型&基础优化算法

一、线性模型线性模型：可以看做是单层的神经网络衡量指标：参数学习：二、优化算法 1、梯度下降学习率的选择：不能太大也不能太小（1）小批量随机梯度下降批量不能太小：批量…

人工智能 2023年7月14日
0049
【python】tkinter界面化+百度API—语音识别(一)

目录百度API tkineter界面设计完整代码：实现结果如下：百度API 语音识别功能是调用百度语音识别API去实现的。（这是百度开放的免费功能，每人可以注册领取免费资源…

人工智能 2023年5月25日
0085
ChatGPT：当向聊天机器人问起编程问题的时候

目录 0. 前言 1. 10个编程操作 * 1.1 MATLAB怎么检测鼠标所在的位置坐标 1.2 MATLAB获取系统时间 1.3 MATLAB怎么跳过报错程序 1.4 MATL…

人工智能 2023年7月31日
0066
DPU到底是什么？真能做到与CPU、GPU比肩

DPU：第三颗主力芯片英伟达吹爆的DPU到底是啥？真能做到与CPU、GPU比肩？ 2020年，NVIDIA在GTC战略发布中将DPU定义为，继CPU和GPU之后”第三…

人工智能 2023年6月4日
00132
Java八股文基础

1.1 基本原则 SOLID（单一职责原则、开闭原则、接口隔离原则、里氏替换原则、依赖倒置原则）。solid：坚硬的。 1) 单一职责原则：一个类应该只有一个引起它变化的原因。如…

人工智能 2023年6月27日
0077
ML之PDP：基于FIFA 2018 Statistics(2018年俄罗斯世界杯足球赛)球队比赛之星分类预测数据集利用DT决策树&RF随机森林+PDP部分依赖图可视化实现模型可解释性之详细攻略

ML之PDP：基于FIFA 2018 Statistics(2018年俄罗斯世界杯足球赛)球队比赛之星分类预测数据集利用DT决策树&RF随机森林+PDP部分依赖图可视化实现…

人工智能 2023年7月1日
0089
torch.nn.functional.interpolate()函数详解

通常可以使用pytorch中的torch.nn.functional.interpolate()实现插值和上采样。上采样，在深度学习框架中，可以简单理解为任何可以让你的图像变成…

人工智能 2023年6月16日
0082
OpenCv特征匹配

OpenCv提供了两种描述符匹配方法：Brute-Force匹配与FLANN匹配 1.Brute-Force匹配 1.1创建BFMatcher对象 1.2使用两个方法：match(…

人工智能 2023年7月10日
0057
TRUNK理论与配置实验

目录一、TRUNK技术产生背景，解决什么问题二、TRUNK是如何实现的/基本概念使用主干道技术实现： 802.1Q： 802.1Q帧格式：干道协议： TRUNK特性：本征…

人工智能 2023年6月30日
0075
SPSS决策树和神经网络

决策树常用于解决分类问题，决策树算法就是根据训练数据集，通过一系列的测试问题，从而完成对输出分类目标的进行划分，他首先有一个根节点(只出不进)，然后再有很多的内部节点(一入两出)，…

人工智能 2023年7月16日
0072
基于51单片机的高精度可调数控稳压电源Proteus仿真

资料编号：131 下面是相关功能视频演示： 131-基于51单片机的高精度可调数控稳压电源Proteus仿真（源码+仿真+全套资料）功能讲解：采用51单片机作为主控，独立按键来…

人工智能 2023年6月26日
0098
国内最值得关注的10家人工智能语音识别公司

谈到人工智能，我们一定要谈到语音识别。语音识别是人机交互的入口，指的是机器/程序接收和解释声音或理解和执行口头命令的能力。目前，已经有国内外企业在语音领域进行了投资，既有几年前才成…

人工智能 2023年5月27日
00267
三因素四水平正交试验_五因素四水平多元正交多项式回归与最小二乘法设计及其应用…

一、序言正交多项式回归是用正交多项式表安排试验和回归分析处理数据。其回归系数的估计是互相独立的，若统计检验某一回归系数与零无显著性差异，只需从回归方程中删去这一项，而无需对其他的…

人工智能 2023年6月18日
0091

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

ESP32在线语音识别 词法解析