基于Recorder.js 和百度平台的语音识别功能实现

2023年5月27日下午1:05 • 人工智能 • 阅读 65

前端设计部分，自己设计就行，使用方法参考README-zh_CN.md中的API部分很清楚。文件上传部分参考详细版本的API，它提供了两种音频文件上传的方法。

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>JS&#x5F55;&#x97F3;&#x4E0A;&#x4F20;</title>
    <script src="JS/jquery-1.7.2.min.js"></script>
    <script src="bootstrap/css/bootstrap.min.css"></script>
    <script src="JS/recorder.js" type="text/javascript"></script>

    <script type="text/javascript">
        // 定义 recorder 对象
        let recorder = null;

        // 存储返回来的Json数据

        /***
         * 初始化配置 recorder对象
        */
        function init() {
            recorder = new Recorder
                ({
                    sampleBits: 16, // 采样位数，支持 8 或 16，默认是16
                    sampleRate: 16000, // 采样率，支持 11025、16000、22050、24000、44100、48000，根据浏览器默认值，我的chrome是48000
                    numChannels: 1, // 声道，支持 1 或 2， 默认是1
                    compiling: false, // 是否边录边转换，默认是false
                });
        }

        /***
         * 释放资源
         * **/
        function destroy() {
            // 销毁录音实例，置为null释放资源，fn为回调函数，
            recorder.destroy().then(function () {
                recorder = null;
            });
        }

        /**
         * 开始录音功能
        */
        function startRecorder() {
            if (recorder == null) {
                init();
            }
            recorder.start().then(() => {
                // 开始录音
            }, (error) => {
                // 出错了
                alert(${error.name} : ${error.message});
            });

        }

        /**
         * 停止录音
        */
        function stopRecorder() {
            recorder.stop();
        }
        /**
        * 开始播放
       */
        function startPlay() {
            if (recorder == null) {
                alert("您还没开始录音或已经销毁了实例");
                return;
            }
            // 录音播放
            recorder.play();
        }
        /**
        * 停止播放
         */
        function stopPlay() {
            if (recorder == null) {
                alert("您还没开始录音或已经销毁了实例");
                return;
            }
            // 停止播放
            recorder.stopPlay();
        }
        /*
         *上传音频
         */
        function upLoad() {
            if (recorder == null) {
                alert("您还没开始录音或已经销毁了实例");
                return;
            }
            // 获取wav类型的文件
            var blob = recorder.getWAVBlob();
            var reader = new FileReader();
            // FileReader 读取完成触发的事件
            reader.onloadend = function () {
                $.ajax({
                    url: "Handler/RecorderHandler.ashx", //上传接口地址
                    type: "POST",
                    data: {
                        mime: blob.type, //告诉后端，这个录音是什么格式的，可能前后端都固定的mp3可以不用写
                        upfile_b64: (/.+;\s*base64\s*,\s*(.+)$/i.exec(reader.result) || [])[1] //录音文件内容，后端进行base64解码成二进制
                        //...其他表单参数
                    },
                    success: function (v) {
                        //将返回值转变成json格式的对象，不然无法进行输出
                        var obj = eval('(' + v + ')');
                        // 给文本框赋值
                        $("#txtInfo").val(obj.result[0]);
                        alert("上传成功");
                    },
                    error: function (s) {
                       alert("上传失败", s);
                    }
                });
            };

            /***
             * readAsDataURL 方法会读取指定的 Blob 或 File 对象。
             * 读取操作完成的时候，readyState 会变成已完成DONE，
             * 并触发 loadend (en-US) 事件，
             * 同时 result 属性将包含一个data:URL格式的字符串
             * （base64编码）以表示所读取文件的内容。
             * **/
            reader.readAsDataURL(blob);
        }
    </script>

</head>
<body>
    <div>
        <span>&#x5F55;&#x97F3;&#x533A;&#x57DF; </span>
        <button class="btn-primary btn-success" onclick="startRecorder()">&#x5F00;&#x59CB;&#x5F55;&#x97F3;</button>
        <button class="btn-primary btn-success" onclick="stopRecorder()">&#x7ED3;&#x675F;&#x5F55;&#x97F3;</button>
        <hr>
    </div>

    <div>
        <span>&#x64AD;&#x653E;&#x533A;&#x57DF; </span>
        <button class="btn-primary btn-success" onclick="startPlay()">&#x5F00;&#x59CB;&#x64AD;&#x653E;</button>
        <button class="btn-primary btn-success" onclick="stopPlay()">&#x505C;&#x6B62;&#x64AD;&#x653E;</button>
        <button class="btn-primary btn-success" onclick="destroy()">&#x91CA;&#x653E;&#x8D44;&#x6E90;</button>
        <button class="btn-primary btn-success" onclick="upLoad()">&#x4E0A;&#x4F20;</button>

    </div>

    <div>

        <span style="display:block">&#x89E3;&#x6790;&#x7ED3;&#x679C;</span>
        <textarea id="txtInfo" style="width:200px; height:70px; border:solid 1px #ff0000;">
        </textarea>
    </div>

</body>
</html>

后台部分：首先在NuGet管理器中搜索Baidu.AI，选择作者为baidu的进行安装。然后创建一个Handeds文件用来装一般处理程序，在Handeds中创建一个一般处理程序，Ajax的Url就是一般处理程序的地址。想要查看详细怎么使用点击百度语音识别C#的SDK 查看即可。后台代码如下:

// 自定义类
using System;
using System.Collections.Generic;
using System.IO;
using System.Linq;
using System.Web;
using Baidu.Aip.Speech;
using Newtonsoft.Json.Linq;

namespace Recorder
{
    public class Speech
    {
        //在百度开放平台创建应用时自己生成的APP_ID,API_KEY,SECRET_KEY

        public Asr asr { get; set; }
        public string APP_ID { get; set; }
        public string API_KEY { get; set; }
        public string SECRET_KEY { get; set; }

        public Speech()
        {
            this.APP_ID = "24542849";
            this.API_KEY = "IPeG1mAvwant7BGYpF4A4cTU";
            this.SECRET_KEY = "QwXPDpNDXj14LO4fZAMKgwswdDatX2RA";
        }

      ///
      ///  识别上传的语音文件，并返回结果
      ///
      ///
        public JObject AsrData(string path)
        {
            if (asr == null)
            {
                // 初始化百度提供语音识别类
                asr = new Asr(APP_ID, API_KEY, SECRET_KEY);
            }
            // 从指定文件夹路径读取录音内容
            var data = File.ReadAllBytes(path);
            // 可选参数
            var options = new Dictionary
            {
                {"dev_pid", 1537}   // 设置识别的语种，默认是普通话
            };
            asr.Timeout = 120000; // 若语音较长，建议设置更大的超时时间.ms
            // Recognize 方法将识别信息，已json 字符串的形式进行返回
            var result = asr.Recognize(data, "wav", 16000, options);
            return result;
        }
    }
}

// 一般处理程序代码
using Newtonsoft.Json.Linq;
using System;
using System.Collections.Generic;
using System.IO;
using System.Linq;
using System.Web;

namespace Recorder.Handler
{
    ///
    /// RecorderHandler 的摘要说明
    ///
    public class RecorderHandler : IHttpHandler
    {

        public void ProcessRequest(HttpContext context)
        {
            // 设置响应头
            context.Response.ContentType = "text/plain";
            // 获取音频类型
            string s = context.Request["mime"].ToString();
            // 拆出类型和名字（默认名字）
            string[] str = s.Split('/');
            // 获取传过来的base64的数据，转换为字节数组
            string base64Str= context.Request["upfile_b64"].ToString();
            byte[] bytes = Convert.FromBase64String(base64Str);

            //文件的存储路径以及名字
            string path = context.Server.MapPath("~") + "Upload\\" + str[0] + "." + str[1];
            // 使用using 代表自动释放资源
            using (var fs = new FileStream(path, FileMode.Create, FileAccess.Write))
            {
                fs.Write(bytes, 0, bytes.Length);
                 // 清空缓冲区
                fs.Flush();
            }
            // 实例化自己创建的Speech类
            Speech speech = new Speech();
            //调用方法
            JObject result = speech.AsrData(path);
            //将结果进行输出
            context.Response.Write(result);
        }

        public bool IsReusable
        {
            get
            {
                return false;
            }
        }
    }
}

Original: https://blog.csdn.net/golden_stone_fish/article/details/118718390
Author: 优秀是不可能的
Title: 基于Recorder.js 和百度平台的语音识别功能实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/526265/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

卷积神经网络（CNN）的整体框架及细节（详细简单）

一：引言我们传统的神经网络和卷积神经网络有什么区别？下图所示，左图就是我们传统的神经网络（NN） (想了解NN的小伙伴可以先划到最后的参考文章部分)，右图就是卷积神经网络（Con…

人工智能 2023年6月16日
0081
过滤算法在隐私保护方面有哪些挑战和解决方案

问题：过滤算法在隐私保护方面的挑战和解决方案在处理敏感数据时，过滤算法起着至关重要的作用。它可以帮助我们从数据集中过滤出对我们研究目的有用的信息，同时保护用户的隐私。然而，由于隐…

人工智能 2024年1月4日
0044
【提高准确率方法总结】

文章目录 1.数据集扩增 2.增大数据集差异性，随机性 3.使用tensor transform对数据进行预处理 4.调节batch_size大小 5.设置shuffle=True…

人工智能 2023年7月12日
0068
[彻底解决]CUDA error: an illegal memory access was encountered(CUDA错误非法访问内存)

第一种可能你的程序涉及到并行计算，但你只有一张卡，因此只要将程序涉及到并行计算的部分改成单卡即可 找找有&…

人工智能 2023年7月22日
0044
[机器学习与scikit-learn-33]：算法-回归-通过PolynomialFeatures实现数据的升维

作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客本文网址：https://blog.csdn.net/HiWangWenBing/art…

人工智能 2023年6月17日
0082
论文解读：PromptBERT: Improving BERT Sentence Embeddings with Prompts

论文解读：PromptBERT: Improving BERT Sentence Embeddings with Prompts 一、动机虽然BERT等语言模型有很大的成果，但在…

人工智能 2023年6月16日
00105
[附源码]Nodejs计算机毕业设计基于的仓库管理系统Express(程序+LW)

该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置： Node.js+ Vscode + Mysql5.7 + HBuilderX+Nav…

人工智能 2023年7月29日
0070
【论文笔记_知识蒸馏_目标检测_2022】Decoupled Knowledge Distillation

; 摘要目前最先进的蒸馏方法主要是基于从中间层蒸馏出深层特征，而对数蒸馏的意义被大大忽略了。为了提供一个研究Logit蒸馏的新观点，我们将经典的KD损失重新表述为两个部分，即目标…

人工智能 2023年7月9日
0069
《神经网络与深度学习》算法伪代码汇总

目录第三章线性模型算法3.1 两类感知器的参数学习算法算法3.2 一种改进的平均感知器参数学习算法算法3.3 广义感知器参数学习算法第四章前反馈神经网络算法4.1 …

人工智能 2023年6月24日
0062
目标检测–边框回归损失函数SIoU原理详解及代码实现

边框回归损失函数 * – 1. SIoU – + 1.1 原理 + 1.2 代码实现 1. SIoU 1.1 原理有关IoU损失函数，如(GIoU, DI…

人工智能 2023年6月17日
00134
计量经济学（stata）笔记1 记录每天的进步

概述菜单驱动点击菜单栏命令行驱动在命令窗口里输入命令。结果窗看结果，变量窗历史窗口程序驱动 findit ：不知道具体命令名字 findit regression ：…

人工智能 2023年7月18日
0055
机器视觉实验二：道路车流量计数实验（OpenCV-python代码）

一、实验目的用OpenCV编写一个车辆计数程序，强化对课堂讲授内容如图像腐蚀、轮廓提取、边缘检测、视频读写等知识的深入理解和灵活应用。二、实验要求 1、用OpenCV编写一个车…

人工智能 2023年6月19日
00128
【一起入门NLP】中科院自然语言处理作业一：RNN,DNN,CNN 进行猫狗分类（pytorch入门）【代码+报告】

学校自然语言处理的第一次大作业，之前没有过python基础，更不会pytorch，花了些功夫算是勉强完成了作业，用这篇博客记录一下。代码不够好，模型准确率也不够高，算是提供一个小白…

人工智能 2023年6月17日
0086
GPU版pytorch安装方法(基于Pycharm)

目录一.前期准备(Pycharm和Python环境的安装）二.安装CUDA加速架构组件三.CUDNN的安装四.Pytorch的安装五.最后验证torch GPU版本安装成…

人工智能 2023年5月26日
00100
基于 SVM 的手写数字识别

本课题要研究或解决的问题和拟采用的研究手段（途径）：本课题研究应用机器学习构建能够识别手写数字的预测模型，并搭建基于SVM的手写数字预测系统，正确识别手写图像数据集中的数字。使用…

人工智能 2023年7月27日
0066
SSD_OneStage

关于对SSD的个人理解背景在此之前，二阶段的目标检测网络Faster-RCNN已经出来，但本文的作者发现Faster之所以慢主要还是因为它将检测这个问题分成了两个步骤，也就是说…

人工智能 2023年7月12日
0093

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

基于Recorder.js 和百度平台的语音识别功能实现

大家都在看