vosk实时语音识别

2023年5月25日上午4:56 • 人工智能 • 阅读 101

vosk介绍以及安装，参考地址：https://blog.csdn.net/qq_35385687/article/details/119209189?spm=1001.2014.3001.5501

文章目录

*
– 命令行方式直接转写
– websoket实现实时转写
– 前端获取pcm实时传输至后台
– 完整项目地址

命令行方式直接转写


import argparse
import os
import queue
import sounddevice as sd
import sys
import vosk

q = queue.Queue()

def int_or_str(text):
    """Helper function for argument parsing."""
    try:
        return int(text)
    except ValueError:
        return text

def callback(indata, frames, time, status):
    """This is called (from a separate thread) for each audio block."""
    if status:
        print(status, file=sys.stderr)
    q.put(bytes(indata))

parser = argparse.ArgumentParser(add_help=False)
parser.add_argument(
    '-l', '--list-devices', action='store_true',
    help='show list of audio devices and exit')
args, remaining = parser.parse_known_args()
if args.list_devices:
    print(sd.query_devices())
    parser.exit(0)
parser = argparse.ArgumentParser(
    description=__doc__,
    formatter_class=argparse.RawDescriptionHelpFormatter,
    parents=[parser])
parser.add_argument(
    '-f', '--filename', type=str, metavar='FILENAME',
    help='audio file to store recording to')
parser.add_argument(
    '-m', '--model', type=str, metavar='MODEL_PATH',
    help='Path to the model')
parser.add_argument(
    '-d', '--device', type=int_or_str,
    help='input device (numeric ID or substring)')
parser.add_argument(
    '-r', '--samplerate', type=int, help='sampling rate')
args = parser.parse_args(remaining)

try:
    if args.model is None:
        args.model = "model"
    if not os.path.exists(args.model):
        print("Please download a model for your language from https://alphacephei.com/vosk/models")
        print("and unpack as 'model' in the current folder.")
        parser.exit(0)
    if args.samplerate is None:
        device_info = sd.query_devices(args.device, 'input')

        args.samplerate = int(device_info['default_samplerate'])

    model = vosk.Model(args.model)

    if args.filename:
        dump_fn = open(args.filename, "wb")
    else:
        dump_fn = None

    with sd.RawInputStream(samplerate=args.samplerate, blocksize=16000, device=args.device, dtype='int16',
                           channels=1, callback=callback):
        print('#' * 80)
        print('Press Ctrl+C to stop the recording')
        print('#' * 80)

        rec = vosk.KaldiRecognizer(model, args.samplerate)
        while True:
            data = q.get()
            if rec.AcceptWaveform(data):
                print(rec.Result())
            else:
                print(rec.PartialResult())
            if dump_fn is not None:
                dump_fn.write(data)

except KeyboardInterrupt:
    print('\nDone')
    parser.exit(0)
except Exception as e:
    parser.exit(type(e).__name__ + ': ' + str(e))

websoket实现实时转写


import argparse
import os
import queue
import sounddevice as sd
import sys
import vosk

q = queue.Queue()

def int_or_str(text):
    """Helper function for argument parsing."""
    try:
        return int(text)
    except ValueError:
        return text

def callback(indata, frames, time, status):
    """This is called (from a separate thread) for each audio block."""
    if status:
        print(status, file=sys.stderr)
    q.put(bytes(indata))

parser = argparse.ArgumentParser(add_help=False)
parser.add_argument(
    '-l', '--list-devices', action='store_true',
    help='show list of audio devices and exit')
args, remaining = parser.parse_known_args()
if args.list_devices:
    print(sd.query_devices())
    parser.exit(0)
parser = argparse.ArgumentParser(
    description=__doc__,
    formatter_class=argparse.RawDescriptionHelpFormatter,
    parents=[parser])
parser.add_argument(
    '-f', '--filename', type=str, metavar='FILENAME',
    help='audio file to store recording to')
parser.add_argument(
    '-m', '--model', type=str, metavar='MODEL_PATH',
    help='Path to the model')
parser.add_argument(
    '-d', '--device', type=int_or_str,
    help='input device (numeric ID or substring)')
parser.add_argument(
    '-r', '--samplerate', type=int, help='sampling rate')
args = parser.parse_args(remaining)

try:
    if args.model is None:
        args.model = "model"
    if not os.path.exists(args.model):
        print("Please download a model for your language from https://alphacephei.com/vosk/models")
        print("and unpack as 'model' in the current folder.")
        parser.exit(0)
    if args.samplerate is None:
        device_info = sd.query_devices(args.device, 'input')

        args.samplerate = int(device_info['default_samplerate'])

    model = vosk.Model(args.model)

    if args.filename:
        dump_fn = open(args.filename, "wb")
    else:
        dump_fn = None

    with sd.RawInputStream(samplerate=args.samplerate, blocksize=16000, device=args.device, dtype='int16',
                           channels=1, callback=callback):
        print('#' * 80)
        print('Press Ctrl+C to stop the recording')
        print('#' * 80)

        rec = vosk.KaldiRecognizer(model, args.samplerate)
        while True:
            data = q.get()
            if rec.AcceptWaveform(data):
                print(rec.Result())
            else:
                print(rec.PartialResult())
            if dump_fn is not None:
                dump_fn.write(data)

except KeyboardInterrupt:
    print('\nDone')
    parser.exit(0)
except Exception as e:
    parser.exit(type(e).__name__ + ': ' + str(e))

前端获取pcm实时传输至后台

<html>

<head>
    <meta charset="UTF-8">
    <title>Simple Recorder.js demo with record, stop and pausetitle>
    <meta name="viewport" content="width=device-width, initial-scale=1.0">

    <style type="text/css">
        .comments {
            width: 100%;
            overflow: auto;
            word-break: break-all;

        }
    style>
head>

<body>
<div id="controls">
    <button id="recordButton">Recordbutton>
    <button id="stopButton">Stopbutton>
div>

<textarea id="textResult" class="comments" rows="10" cols="10">textarea>

body>
<script type="text/javascript" src="./js/recorder3.js">script>
<script>

    var ws = null;

    var interval;

    let recorder = new Recorder({
        sampleBits: 16,
        sampleRate: 16000,
        numChannels: 1,

        compiling: true
    });

    var recordButton = document.getElementById("recordButton");
    var stopButton = document.getElementById("stopButton");
    var textResult = document.getElementById("textResult");

    recordButton.addEventListener("click", startRecording);
    stopButton.addEventListener("click", stopRecording);

    function startRecording() {
        console.log("recordButton clicked");
        recorder.start().then(() => {

            useWebSocket();
        }, (error) => {

            console.log(出错了);
        });

    }

    function stopRecording() {
        console.log("stopButton clicked", recorder.getPCMBlob());

        recorder.stop();

        if (ws) {
            ws.close();
        }

        clearInterval(interval);

        textResult.innerText = '';

    }

    function useWebSocket() {

        ws = new WebSocket("ws://localhost:5678");

        ws.binaryType = 'arraybuffer';
        ws.onopen = function () {
            console.log('握手成功');
            if (ws.readyState === 1) {
                interval = setInterval(() => {

                    ws.send(recorder.getNextData());
                }, 500)

            }

        };

        ws.onmessage = function (msg) {
            var jsonStr = msg.data;
            console.info(jsonStr);
            textResult.innerText = jsonStr;
            autoTextarea(document.getElementById("textResult"));
        };

        ws.onerror = function (err) {
            console.error(err);
            textResult.innerText = '';
        };

        ws.onclose = function (msg) {
            console.info(msg);
            textResult.innerText = '';
        };

    }

    var autoTextarea = function (elem, extra, maxHeight) {

        if (elem.length > 0) {
            for (var i = 0; i < elem.length; i++) {
                e(elem[i]);
            }
        } else {
            e(elem);
        }

        function e(elem) {
            extra = extra || 0;
            var isFirefox = !!document.getBoxObjectFor || 'mozInnerScreenX' in window,
                isOpera = !!window.opera && !!window.opera.toString().indexOf('Opera'),
                addEvent = function (type, callback) {
                    elem.addEventListener ?
                        elem.addEventListener(type, callback, false) :
                        elem.attachEvent('on' + type, callback);
                },
                getStyle = elem.currentStyle ? function (name) {
                    var val = elem.currentStyle[name];

                    if (name === 'height' && val.search(/px/i) !== 1) {
                        var rect = elem.getBoundingClientRect();
                        return rect.bottom - rect.top -
                            parseFloat(getStyle('paddingTop')) -
                            parseFloat(getStyle('paddingBottom')) + 'px';
                    }
                    ;

                    return val;
                } : function (name) {
                    return getComputedStyle(elem, null)[name];
                },
                minHeight = parseFloat(getStyle('height'));

            elem.style.resize = 'none';

            var change = function () {
                var scrollTop, height,
                    padding = 0,
                    style = elem.style;

                if (elem._length === elem.value.length) return;
                elem._length = elem.value.length;

                if (!isFirefox && !isOpera) {
                    padding = parseInt(getStyle('paddingTop')) + parseInt(getStyle('paddingBottom'));
                }
                ;
                scrollTop = document.body.scrollTop || document.documentElement.scrollTop;

                elem.style.height = minHeight + 'px';
                if (elem.scrollHeight > minHeight) {
                    if (maxHeight && elem.scrollHeight > maxHeight) {
                        height = maxHeight - padding;
                        style.overflowY = 'auto';
                    } else {
                        height = elem.scrollHeight - padding;
                        style.overflowY = 'hidden';
                    }
                    ;
                    style.height = height + extra + 'px';
                    scrollTop += parseInt(style.height) - elem.currHeight;
                    document.body.scrollTop = scrollTop;
                    document.documentElement.scrollTop = scrollTop;
                    elem.currHeight = parseInt(style.height);
                }
                ;
            };

            addEvent('propertychange', change);
            addEvent('input', change);
            addEvent('focus', change);
            change();
        }
    };

script>
html>

完整项目地址

https://gitee.com/yzdyzdyzd/speechToText

Original: https://blog.csdn.net/qq_35385687/article/details/119357825
Author: 阳宗德
Title: vosk实时语音识别

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/512303/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数据仓库与数据挖掘的第一章课后习题

第一章习题 1.数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。 2.元数据是描述数据仓库内数据的结构和建立方法的数据.它为访问数据仓库提供了一个信息目…

人工智能 2023年7月17日
0073
华为机试 – We Are A Team

题目描述总共有 n 个人在机房，每个人有一个标号（1 Original: https://blog.csdn.net/qfc_128220/article/details/127…

人工智能 2023年6月29日
0067
手把手解决module ‘tensorflow‘ has no attribute ‘placeholder

1、问题背景：构建神经网络在加入卷积层时出现报错 face_recigntion_model.add(Conv2D(32,3,3,input_shape=(IMAGE_SIZE,I…

人工智能 2023年5月26日
0084
Transformer中的encoder和decoder在训练和推理过程中究竟是如何工作的

Transformer中的encoder和decoder在训练和推理过程中究竟是如何工作的苦苦冲浪，找不到答案 Transformer结构（随便冲浪均可查到） Transform…

人工智能 2023年5月27日
0088
动手学数据分析第一章总结

第一章数据载入及初步观察第一节数据的加载以及入门 1.1载入数据 os.getcwd()可查看文件的位置：C:\Users….. 载入数据可用相对路径和绝对路径 …

人工智能 2023年7月7日
0069
opencv 直方图均衡化

文章目录前言一、原理 opencv 函数支持equalizeHist() 前言在图像直方图详解中详细讲解了图像直方图，这章来讲解一下直方图的均衡化。直方图均衡化是图像处理领域…

人工智能 2023年5月26日
0097
NVIDIA CUDA各版本下载链接(包括最新11版本和以往10.2版本）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月21日
0063
计算机视觉教程0-2：你了解眼里所见的色彩吗？(详解RGB/HSV/Lab)

目录 1 认识色彩 2 描述色彩 * 2.1 RGB色彩空间 2.2 HSV色彩空间 2.3 Lab色彩空间 3 数字成像 4 数字成像实例 1 认识色彩我们DNA里的氮元素，牙…

人工智能 2023年7月27日
00103
RuntimeError: Input type (torch.cuda.FloatTensor) and weight type (torch.cuda.HalfTensor) should be.

device 首先是查看输入的两个数据的device是否一致，出现这种情况的原因可能是因为device不同导致的，可能在不同的GPU上。 device = torch.device…

人工智能 2023年7月22日
0056
日报2022-05-02

几种包映射算法实现聚类中心 C = { c 1 , . . . , c k } C = {c_1,…,c_k}C ={c 1 ,…,c k }, 包 …

人工智能 2023年5月31日
0060
相位解包裹

相位解包裹基本算法相位解包裹实际上就是求解出k值的过程。相位解包裹里有一个要求，就是物体的落差不能太大，若太大，就不能真实测量出物体的高度，究竟多大算大？这个与投影的条纹宽度有关…

人工智能 2023年5月28日
00119
头部姿态获取算法概述(坐标系转换)

头部姿态获取算法概述 —— 才疏学浅, 难免有错误和遗漏, 欢迎补充和勘误. 获取头部运动姿态的流程图如下：图1. 获取头部运动姿态的流程图首先通过Dlib库得到2D人脸68个…

人工智能 2023年6月20日
00200
何恺明团队提出探索用于目标检测的不分层ViT Backbone

【写在前面】作者探索了普通的、非分层的视觉Transformer（ViT）作为目标检测的骨干网络。这种设计使原始 ViT 架构能够针对对象检测进行微调，而无需重新设计用于预训练的…

人工智能 2023年7月10日
0073
中文实体命名识别工具使用汇总：Stanza、LAC、Ltp、Hanlp、foolnltk、NLTK、BosonNLP

实体命名识别 * – 相关知识 – Stanford CoreNLP 命名实体识别 – + 一、简介： + 二、java版本使用 + 三、pyt…

人工智能 2023年6月1日
0093
ROS机械臂 Movelt 学习笔记3 | kinect360相机(v1)相关配置

目标是做一个机械臂视觉抓取的demo，在基地里翻箱倒柜，没有找到学长所说的 d435，倒是找到了一个老古董 kinect 360。前几天就已经在旧电脑上配置好了，现在记录在新电脑…

人工智能 2023年6月4日
00141
扩散模型又杀疯了！这一次被攻占的领域是…

文 | Yimin_饭煲从2020年的初出茅庐，到2021年的日趋火热，再到2022年的大放异彩，扩散模型(Diffusion Models) 正在人工智能学术界和工业界获取越…

人工智能 2023年6月15日
0090

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

vosk实时语音识别

文章目录

命令行方式直接转写

websoket实现实时转写

前端获取pcm实时传输至后台

完整项目地址

大家都在看