语音指令

2023年5月27日下午12:38 • 人工智能 • 阅读 158

语音指令就是通过语音来完成一些常规操作，如启动某个应用，打开或关闭飞行模式等，随着智能助理Cortana的推出，语音操作的重要地位也逐渐显现。若能在应用程序中提供适当的语音操作支持，不仅能够提升应用的用户体验，也给用户的使用带来不少便捷。

语音指令是通过一种名为VoiceCommandDefinition(VCD)文件来定义，当应用程序运行后通过相关API进行安装注册。VCD文件安装成功后，开发者为应用所定义的语音指令就会被操作系统的语音识别引擎发现，并集成到Cortana中。用户只需要打开Cortana应用，并且说出应用程序预先定义好的指令，就可以完成相应的操作了。

VCD文件实质上是一个XML文档。

示例VCD文件内容：


    测试应用
    "打开 主页"或"打开 我的音乐"或"我的音乐"或"打开 我的视频"或"我的视频"

      "打开 我的音乐"或"我的音乐"
      [打开]{pages}
      好的，正在打开中。。。

      主页
      我的音乐
      我的视频
      我的照片

VCD文档的根元素为VoiceCommands,xmlns所指定的命名空间必须为 http://schemas.microsoft.com/voicdecommands/1.2。在VoiceCommands元素下，包含1~15个CommandSet元素，也就是说，CommandSet元素必须出现，至少要有一个。
CommandSet表示一个语音指令集，需要通过xml:lang属性设置所属的区域语言，例如面向简体中文的指令集可以使用语言标记zh-cn。Name属性是可选的，可以不设置，但是，如果开发者打算要在应用程序运行阶段通过代码来动态修改VCD文件，则应该为其命名。如果应用程序支持多种语言的指令，可以定义多个CommandSet。

每个CommandSet元素下都可以设置一个CommandPrefix元素，该元素是可选的，主要用于对应用程序进行标识。例如，应用的名字为Shaken_App，当用户使用语音指令调用该应用时，显然这个名字用口头语言不好说，此时可以通过CommandPrefix元素指定一个名字如”摇一摇”，只要用户说出”摇一摇”。语音引擎就会识别出是Shaken_App应用。在版本1.2中，可以用APP Name元素来取代CommandPrefix元素。

CommandSet元素可以包含1~100个Command元素，一个Command元素就表示一条语音指令。必须通过Name属性为每条指令命名，而且在同一个CommandSet集合中不能出现名字重复的指令。Command匀速必须包含一个Example元素，该元素中的内容会显示在Cortana的操作界面上，用来提示用户如何使用该指令。随后还要包括不超过10个ListenFor元素，表示语音引擎应该收听的内容，即语音指令的内容。

PhraseList和PhraseTopic允许包含在CommandSet元素中，必须通过Label属性进行命名。PhraseList会提供一系列短语，语音引擎可以侦听其中任何一短语，这与前面介绍过的SpeechRecognitionListConstraint约束相似。而PhraseTopic则类似于SpeechRecognitionTopicConstraint约束，只是确定一个主题，来提高识别的精确度。

Feedback元素指定反馈信息，当语音识别引擎识别出指令后，在执行指令前向用户展示的反馈信息，如”好的，正在进入应用，请稍后…”。Navigate匀速指定当语音指令执行后要导航到应用程序中的哪个页面，虽然该元素是必须的，但是在Runtime App中可以不指定具体的页面。

当语音指令被成功识别并执行后，会激活当前应用程序，App类的OnActivated方法会被调用，开发者应当重写该方法以进行进一步处理，响应语音指令完成相关操作。这就是上面提到过Navigate元素在UWP App中不需要指定具体的页面的原因，因为开发者可以在OnActivated方法中处理。

该示例包含四个页面，分别为主页、我的音乐、我的视频和我的照片。使用语音命令操作应用程序以进入特定页面。例如，当用户说“测试我的视频”时，当前应用程序打开并导航到“我的视频”页面。

[En]

The example contains four pages, namely, “Home Page”, “my Music”, “my Video” and “my Photo”. Use voice commands to operate the application to enter a specific page. For example, when a user says “Test my Video”, the current application opens and navigates to the “my Video” page.

ComamndPrefix元素定义了该应用的别称为”测试应用”，只要用户说出”测试应用”系统就能够知道用户要操作的就是当前应用。

在CommandSet元素下面的Example元素向用户展示的是针对真个指令集的使用说明，而在Command元素下的Example元素表示的只是针对单条指令的使用说明。

在ListenFor元素中，”打开”二字被一对中括号([ ])包起来，表示该内容为可选，也就是说，不管用户是否说出”打开”二字，该指令都能够匹配。随后的pages放在一对大括号中，它表示引用了后面的Label为pages的PhraseList元素。只要用户说出PhraseList中任意一个Item元素的内容都可以进行识别。

接下来，在App类中重写OnActivated方法，当用户通过语音操作激活当前应用程序后应该进行的相关处理。

        protected override void OnActivated(IActivatedEventArgs args)
        {
            base.OnActivated(args);
            var varg = args as VoiceCommandActivatedEventArgs;
            //处理识别结果
            SpeechRecognitionResult result = varg.Result;
            //获取已识别的指令名字
            string cmdName = result.RulePath[0];
            if (cmdName is "open")
            {
                //获取 PhraseList中被识别出来的项
                var interpretation = result.SemanticInterpretation;
                if (interpretation != null)
                {
                    //通过 PhraseList的Label属性可以查询出被识别Item
                    string item = interpretation.Properties["pages"].FirstOrDefault();
                    if (!string.IsNullOrEmpty(item))
                    {
                        //导航到对应页面
                        Frame root = Window.Current.Content as Frame;
                        if (root is null)
                        {
                            root = new Frame();
                            Window.Current.Content = root;
                        }
                        switch (item)
                        {
                            case "我的音乐":
                                root.Navigate(typeof(MyMusicPage));
                                break;
                            case "我的视频":
                                root.Navigate(typeof(MyVideoPage));
                                break;
                            case "我的照片":
                                root.Navigate(typeof(MyPhotoPage));
                                break;
                            case "主页":
                                root.Navigate(typeof(MainPage));
                                break;
                            default:
                                root.Navigate(typeof(MainPage));
                                break;
                        }
                    }
                }
            }
            Window.Current.Activate();
        }

由于许多行为都可以激活应用程序(如协议激活)，所以必须通过Kind属性来判断一下，是否因语音指令操作而激活应用程序。

判断成立后，可以将方法参数转换为VoiceCommandActivatedEventArgs类型进行操作，并从Result属性中获取到SpeechRecognitionReuslt实例。SpeechRecognitionResult对象的RulePath中会包含别识别的语音指令的名字，该名字就是VCD文件中Command元素的Name属性值。由于本示例之定义了一个Command元素，因此RulePath中包含的元素应当为open。

随后，应用代码还应该知道用户说出了名为pages的PhraseList元素中哪个Item值。可以从SemanticInterpretation属性的Properties集合中找到被识别的PhraseList值。该集合是以字典形式存储的，要在其中检索PhraseList元素的内容，可以用其名字(本例中为pages)作为Key来查找。得到的结果是一个字符串列表，其中就包含被识别的Item元素的内容了。

最后，代码通过分析被识别的Item元素的内容来确定要导航到哪个页面。

为了让自定义的VCD文件能够与Cortana集成，在App类的OnLaunched方法中加入以下代码，以便应用程序在启动时安装VCD文件。

            StorageFile vcdFile = await StorageFile.GetFileFromApplicationUriAsync(new Uri("ms-appx:///vcd.xml"));
            //使用VoiceCommandManager API， 需要引用 Windows Mobile Extension SDK (introduced in 10.0.10240.0)
            //await VoiceCommandManager.InstallCommandSetsFromStorageFileAsync(vcdFile);

            await VoiceCommandDefinitionManager.InstallCommandDefinitionsFromStorageFileAsync(vcdFile);

从项目目录中获取到VCD文件的引用后，直接调用静态的VoiceCommandManager.InstalCommandSetsFromStorageFileAsync方法就可以完成VCD文件的安装与注册了。

Original: https://blog.csdn.net/qq_41708190/article/details/109729925
Author: singhwong
Title: 语音指令

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/526156/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pip安装pytorch 0.4.1

pip安装pytorch 0.4.1 最近在跑模型的时候，用到的环境是python 3.6 pytorch 为0.4.1，然后发现我直接pip install torch==0.4…

人工智能 2023年7月22日
0062
终于有人把知识图谱讲明白了

导读：知识图谱的概念诞生于2012年，由Google公司首先提出。知识图谱的提出是为了准确地阐述人、事、物之间的关系，最早应用于搜索引擎。知识图谱是为了描述文本语义，在自然界建立实…

人工智能 2023年6月1日
00118
全球及中国POS保险箱行业市场需求及未来投资风险预测报告2022-2028年

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月17日
0049
cuda11.2安装pytorch——torch.cuda.is_available()=false

这两天正在用服务器跑程序，但是发现运行速度极慢，查看正在运行的进程，也没看到自己的进程，但是程序又确确实实在运行，这就奇了怪了，一通查找，发现程序竟然是在CPU上运行，也就是 to…

人工智能 2023年7月21日
0059
Pytorch 微调（Fine-tuning）

Pytorch 微调（Fine-tuning） 0. 环境介绍环境使用 Kaggle 里免费建立的 Notebook 教程使用李沐老师的动手学深度学习网站和视频讲解小技巧…

人工智能 2023年7月13日
0074
二十一. 智能驾驶之基于视觉识别和点云聚类的障碍物检测

一. 背景介绍在智能驾驶领域, 根据使用的传感器的不同，对障碍物的检测和识别通常有三种做法： 1.一种是基于相机图像和点云鸟瞰图的纯图像障碍物检测, 比如YOLO三维; 2.一种…

人工智能 2023年5月31日
0087
[实例分割/目标检测评价指标] mAP

目标检测/实例分割任务输入：单张图像输出：边界框（x, y, w, h）+置信度 IOU, TP, FP, FN IOU：预测框与Ground Truth（GT）的交并比 TP…

人工智能 2023年7月10日
0063
yy自动语音接待机器人_TT语音：从手游语音杀到泛娱乐社交领域，打破边界才能看见更高的天花板…

【猎云网武汉】2月28日报道(文/张帆) 2005年，知名IT记者李学凌放弃总编的职位、离开网易，拿着雷军提供的100万美元摇身一变成为多玩游戏网的创始人兼CEO。多游戏网络定位…

人工智能 2023年5月27日
0068
【预训练语言模型】RoBERTa: A Robustly Optimized BERT Pretraining Approach

【预训练语言模型】RoBERTa: A Robustly Optimized BERT Pretraining Approach 作者发现BERT以及提供的预训练语言模型并没有得到…

人工智能 2023年5月30日
00115
利用python实现Apriori关联规则算法

关联规则大家可能听说过用于宣传数据挖掘的一个案例:啤酒和尿布；据说是沃尔玛超市在分析顾客的购买记录时，发现许多客户购买啤酒的同时也会购买婴儿尿布，于是超市调整了啤酒和尿布的货架摆…

人工智能 2023年6月12日
00109
【Pytorch】使用Pytorch进行知识蒸馏

使用Pytorch进行知识蒸馏 * – + 一、知识蒸馏原理 + * 1. 使用 softmax 进行蒸馏： * 2. 知识迁移：老师知识 —> 学生知识 + 二…

人工智能 2023年7月20日
0074
ModuleNotFoundError: No module named ‘onnxruntime‘和ModuleNotFoundError: No module named ‘onnx‘

D:\programfiles\miniconda\envs\py38torch_gpu\python.exe C:/Users/liqiang/Desktop/handpose_…

人工智能 2023年6月18日
0081
图像分割 – 水平集算法

水平集介绍水平集分为三种： 1 . 基于图像边缘灰度梯度信息，适用于边缘强的图像分割 2 . 基于区域特征，利用区域信息引导曲线慢慢靠近，比如分割曲线区域的内外灰度均值，分…

人工智能 2023年6月17日
0093
详解决策树算法

决策树 1.1 决策树定义何为决策树，顾名思义，就像树枝状的决策算法，通过各个节点的”决策”，实现对任务的精准分类或回归，决策树常用来处理分类问题，即使你…

人工智能 2023年7月1日
0093
pandas 学习笔记

pandas中最主要的两个数据结构： Series、 DataFrame Series 一种类似于一维数组的对象，它由一组数据（各种NumPy数据类型）以及一组与之相关的数据标签（…

人工智能 2023年7月7日
0077
解析深度学习中各类目标检测模型的发展沿革与功能特性

本文其实和笔者近期发表的其他文章同属robomaster学习过程中的经验分享，不过笔者希望主线里面的Ubuntu和ROS要素不被冲淡，所以并未归纳进去。这里主要介绍的是从13年开始…

人工智能 2023年7月12日
0067

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

语音指令

大家都在看