语音助手——评测指标

2023年5月25日上午5:01 • 人工智能 • 阅读 73

一个语音助手包含很多模块和环节，比如ASR、NLU、TTS、客户端等，那么如何评估一个语音助手以及其各个模块的效果呢？有没有可以量化的指标？

1 、产品指标：

用户对话数：指每天的用户对话数。

[En]

user conversations: refers to the number of user conversations per day.*
用户量：指每日用户量。
第二天留存：指第二天仍在使用助手的用户相对于前一天的百分比。
[En]
retention the next day: refers to the percentage of users who still use assistants the next day relative to the previous day.*
第7日留存：以n为基准，则第n+7天仍然使用助手的用户占比。
次周留存：以n为基准，n+7不算，从n+7到n+14内仍然使用语音助手的用户占比。

以上指标从不同角度对整个产品进行了评价，反映了一个语音助手的整体状态。简单地说，你使用的人越多(用户数)，每个人使用的次数(用户数/用户数)就越多。用了之后，你还想用(留存)，这是个好产品。

[En]

The above indicators evaluate the whole product from different angles, and it reflects the overall state of a voice assistant. To put it simply, the more people you use (the number of users), the more times each person uses (the number of users / users). After using it, you still want to use it (retention), which is a good product.

2 、技术指标：

客户端：

客户端执行成功率：指客户端执行操作的成功率，越高越好。

[En]

success rate of client execution: refers to the success rate of operations performed by the client, the higher the better.*

ASR：

* 觉醒率：唤醒成功的概率越高越好。

[En]

Awakening rate: the higher the probability of successful awakening, the better.

* 误唤醒概率：被非用户误唤醒的概率越低，或者有背景音等噪音的时候越好。

[En]

false awakening rate: the lower the probability of being mistakenly awakened by non-users, or when there is noise such as background sound, the better.

NLU

语义理解准确率：语义识别的意图、槽位、结果均正确时，认为语义理解正确，则准确率=识别正确的query/总query
召回率：能够正确识别用户话术到某个意图中，则为对应场景的召回率，召回率= 正确识别到该场景的话术/用户话术中存在该意图的话术。

TTS

TTS自然度：指TTS在播报时的流畅程度，更加贴近于人在说话，而非机器音，是一个偏主观的指标。

3、从用户测角度出发：

闲聊场景下：

同情心：指识别用户情绪的能力，能够识别到用户当前情绪，也叫情感识别。
同理心：同理心要求从用户角度来看待事物，而非自己的角度，也就是指识别到用户情绪后，在回复中能够与用户共情，和用户引起共鸣。
相关性：指回答要和用户的问题相关，不能够答非所问，比如：Q：”今天天气怎么样？”A1：”今天有雨”。 A2: “今天8号”。则A1与Q相关，A2不相关。
趣味性：指回复的内容是否有趣味，而非仅仅”问什么答什么”，仍然上面的例子，A3：”今天有雨，出门记得带伞，即使下雨也要保持好心情哦。”，A3相对于A1趣味性更高，也是一个偏主观的指标。
多样性：指回复的内容是否丰富多样，当用户多次询问相同的问题时，回复不能够总是一样的。
平均对话轮次：指和用户总共对话的轮次，一般认为10分钟内没有和用户发生对话，则一轮对话已经结束，平均对话轮次=总对话次数/总轮次，比如：某天用户和助手一共对话100次，分别在上午8:00-8:30， 9:00-10:00, 10:15-11:00，则平均对话轮次=100/3 = 33次。
人设一致性：每个助手是有自己的人设的，比如：女性、18岁，喜欢吃白菜，喜欢绿色等等，人设一致性要求助手在与用户对话时，保持自己的人设不变的，不能”朝三暮四”。
开启话题的能力：指当某个话题聊不下去时，能够主动开启新话题的能力，不能够尬聊。

问答场景下：

回复相关性：指回复和用户问题是否相关。
时效性：指回复是否足够实时，比如股票信息，限号信息等，都是有实效要求的。
问题解决率：指回复能够解决用户问题的占比。
无答案的比例：指没有找到答案的占比，越低越好。
*用户重复询问的比例：当用户没有找到自己的答案时，有时会重复询问这个问题，或者变换一种说法再次询问，则重复询问的比例要求越低越好，也就是希望能够一次性解决用户需求。

指令场景下：

技能覆盖率：指可以执行的技能覆盖用户需求的能力，用户的需求是多种多样的，是否存在对应的技能来执行，表示技能覆盖率。
完成度：指执行动作完成用户需求的程度，比如用户说：”打开微信帮我发个朋友圈内容是今天天气真好”，如果只帮助用户打开了微信，而没有发朋友圈，则该技能没有被完成。
*执行成功率：指动作执行成功的占比。

4、更高的要求：

上面3点分别从产品、技术、用户的角度分析了一下语音助手的评测指标，但一个真正智能的语音助手，还应该具备多轮会话的能力，他作为闲聊、问答、任务之间的润滑剂，可以大大提升智能感，这在后面会细讲，对应的多轮对话的指标有：

平均通话次数：计算方法同上，但不同场景要求不同。在小聊中，平均对话次数越多越好，表明聊天效果良好，而问答型和任务型则希望对话越少越好，表明能在最短的时间内满足用户的需求。

[En]

APCge number of conversations: the calculation method is similar to the above, but the requirements are different in different scenarios. In small chat, the higher the average number of conversations, the better, indicating that the chat is good, while the question-and-answer type and task-based type want to have as few conversations as possible, indicating that the needs of users can be met in the shortest possible time.*
跳跃率：指用户跳出多个对话的百分比。
[En]
bounce rate: refers to the percentage of users jumping out of multiple conversations.*
多轮相关性：和回复相关性不同，如果定义一次Q和一次A为一轮，则多轮相关性则是指多个轮数之间的相关性，也指维护一个话题的能力。

Original: https://blog.csdn.net/mingzheng114/article/details/120121572
Author: Turned_MZ
Title: 语音助手——评测指标

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/512325/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

AI自主图像生成之 stable-diffusion—运行效果展示

stable-diffusion用途：输入文字描述，输出对应图片 The chicken with the hair parted in the middle and the su…

人工智能 2023年7月26日
0087
PyTorch中的注意力机制是什么？如何实现注意力机制

问题：PyTorch中的注意力机制是什么？如何实现注意力机制？介绍注意力机制是一种用于增强神经网络性能的机制，它允许网络在处理序列或特征集时动态地聚焦于最相关的部分。在PyTo…

人工智能 2024年1月2日
0054
Tensorflow2.5安装（安装问题，这一篇全解决）

恭喜你发现全网最简单最详细的Tensorflow安装教程！本文将给出2.5版本的具体配置，若要安装其他版本也可参照本文的思路。与过去版本对比，你可以感受到来自Tensorflow…

人工智能 2023年5月23日
0079
在Python里使用ChatGPT

前言近来 chatGPT挺火的，也试玩了一下，确实挺有意思。这里记录一下在 Python中如何去使用 chatGPT。本篇文章的实现100%基于 chatGPT，我是搬运工无疑…

人工智能 2023年7月31日
0088
Matlab数字图像处理 02 灰度变化（图像直方图、直方图均衡化、直方图匹配）

第二章灰度变化 2.1 图像的亮度、对比度和动态范围 * 2.1.1 亮度 2.1.2 对比度 2.1.3 动态范围 2.2 线性灰度变换 * 2.2.1 具有饱和处理的线性灰度…

人工智能 2023年6月17日
0073
网络协议：透彻解析HTTPS协议

本篇内容包括：HTTPS 协议概述，SSL 与 TLS（SSL 与 TLS 概述、SSL证书和 SSL 与 TLS 二者之间关系），以及 HTTPS 下浏览器访问一个网站的全过程…

人工智能 2023年6月28日
0083
python图片信息-2cv2-高阶处理

python图片信息-2cv2-高阶处理一：cv2图片间运算 * 1> 相加 – 1. 源码解析 2. cv2.addWeighted(）融合 3. 三种场景 …

人工智能 2023年7月20日
0081
泰勒展开及其应用

泰勒展开 [1] 在实际应用中对于具有复杂形式的函数我们常常希望用较为简单的函数形式表示他，而多项式就是这种简单的形式。比如对于指数函数、三角函数，我们可以使用多项式来逼近。为了…

人工智能 2023年6月4日
0066
【深度学习】Retina Net 计算机视觉目标检测 Focal Loss

论文： https://arxiv.org/abs/1708.02002 文章目录 Retina Net Focal Loss Retina Net损失函数代码 Retina …

人工智能 2023年7月12日
0086
【鱼眼相机模型】鱼眼相机投影模型理解

一、从普通镜头到鱼眼镜头如图1所示，普通镜头下的光线依据针孔相机模型进行成像（该部分可参考相机投影关系）。但该模型存在一个缺陷：相机视野范围越大，所需的成像平面也越大，当相机视…

人工智能 2023年7月27日
0054
在Recognition算法中，如何提高算法的准确度

问题背景在Recognition算法中，准确度是评估算法性能的重要指标之一。准确度高意味着算法能够正确地识别图像或数据，而准确度低则可能导致误识别或漏识别。因此，提高算法的准确度…

人工智能 2024年1月3日
0031
独孤九剑第一式-岭回归和Lasso回归

🍌文章适合于所有的相关人士进行学习🍌🍋各位看官看完了之后不要立刻转身呀🍋🍑期待三连关注小小博主加收藏🍑🍉小小博主回关快会给你意想不到的惊喜呀🍉 文章目录 * – 🐲前…

人工智能 2023年6月16日
0099
Pandas常见方法（3）-pandas分层索引构建、按层级对换和排序、按层级聚合

说明：本blog基于python3， pandas 1.3.5， numpy 1.22.0版本文章目录前言一、分层索引构建 * 1.1 Series数据结构 1.2 两层索引…

人工智能 2023年7月6日
0075
Python实用技术——爬虫（一）：爬虫基础

目录爬虫这门技术本身是不违法的，但是应该注意： 1，爬取什么数据 2，如何爬取得来的 3，爬取之后如何使用二，HTTP协议 1，万维网 2，协议：三，HTTP知识四，HTT…

人工智能 2023年6月19日
00129
FastAPI 快速入门

👑 FastAPI 快速入门文章目录 👑 FastAPI 快速入门 😉前言 * 一、👻FastApi？？ – 1.😎FastAPI可以做什么 2.🚲为什么要学习 Fa…

人工智能 2023年7月4日
0063
hive数据分析002-分桶

一、桶的概念： 对于每一个表&#xFF0…

人工智能 2023年7月16日
00104

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

语音助手——评测指标

1 、产品指标：

2 、技术指标：

3、从用户测角度出发：

4、更高的要求：

大家都在看