语音助手——评测指标

一个语音助手包含很多模块和环节,比如ASR、NLU、TTS、客户端等,那么如何评估一个语音助手以及其各个模块的效果呢?有没有可以量化的指标?

语音助手——评测指标

1 、产品指标:

  • 用户对话数:指每天的用户对话数。
    [En]

    user conversations: refers to the number of user conversations per day.*

  • 用户量:指每日用户量。
  • 第二天留存:指第二天仍在使用助手的用户相对于前一天的百分比。
    [En]

    retention the next day: refers to the percentage of users who still use assistants the next day relative to the previous day.*

  • 第7日留存:以n为基准,则第n+7天仍然使用助手的用户占比。
  • 次周留存:以n为基准,n+7不算,从n+7到n+14内仍然使用语音助手的用户占比。

以上指标从不同角度对整个产品进行了评价,反映了一个语音助手的整体状态。简单地说,你使用的人越多(用户数),每个人使用的次数(用户数/用户数)就越多。用了之后,你还想用(留存),这是个好产品。

[En]

The above indicators evaluate the whole product from different angles, and it reflects the overall state of a voice assistant. To put it simply, the more people you use (the number of users), the more times each person uses (the number of users / users). After using it, you still want to use it (retention), which is a good product.

2 、技术指标:

客户端:

  • 客户端执行成功率:指客户端执行操作的成功率,越高越好。
    [En]

    success rate of client execution: refers to the success rate of operations performed by the client, the higher the better.*

ASR:

语音助手——评测指标
语音助手——评测指标
* 觉醒率:唤醒成功的概率越高越好。
[En]

Awakening rate: the higher the probability of successful awakening, the better.

* 误唤醒概率:被非用户误唤醒的概率越低,或者有背景音等噪音的时候越好。

[En]

false awakening rate: the lower the probability of being mistakenly awakened by non-users, or when there is noise such as background sound, the better.

NLU

  • 语义理解准确率:语义识别的意图、槽位、结果均正确时,认为语义理解正确,则准确率=识别正确的query/总query
  • 召回率:能够正确识别用户话术到某个意图中,则为对应场景的召回率,召回率= 正确识别到该场景的话术/用户话术中存在该意图的话术。

TTS

  • TTS自然度:指TTS在播报时的流畅程度,更加贴近于人在说话,而非机器音,是一个偏主观的指标。

3、从用户测角度出发:

闲聊场景下:

  • 同情心:指识别用户情绪的能力,能够识别到用户当前情绪,也叫情感识别。
  • 同理心:同理心要求从用户角度来看待事物,而非自己的角度,也就是指识别到用户情绪后,在回复中能够与用户共情,和用户引起共鸣。
  • 相关性:指回答要和用户的问题相关,不能够答非所问,比如:Q:”今天天气怎么样?”A1:”今天有雨”。 A2: “今天8号”。则A1与Q相关,A2不相关。
  • 趣味性:指回复的内容是否有趣味,而非仅仅”问什么答什么”,仍然上面的例子,A3:”今天有雨,出门记得带伞,即使下雨也要保持好心情哦。”,A3相对于A1趣味性更高,也是一个偏主观的指标。
  • 多样性:指回复的内容是否丰富多样,当用户多次询问相同的问题时,回复不能够总是一样的。
  • 平均对话轮次:指和用户总共对话的轮次,一般认为10分钟内没有和用户发生对话,则一轮对话已经结束,平均对话轮次=总对话次数/总轮次,比如:某天用户和助手一共对话100次,分别在上午8:00-8:30, 9:00-10:00, 10:15-11:00,则平均对话轮次=100/3 = 33次。
  • 人设一致性:每个助手是有自己的人设的,比如:女性、18岁,喜欢吃白菜,喜欢绿色等等,人设一致性要求助手在与用户对话时,保持自己的人设不变的,不能”朝三暮四”。
  • 开启话题的能力:指当某个话题聊不下去时,能够主动开启新话题的能力,不能够尬聊

问答场景下:

  • 回复相关性:指回复和用户问题是否相关。
  • 时效性:指回复是否足够实时,比如股票信息,限号信息等,都是有实效要求的。
  • 问题解决率:指回复能够解决用户问题的占比。
  • 无答案的比例:指没有找到答案的占比,越低越好。
  • *用户重复询问的比例:当用户没有找到自己的答案时,有时会重复询问这个问题,或者变换一种说法再次询问,则重复询问的比例要求越低越好,也就是希望能够一次性解决用户需求。

指令场景下:

  • 技能覆盖率:指可以执行的技能覆盖用户需求的能力,用户的需求是多种多样的,是否存在对应的技能来执行,表示技能覆盖率。
  • 完成度:指执行动作完成用户需求的程度,比如用户说:”打开微信帮我发个朋友圈内容是今天天气真好”,如果只帮助用户打开了微信,而没有发朋友圈,则该技能没有被完成。
  • *执行成功率:指动作执行成功的占比。

4、更高的要求:

上面3点分别从产品、技术、用户的角度分析了一下语音助手的评测指标,但一个真正智能的语音助手,还应该具备多轮会话的能力,他作为闲聊、问答、任务之间的润滑剂,可以大大提升智能感,这在后面会细讲,对应的多轮对话的指标有:

  • 平均通话次数:计算方法同上,但不同场景要求不同。在小聊中,平均对话次数越多越好,表明聊天效果良好,而问答型和任务型则希望对话越少越好,表明能在最短的时间内满足用户的需求。
    [En]

    APCge number of conversations: the calculation method is similar to the above, but the requirements are different in different scenarios. In small chat, the higher the average number of conversations, the better, indicating that the chat is good, while the question-and-answer type and task-based type want to have as few conversations as possible, indicating that the needs of users can be met in the shortest possible time.*

  • 跳跃率:指用户跳出多个对话的百分比。
    [En]

    bounce rate: refers to the percentage of users jumping out of multiple conversations.*

  • 多轮相关性:和回复相关性不同,如果定义一次Q和一次A为一轮,则多轮相关性则是指多个轮数之间的相关性,也指维护一个话题的能力。

Original: https://blog.csdn.net/mingzheng114/article/details/120121572
Author: Turned_MZ
Title: 语音助手——评测指标

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/512325/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球