语音交互中的无效query识别

目录:

无效query介绍
非人机交互识别
意图不明识别
小结
无效query介绍
用户query的类型划分:

语音交互中的无效query识别
语音交互中的无效query识别

语音交互中的无效query识别
无效query体验优化:

非人机交互:识别+不响应

意图不明:识别+兜底回复或引导澄清

非人机交互识别
非人机交互识别的难点:

信息不完备:

多维信息(声音、视觉等)需要确定人机交互是否有效。

[En]

Multi-dimensional information (sound, vision, etc.) is needed to determine whether human-computer interaction is or not.

仅仅依靠音频消息可能会非常含糊。

[En]

Relying solely on audio messages can be very ambiguous.

语音变化的多样性:

同一句话由于语调、语调、语速和音色的不同而产生不同的音频。

[En]

The same sentence produces different audio due to different tone, intonation, speed and timbre.

数据样本很难涵盖所有类型的语音。

[En]

It is difficult for data samples to cover every type of voice.

鸡尾酒会效应:

噪声环境下的有效指令识别

[En]

Effective instruction recognition in noisy environment

非人机交互识别-问题建模:

语音交互中的无效query识别
语音交互中的无效query识别
非人机交互识别-解决方案:
建模:单轮语音的两种分类
[En]

Modeling: two classifications for single-round speech

关键任务:数据集构建+特征和模型设计

非人机交互识别-数据集构造:
非人机数据的标注成本非常高:收听音频标注需要100000个工日,标注100000个样本。

[En]

The cost of tagging non-man-machine data is very high: it takes 100000 man-days to listen to audio labeling and label 100000 samples.

提升数据标注质量:存在大量模糊样本,需要提高Label的一致性

详细的注释规范,提供各种音频的示例

[En]

Detailed annotation specification, providing examples for all kinds of audio

多人标注验证
数据质量的提高提高→模型的效果

[En]

Improvement of data quality improvement of → model effect

样本挖掘:

提升样本的多样性
随机采样

正样本挖掘:基于ASR置信度、基于误唤醒检测

提升样本的有效性
挖掘困难样本:模型打分置信度低

挖掘错误分类样本

非人机交互识别-模型分析:
语音特征

频谱 优于 mfcc、fbank特征

添加通过声音信号处理获得的特征并没有改善。

[En]

Adding features acquired through acoustic signal processing did not improve.

语音Encoder

CNN -> CNN+LsTM+ATTENTION

CNN是个很强的baseline

文本Encoder

CNN、TRANsFORMER、BERT效果差异不明显

语音Encoder和文本Encoder的融合

concat 优于 attention

用户行为反馈
用户反馈类型

误拒识反馈:拒识后重复说

欠拒识反馈:用户说”闭嘴”

反馈生效方式

在线:动态调整策略

离线:反馈数据进入模型迭代

个性化策略

引入Context:基于用户的历史行为和session

语音交互中的无效query识别
非人机交互识别-能力现状评估
疑向:基于语音的非人机交互识别,天花板在哪里?

评估方法:评估普通人在非人机交互识别上的平均水平。

语音交互中的无效query识别
结论:

普通人的识别准确率/召回率方差很大,平均F1值约为0.86。

目前,在手机语音助手方面已经接近普通人的水平。

[En]

At present, it is close to the level of ordinary people in mobile phone voice assistant.

意图不明识别
意图不明识别-问题类型划分:

语音交互中的无效query识别
乱序无意义识别:

语音交互中的无效query识别
语音交互中的无效query识别
乱序无意义识别-语言模型方案:
语音交互中的无效query识别
语音交互中的无效query识别

乱序无意义识别-语言模型方案面临的挑战:

如何区分有序和无序的边界样本:

[En]

How to distinguish between ordered and disordered boundary samples:

语音交互中的无效query识别

缺点:只用perplexity作为阈值,无法有效区分边界区域的混淆样本

解决思路:引入更丰富的特征,训练二分类,识别边界区域的正负样本

表达不完整识别:

语音交互中的无效query识别
语音交互中的无效query识别
语音交互中的无效query识别

; 小结:

非人机交互识别

不完全信息下的机器学习任务

[En]

Machine learning tasks with incomplete information

基于语音和语义特征的神经网络模型

[En]

Neural Network Model based on phonetic and semantic Features

意图不明识别

两个任务:无序无意义识别和不完全表情识别

[En]

Two tasks: out-of-order meaningless recognition and incomplete expression recognition

技术方案框架:语言模型+ 分类模型

Original: https://blog.csdn.net/u011983997/article/details/122625081
Author: Necther
Title: 语音交互中的无效query识别

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/524649/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球