目录:
无效query介绍
非人机交互识别
意图不明识别
小结
无效query介绍
用户query的类型划分:
无效query体验优化:
非人机交互:识别+不响应
意图不明:识别+兜底回复或引导澄清
非人机交互识别
非人机交互识别的难点:
信息不完备:
多维信息(声音、视觉等)需要确定人机交互是否有效。
[En]
Multi-dimensional information (sound, vision, etc.) is needed to determine whether human-computer interaction is or not.
仅仅依靠音频消息可能会非常含糊。
[En]
Relying solely on audio messages can be very ambiguous.
语音变化的多样性:
同一句话由于语调、语调、语速和音色的不同而产生不同的音频。
[En]
The same sentence produces different audio due to different tone, intonation, speed and timbre.
数据样本很难涵盖所有类型的语音。
[En]
It is difficult for data samples to cover every type of voice.
鸡尾酒会效应:
噪声环境下的有效指令识别
[En]
Effective instruction recognition in noisy environment
非人机交互识别-问题建模:
非人机交互识别-解决方案:
建模:单轮语音的两种分类
[En]
Modeling: two classifications for single-round speech
关键任务:数据集构建+特征和模型设计
非人机交互识别-数据集构造:
非人机数据的标注成本非常高:收听音频标注需要100000个工日,标注100000个样本。
[En]
The cost of tagging non-man-machine data is very high: it takes 100000 man-days to listen to audio labeling and label 100000 samples.
提升数据标注质量:存在大量模糊样本,需要提高Label的一致性
详细的注释规范,提供各种音频的示例
[En]
Detailed annotation specification, providing examples for all kinds of audio
多人标注验证
数据质量的提高提高→模型的效果
[En]
Improvement of data quality improvement of → model effect
样本挖掘:
提升样本的多样性
随机采样
正样本挖掘:基于ASR置信度、基于误唤醒检测
提升样本的有效性
挖掘困难样本:模型打分置信度低
挖掘错误分类样本
非人机交互识别-模型分析:
语音特征
频谱 优于 mfcc、fbank特征
添加通过声音信号处理获得的特征并没有改善。
[En]
Adding features acquired through acoustic signal processing did not improve.
语音Encoder
CNN -> CNN+LsTM+ATTENTION
CNN是个很强的baseline
文本Encoder
CNN、TRANsFORMER、BERT效果差异不明显
语音Encoder和文本Encoder的融合
concat 优于 attention
用户行为反馈
用户反馈类型
误拒识反馈:拒识后重复说
欠拒识反馈:用户说”闭嘴”
反馈生效方式
在线:动态调整策略
离线:反馈数据进入模型迭代
个性化策略
引入Context:基于用户的历史行为和session
非人机交互识别-能力现状评估
疑向:基于语音的非人机交互识别,天花板在哪里?
评估方法:评估普通人在非人机交互识别上的平均水平。
结论:
普通人的识别准确率/召回率方差很大,平均F1值约为0.86。
目前,在手机语音助手方面已经接近普通人的水平。
[En]
At present, it is close to the level of ordinary people in mobile phone voice assistant.
意图不明识别
意图不明识别-问题类型划分:
乱序无意义识别:
乱序无意义识别-语言模型方案:
乱序无意义识别-语言模型方案面临的挑战:
如何区分有序和无序的边界样本:
[En]
How to distinguish between ordered and disordered boundary samples:
缺点:只用perplexity作为阈值,无法有效区分边界区域的混淆样本
解决思路:引入更丰富的特征,训练二分类,识别边界区域的正负样本
表达不完整识别:
; 小结:
非人机交互识别
不完全信息下的机器学习任务
[En]
Machine learning tasks with incomplete information
基于语音和语义特征的神经网络模型
[En]
Neural Network Model based on phonetic and semantic Features
意图不明识别
两个任务:无序无意义识别和不完全表情识别
[En]
Two tasks: out-of-order meaningless recognition and incomplete expression recognition
技术方案框架:语言模型+ 分类模型
Original: https://blog.csdn.net/u011983997/article/details/122625081
Author: Necther
Title: 语音交互中的无效query识别
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/524649/
转载文章受原作者版权保护。转载请注明原作者出处!