解读：【阿里热线小蜜】实时语音对话场景下的算法实践

2023年5月28日下午12:06 • 大数据 • 阅读 90

重磅推荐专栏：《Transformers自然语言处理系列教程》
手把手带你深入实践Transformers，轻松构建属于自己的NLP智能应用！

介绍

语音语义技术是人机交互通道，识别越准确，交互越流畅，交互效果越好

主要挑战：

口语化：用户的表述呈现出含糊、冗长、不连续并存在ASR噪声
多模态：语音对话相比文本蕴含了更多的信息，如语气、情绪、背景环境等
双工化：不局限于一问一答的形式，会出现静默、等待、互相打断等复杂的交互行为。呈现出低延时（人人对话rt < 400ms），强交互（turn-taking频繁）的特点

下面我们就针对这3个挑战，看看阿里热线小蜜是怎么优化的、

; 2. 口语化问题

2.1 ASR-Robust SLU

作者对比了几种ASR自然语言理解的方案：

作者基于阿里热线小蜜业务，最终选择了容错SLU的方案。其主要优点在于：

无需准备含ASR错误的训练语料，仅需要在下游任务自身语料上进行 finetune，就可以得到具有ASR容错能力的SLU模型
仅需要文本作为输入，线上链路无需改造成本
采用BERT-like预训练架构，兼容目前大多数NLP下游任务

作者没有讲阿里小蜜是如何预训练模型的。但是可以参考下论文《Learning ASR-Robust Contextualized Embeddings for Spoken Language Understanding》：

作者展示的效果：

效果看起来挺好的。不过，接的文本任务是比较简单的意图分类（或匹配），如果 后续涉及到实体识别、KBQA的任务，这方案就不太适用了。

; 2.2 口语化表达

作者提出的方案主要就是进行 抽取式摘要

短句分类 + Pattern推理
Bert-Sum

参阅：https://zhuanlan.zhihu.com/p/264184125

多模态问题

关于这块，作者主要介绍了情绪识别相关的内容。方案也是比较经典的多模态融合模型，没太多可说的：

; 4. 双工对话

先介绍下，同步、异步和双工的区别：

上图的电话号码例子就非常形象：

我们和在线机器人聊天，就是同步的：我们需要把电话号码完整的打字编辑完，再发送信息，该信息同步触发机器人进行回答。
而如果我们和在线人工客服之间进行这样的对话，人工客服在我们打字时，可以做其他事情，所以我们之间是异步的。
如果我们和热线人工客服之间进行这样的对话，不必等到我们说出完成的电话号码，热线人工客服就开始在理解我们说的话，并有所回应。这就是双工的对话。

双工对话的特点：

语音对话对通信双方具有独占性 -> 响应时延敏感
基于语音的信息传递具有持续性、非瞬时、非原子 -> 边听边想、边想边说
不完全博弈，通话双方并不准确的知道对方下一刻要做什么 -> 容易误判

作者的解决方案是加了一块 Duplex DM模块：

触发从原来的完整的ASR结果信息，变成了Micro-turn。我理解应该就是流式的ASR，使得相应速度更快，做到边听边想：

在每个Micro-turn，基于当前的对话上下文和双工状态，由Duplex DM给出对应的Action。Action包括：等待，调用Chatbot链路并回答、任务无关的回复（task-free chat）、中断当前播音等等。

其中，task-free chat，是双工对话中一些当前场景无关的响应，例如语气承接，句尾承接（如好的。。嗯。。）等等

作者没有介绍Duplex DM具体怎么做。但介绍了单单在问电话号码场景下，就还额外优化了数字意图识别、数字改写、micro-turn DST & Decoder ==

相信 Duplex DM 决策的场景肯定不只这一个场景，如果每个都这样case by case 去优化的话，个人感觉这样做的方案还是挺重的

Original: https://blog.csdn.net/u011239443/article/details/121951062
Author: 小爷毛毛（卓寿杰）
Title: 解读：【阿里热线小蜜】实时语音对话场景下的算法实践

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531402/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Handler，Looper和自定义的Thread

博客园：当前访问的博文已被密码保护请输入阅读密码: Original: https://www.cnblogs.com/hustdc/p/11981118.htmlAuthor…

大数据 2023年5月28日
0067
hive架构的个人想法

大数据 2023年11月15日
0027
京准，NTP授时服务器在安防监控系统应用方案

京准，NTP授时服务器在安防监控系统应用方案京准，NTP授时服务器在安防监控系统应用方案京准，NTP授时服务器在安防监控系统应用方案京准电子科技官微——ahjzsz 如今，通…

大数据 2023年6月3日
0081
利用Hudi Bootstrap转化现有Hive表的parquet/orc文件为Hudi表

前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站：https://www.captainai.net/dongkelun ; 前言 …

大数据 2023年11月13日
0049
Ding！您有一份ChunJun实用指南，请查收

ChunJun是易用、稳定、高效的批流一体的数据集成框架，主要应用于大数据开发平台的数据同步/数据集成模块，使大数据开发人员可简洁、快速的完成数据同步任务开发，供企业数据业务使用。…

大数据 2023年6月2日
0076
docker 清理磁盘

docker system prune命令可以用于清理磁盘，删除关闭的容器、无用的数据卷和网络，以及dangling镜像（即无tag的镜像）。docker system prune…

大数据 2023年5月29日
0068
openresty+lua+kafka实现日志收集

本文转自：https://www.cnblogs.com/gxyandwmm/p/11298912.html *** 部署过程 **** 一:场景描述对于线上大流量服务或者需要上…

大数据 2023年5月28日
0068
Kafka存储内幕详解

1.概述随着微服务和分布式计算的出现，Kafka已经成为各种主流平台系统架构中不可缺少的组成部分了。在本篇文章中，笔者将尝试为大家来解密Kafka的内部存储机制是如何运作的。 2…

大数据 2023年5月28日
0085
Salesforce入门教程（中文）-005 SOQL简介

1.编写SOQL查询要从Salesforce读取记录，必须编写查询。Salesforce提供了Salesforce对象查询语言，简称SOQL，可用于读取保存的记录。SOQL与标准…

大数据 2023年11月11日
0037
大数据ClickHouse进阶（二十二）：ClickHouse优化

ELK是指Elasticsearch、Logstash和Kibana这三个开源工具的组合，用于处理和可视化大数据。其中，Kibana是ELK中的可视化平台，可以用来搜索Elast…

大数据 2023年11月12日
0050
Android Studio|简单记事本开发

目录效果展示：路径和文件： AndroidManifest.xml AddContent.java MainActivity.java MyAdapter.java NoteD…

大数据 2023年11月12日
0057
使用pytest-xdist实现分布式APP自动化测试：基于SSH

前言 pytest-xdist是一款分布式测试插件，它有两种方式实现master和worker的远程通讯，一种是SSH，另一种是socket。本文将介绍如何使用SSH实现用例同步、…

大数据 2023年5月25日
0075
Solr导入MySql中的数据

1、参照 http://www.cnblogs.com/luxh/p/5016894.html 部署好solr的环境 2、在solr_home下建立一个core_item目录 [r…

大数据 2023年6月3日
0069
事务与分布式事务原理及应用

一、核心概念 1、概念数据库事务：数据库事务( transaction)是访问并可能操作各种数据项的一个数据库操作序列，这些操作要么全部执行,要么全部不执行，是一个不可分割的工作…

大数据 2023年6月3日
0070
关于Android性能监控Matrix那些事？你知道那些（上）？

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

大数据 2023年11月11日
0030
NLP-生成模型-2018：Vanilla Transformer【将长文本序列划截断为多个固定长度的段；段与段之间没有上下文依赖性；无法建模字符之间超过固定长度的依赖，关系导致上下文碎片化】

; 一、Vanilla Transformer的结构首先，作者要解决的问题是字级别的LM，相比词级别的LM，字级别LM明显需要依赖的距离特别长，比如说一句话某个位置是应该使用sh…

大数据 2023年5月28日
0082

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

解读：【阿里热线小蜜】实时语音对话场景下的算法实践

2.1 ASR-Robust SLU

; 2.2 口语化表达

大家都在看