对话系统之NLU总结报告

2023年5月28日下午2:46 • 大数据 • 阅读 76

文章目录

1 项目介绍
*
1.1 背景知识介绍
1.2 数据集介绍
1.3 评价指标
2 技术方案梳理
*
2.1 模型目标
2.2 模型介绍
2.3 模型实现
–
3 项目总结

1 项目介绍

1.1 背景知识介绍

对话系统按领域分类，分为任务型和闲聊型。闲聊型对话系统有Siri、微软小冰、小度等。它们实现可以以任意话题跟人聊天。任务型对话系统是以完成特定任务为目标的对话系统。例如可以以订机票为一个特定的任务，实现的对话系统。我们这里重点关注任务型对话系统。

任务型对话系统分为语音识别、自然语言理解NLU、对话管理DM、自然语言生成NLG、语音合成几个部分。与NLP领域相关的是NLU、DM、NLG三个部分。本次报告详细描述的是NLU这个部分。

NLU是从用户输入的一句话中提取出领域、意图以及槽值三部分。通过领域识别和意图识别理解用户想要进行的操作。槽值填充，能够提取与意图相关的关键词。例如一句话：帮我订一张去北京的票。其领域是：机票，意图是：订机票，语义槽值有：到达地=北京。
NLU理解到的领域，意图、槽值，之后会给到DM模块，进行后续处理。DM模块往往也业务是强相关的。目前大多数系统通过堆规则的方式实现，可以借助有限状态机来实现。

领域识别和意图识别都是分类问题。槽值填充是序列标注问题。

; 1.2 数据集介绍

SMP2019 中文人机对话技术评测（The Evaluation of Chinese Human-Computer Dialogue Technology，SMP2019-ECDT），是由全国社会媒体处理大会（Social Media Processing，SMP）主办的，专注于以社会媒体处理为主题的科学研究与工程开发，为传播社会媒体处理最新的学术研究与技术成果提供广泛的交流平台。

本次使用的数据集共包含 2579个数据对，其中 2000个用于训练数据集，579个用于验证数据集。

原始数据样例：

原始数据是JSON结构。每条数据有文本、领域、意图，还有对应的槽的名称、以及槽值。例如数据中，文本=请帮我打开uc，领域=app，意图=LAUNCH，槽的名称=name，槽值=uc。

1.3 评价指标

对于领域分类、意图识别，我们采用准确率（acc）来评价，对于语义槽填充，我们通常采用F值来评价。对于domain，当预测的值与标准答案相同时即为正确。对于intent来说，当domain预测正确，且intent的预测的值与标准答案相同时才为正确。对于slots来说，我们采用F值作为评价指标，当预测的slots的一个key-value组合都符合标准答案的一个key-value组合才为正确(domain和intent的也必须正确)。

为了综合考虑模型的能力，我们通常采用句准确率（sentence acc）来衡量一句话领域分类、意图识别和语义槽填充的综合能力，即以上三项结果全部正确时候才算正确，其余均算错误。

在项目中我们将领域和意图一起识别，使用准确率acc评价。对于语义槽使用句准确率评价。在计算句准确率的时候没有考虑领域、意图的准确率。

2 技术方案梳理

2.1 模型目标

通常来说，实现一个对话系统中的 NLU 任务，要分三步，第一步领域识别，第二步意图识别，第三步槽值填充。如果不考虑未来系统中领域的扩展，我们可以将第一步和第二步合并起来，那么合并之后就有两步要做，第一步意图识别，第二步槽值填充（”三步并作两步”）。我们的目标是，进一步提高效率，同时完成意图识别和槽值填充这两个步骤（”两步合成一步”）。具体模型介绍参考论文参考：《BERT for Joint Intent Classifification and Slot Filling》。

2.2 模型介绍

本次模型使用BERT+CRF完成NLU任务。BERT具体使用chinese-roberta-wwm-ext预训练模型。
BERT是一个机遇Transfer模型的多层双向self-attention Transformer 编码器结构。其输入部分由token embedding词嵌入向量、segment embedding句子编码向量以及position embedding位置编码向量三部分组成。这三部分相加组成了最终的BERT输入向量。
BERT使用Word Piece方式分词。对于中文而言，基本相当于单字分词。
本次任务的数据是单句分类。输入格式：[CLS] 句子[SEP]。
BERT模型输出层，CLS所对应的token被认为是代表了句子的向量。我们使用CLS的token进行领域-意图识别。每个单词对应的Token，代表了这个单词，用于槽值分类。
BERT是一种预训练模型。在BERT的输出层，加一层线性层，对CLS token计算，得到该句子在各个分类上的概率。

对于槽值分类我们使用BIO标记法。例如：

012345678CLS请帮我打开ucSEPOOOOOOB-nameI-nameO

在BERT的输出层，加一层线性层，计算各个词在所有槽值类型上的概率。一般来说这样也可以实现。但是BERT不能很好地捕捉时序之间的关系。如果能将这一步的输出，作为输入送入CRF模型中，CRF模型将能很好地学习到标签的依赖关系。所以对于槽值分类将使用BERT+线性层+CRF的结构。

第一部分是标签依赖关系，是CRF学到的。第二部分是每个位置属于槽值分类的概率，由BERT+线性层模型学习。

; 2.3 模型实现

2.3.1 数据处理

需要将JSON格式的文件处理为后面方便读取的格式：app@launch 请帮我打开uc o o o o o b-name i-name
此外，将数据集分为训练集和验证集，数据量分别为2000、579。
提取出所有的领域-意图标签。
提取出所有的槽值标签。
这样就得到了train.tsv,test.tsv,cls_vocab,slot_vocab。在数据使用过程中会将标签数据都转小写。

train.tsv,test.tsv部分数据展示

cls_vocab部分数据展示

slot_vocab部分数据展示
对话系统之NLU总结报告

; 2.3.2 构建dataset

按照2.2分析的模型构建数据集，使用[pad]做batch对齐。这里需要说明的是使用了pin_memory，可以在数据从CPU搬移到GPU的过程中继续做其他事情。

class PinnedBatch:
    def __init__(self, data):
        self.data = data

    def __getitem__(self, k):
        return self.data[k]

    def pin_memory(self):
        for k in self.data.keys():
            self.data[k] = self.data[k].pin_memory()
        return self

2.3.3 模型定义

模型定义基于BertPreTrainedModel，使用BERT预训练模型。

class NLUModule(BertPreTrainedModel):
    def __init__(self, config):
        super().__init__(config)
        self.num_intent_labels = config.num_intent_labels
        self.num_slot_labels = config.num_slot_labels
        self.use_crf = config.use_crf

        self.bert = BertModel(config)
        self.dropout = nn.Dropout(config.hidden_dropout_prob)
        self.intent_classifier = nn.Linear(config.hidden_size, config.num_intent_labels)
        self.slot_classifier = nn.Linear(config.hidden_size, config.num_slot_labels)
        self.crf = CRF(num_tags=config.num_slot_labels, batch_first=True)
        self.init_weights()

    def forward(
        self,
        input_ids=None,
        attention_mask=None,
        token_type_ids=None,
        position_ids=None,
        head_mask=None,
        inputs_embeds=None,
        output_attentions=None,
        output_hidden_states=None,
        slot_labels=None
    ):
        r"""
        labels (:obj:torch.LongTensor of shape :obj:(batch_size,), optional):
            Labels for computing the sequence classification/regression loss.

            Indices should be in :obj:[0, ..., config.num_labels - 1].

            If :obj:config.num_labels == 1 a regression loss is computed (Mean-Square loss),
            If :obj:config.num_labels > 1 a classification loss is computed (Cross-Entropy).

"""
        outputs = self.bert(
            input_ids,
            attention_mask=attention_mask,
            token_type_ids=token_type_ids,
            position_ids=position_ids,
            head_mask=head_mask,
            inputs_embeds=inputs_embeds,
            output_attentions=output_attentions,
            output_hidden_states=output_hidden_states,
        )

        pooled_output = outputs[1]
        seq_encoding = outputs[0]

        pooled_output = self.dropout(pooled_output)
        intent_logits = self.intent_classifier(pooled_output)
        slot_logits = self.slot_classifier(seq_encoding)
        if self.use_crf and slot_labels is not None:
            crf_loss = self.crf(slot_logits, slot_labels, mask=attention_mask.byte(), reduction='mean')
            crf_loss = -1 * crf_loss
            return intent_logits, slot_logits, crf_loss
        else:
            return intent_logits, slot_logits, None

2.3.4 训练相关参数

优化方式。优化方式使用Adm+warm up的方式。初始学习率8e-6，warmup=200。

loss计算。使用交叉熵损失mean计算loss。在计算槽值损失的时候要去掉mask的部分。当使用CRF层的时候，槽值损失就是CRF计算得到的损失。在计算总的损失的时候是将领域-意图损失+槽值损失。也可以为他们分配不同的比例。在项目中发现，如果不加CRF层，需要调整比例，模型才能学到更好的槽值分类。

使用batch_split，使用时间换空间策略。有时候我们的GPU内存不够大，每一个batch的数量不能很大（本项目中是30），这个时候可以多做几次前向传播，再做一次梯度更新。用更多的数据可以让梯度更新的值更准确，收敛得更快。

本项目中训练了30轮。每训练40步做一次验证。

2.3.5 训练结果

intent_loss=0.00402, intent_acc=1, slot_loss=0.0344, slot_acc=1
dev_intent_loss 0.2449, dev_slot_loss 0.0817, dev_intent_acc 0.9430, dev_slot_acc 0.8325

在本项目中，也做不了加CRF的训练。dev_intent_acc：0.9309，dev_slot_acc：0.8083。能够看出添加CRF对于槽值分类提高了2个百分点。

3 项目总结

NLU不但可以用在对话系统中，同样也可以用于知识图谱搜索中。当识别到用户的意图和槽值之后可以使用固定的搜索模板，填充槽值返回搜索结果。
本项目已经上传到git。框架代码来源于silverriver。CRF部分参考monologg。

Original: https://blog.csdn.net/flying_all/article/details/120091981
Author: 约定写代码
Title: 对话系统之NLU总结报告

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/532133/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Docker最全教程——.NET5进一步拥抱容器技术

.NET 5已经发布多时了，众所周知，其对容器的支持又上了一个台阶。那么主要有哪些变化呢，接下来我们一起来了解吧。 Microsoft’s Plans for .NET…

大数据 2023年5月29日
0069
《愚者与智者的48个差距》[转帖]

第一章学会尊重他人 ·1．智者满脸微笑，愚者冷若冰霜·2 ．智者记住别人的名字，愚者希望名字被记住·3．智者了解别人的心思，愚者表示自己的需要·4．智者善于倾听，愚者没有耐心第二…

大数据 2023年6月3日
0066
笔记:如何使用postgresql做顺序扣减库存

如何使用postgresql做顺序扣减库存 [TencentCloudSDKException] code:FailedOperation.ServiceIsolate messa…

大数据 2023年6月3日
0086
qml连接sqlite

qml连接sqlite 本文目录 * – qml连接sqlite – + （一）qt-creator新建qml项目 + （二）qml引入sqlite + *…

大数据 2023年11月10日
0034
从 Linux 内核角度探秘 JDK NIO 文件读写本质

1. 前言笔者在《从 Linux 内核角度看 IO 模型的演变》一文中曾对 Socket 文件在内核中的相关数据结构为大家做了详尽的阐述。又在此基础之上介绍了针对 socke…

大数据 2023年5月26日
0076
Hadoop HDFS trash 回收站

name value description fs.trash.interval 删除文件的存活时间，单位分钟，如果是0禁用回收站；可以在服务端及客户端配置此参数；如果服务端禁用了…

大数据 2023年5月26日
0070
查看redis集群信息

大数据 2023年11月15日
0041
结合代码看Vision Transformer【ViT】

参考仓库： jeonsworld/ViT-pytorch lucidrains/vit-pytorch 论文：An Image is Worth 16×16 Words:…

大数据 2023年5月28日
0086
Android常用控件使用方法

一.TextView 文本使用：可以用android：gravity来指定文字的对齐方式，可选值有top、bottom、left、right、center等，可以用”…

大数据 2023年11月12日
0037
Python flask实战订餐系统微信小程序-28删除和恢复账号功能实现

Python flask实战订餐系统微信小程序-28删除和恢复账号功能实现原创 oxoxwork2022-06-17 06:32:54博主文章分类：wechat ©著作权文章标…

大数据 2023年5月26日
00108
Hue+Dolphinscheduler+Hive+ES+Waterdrop基于混合计算demo

目录基于混合计算demo 1 1. 创建hdfs公有库和私有库（运维操作） 2 1.1. 创建hdfs公有库并授予可读可写权限 2 1.2. 创建hd…

大数据 2023年5月26日
0077
Vagrant详细教程

镜像下载、域名解析、时间同步请点击阿里云开源镜像站一、安装virtualBox 进入 VirtualBox 的主页，即可进入下载页面. VirtualBox 是一个跨平台的虚拟化…

大数据 2023年5月27日
0071
简单性能测试:springboot-2.x vs actix-web-4.x benchmark

本次是对两款web框架做一次性能测试，这个测试做的很早，约在两个月前（也是actix-web4.0刚刚发布之后），目的是比较有gc类web框架(springboot)与无gc类w…

大数据 2023年6月3日
0076
使用docker 部署 showdoc 在线文档并使用Navicat访问showdoc的数据库SQLite类型

使用docker 部署 showdoc,下面有用Navicat Premium 连接showdoc的数据库 docker就不&#…

大数据 2023年11月10日
0045
00-Linux简介和Linux安装以及相关配置

1、Linux简介 1.1、什么是Linux Linux是一套免费使用和自由传播的操作系统。 1.2、学习Linux的原因 1.2.1、企业用人要求在现如今的时代中，越来越多…

大数据 2023年5月27日
0071
如何使用 Docker 创建、备份和还原 SQLite 数据库

Dockerfile： FROM alpine:3.10 RUN apk add –update sqlite RUN mkdir /db WORKDIR /db ENTRYPO…

大数据 2023年11月11日
0037

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31