对话机器人（三）——RASA：训练数据

2023年5月30日下午6:50 • 人工智能 • 阅读 181

1. 训练数据格式

使用YAML作为统一且可扩展的方式来管理所有训练数据，包括NLU数据、stories、rules。训练数据可以使用多个YAML文件，每个文件包含NLU数据、stories、rules的任意组合。

version: "3.1"
nlu:
- intent: greet
  examples: |
    - Hey
    - Hi
    - hey there [Sara](name)

- intent: faq/language
  examples: |
    - What language do you speak?

    - Do you only handle english?

stories:
- story: greet and faq
  steps:
  - intent: greet
  - action: utter_greet
  - intent: faq
  - action: utter_faq

rules:
- rule: Greet user
  steps:
  - intent: greet
  - action: utter_greet

| 是管道符号
nlu、stories、rules是对应的

data/nul.yml下包含训练数据

2. NLU 训练数据

保存为data/nlu.yml。

由用户话语的例子组成。examples包括实体，还可以添加synonym(同义词)、regex(正则表达式)、lookup(查找)以帮助正确识别意图和实体。

结构：nlu是一个列表，列表中每个元素都是一个字典，根据特殊含义的键区分不同字典的功能。

普通字符直接表示即可。注： 需要用小写字母。

nlu:
- intent: greet
  examples: |
    - 你好
    - 您好
    - 怎么了

可以自定义NLU组件和需要示例的metadata，metadata包含任意键值对，会在nlu pipeline中被组件接收。

nlu:
- intent: greet
  examples:
  - text: |
      你好
    metadata:
      情绪：中性
  - text: |
      嘿!

代表该意图下所有的例子都包含该metadata。

nlu:
- intent: greet
  metadata:
    情绪: 中性
  examples:
  - text: |
      你好
  - text: |
      嘿!

在检索意图后添加后缀，用于标识机器人特定响应键。

nlu:
-intent: chitchat/ask_name
  examples: |
    - 你叫什么名字？
    - 我可以知道你的名字吗？
    - 大家叫你什么？
    - 你有自己的名字吗？

-intent: chitchat/ask_weather
  examples: |
    - 今天天气如何？
    - 今天外面阳光明媚吗？
    - 噢，你介意帮我查一下天气吗？
    - 我喜欢柏林阳光明媚的日子。

用实体值表示。

完整语法：(role、group、value字段可选)

[<entity-text>]{"entity": "<entity name>", "role": "<role name>", "group": "<group name>", "value": "<entity synonym>"}
</entity></group></role></entity></entity-text>

如：”明天上海的天气如何”表示为”明天上海的天气如何？”明天是日期，上海是城市。
另一种表示方式：[实体值]{“key”: “value”,…}
[明天]{“entity”: “日期”}[上海]{“entity”: “城市”}的天气如何？

nlu:
- intent: check_weather
  examples: |
    - [明天](日期)[上海](城市)的天气如何？
    - [明天]{"entity": "日期"}[上海]{"entity": "城市"}的天气如何？

❃ 获取方法：机器学习模型训练、正则表达式RegexEntityExtractor。

❃ 要从具有特定role/group的实体填充插槽，您需要为插槽定义 from_entity ，插槽映射并指定所需的角色/组。

entities:
   - city:
       roles:
       - departure
       - destination
slots:
  departure:
    type: any
    mappings:
    - type: from_entity
      entity: city
      role: departure
  destination:
    type: any
    mappings:
    - type: from_entity
      entity: city
      role: destination

存储同义词信息。在启动EntitySynonymMapper组件时，推理时会将得到的实体值的同义词替换成它的”标准词”。

只修改实体的值，不影响实体的类型。

nlu:
- synonym: 番茄
  examples: |
  - 蕃茄
  - 西红柿
  - 洋柿子
  - 火柿子

将正则表达式匹配的内容是否出现作为特征传给NER、意图识别。如提取身份证号码、电话号码、IP地址。

RegexFeaturizer组件：正则表达式的名称无关紧要。
RegexEntityExtractor组件：正则表达式的名称与要提取的实体名称匹配。


nlu:
- regex: account_number
  examples: |
    - \d{10,12}
- intent: inform
  examples: |
    - 我的帐号是 [1234567891](account_number)
    - 这是我的帐号 [1234567891](account_number)

存储查找表。实体识别和意图识别时，若能提供额外的特征，可以提高准确度。如提供一个特征词列表（查找表）。

nlu:
- lookup: 城市
  examples: |
    - 北京
    - 上海
    - ...

    - 广州
    - 深圳

3. 对话训练数据

用于训练对话管理模型。

故事是用户和AI助手之间对话，转换成特定的格式， 用户输入表示为意图(必要时表示为实体)，而 AI的响应和动作表示为 动作名称。

stories:
- story: 收集餐厅预订信息
  steps:
  - intent: greet
  - action: utter_ask_howcanhelp
  - intent: inform
    entities:
    - location: "罗马"
    - price: "便宜"
  - action: utter_on_it
  - action: utter_ask_cuisine
  - intent: inform
    entities:
    - cuisine: "西班牙"
  - action: utter_ask_num_people

故事用于训练机器人对话管理模型的训练数据，记录对话过程。记录用户的语义表达和系统内部正确的状态变化。

stories由 story、 metadata、一系列 steps组成。

stories:
- story: 和用户打招呼
  metadata:
    author: 某人
    key: value
  steps:
  - intent: greet
  - action: utter_greet

story：取值任意，不参与训练。值代表这个故事的备注，用于给开发者提供该故事的信息。
metadata：取值任意，不参与训练，可选值。存储有关该故事的相关信息，比如作者author。
steps：通过列表线性表示用户和机器人之间的交互：每个step可以包含以下信息：

由意图和实体表示的用户消息。

steps:
- intent: inform
 entities:
    - location: "上海"
    - price: "实惠"

故事仅仅在某个对话节点上存在不同，可以使用or来精简故事。

stories:
- story: 流程开始
 steps:
 - action:utter_ask_confirm
 - or:
   - intent: affirm
   - intent: thankyou
 - action: action_handle_affirmation

机器人执行的所有操作。在训练和测试对话管理系统时，rasa不会真正地执行相关的动作，无法获得动作运行的结果（事件）是什么，因此需要开发者在故事中明确地给出。

回复(Responses)：以 utter_ 开头，发送一个特定的消息给用户
自定义动作(custom actions)：以 action_ 开头，运行自定义代码，并且可以发送或不发送消息。


stories:
- story: story with a response
  steps:
  - intent: greet
  - action: utter_greet

stories:
- story: story with a custom action
  steps:
  - intent: feedback
  - action: action_store_feedback

对于复杂的故事，可能存在用户请求一次后rasa连续执行多次动作的情况。

- action: action_on_it
- action: aticon_ask_howcanhelp

内置的动作，rasa按照动作的类型自动给出返回的事件。 自定义事件的故事，需要手动给出动作改变的状态。这种改变叫做事件。常用的事件包括词槽事件和active_loop事件。

词槽事件：能对词槽状态进行更改的事件 ❃ 伴随 slot name和可选的 slot value。slot value是通过 entities或者 custom actions（自定义动作）设定的。

- slot_was_set:
  - asked_for_help: true


stories:
- story: story with a slot
  steps:
  - intent: celebrate_bot
  - slot_was_set:
    - feedback_value: positive
  - action: utter_yay

若slot value无关紧要，那只需要列出slot name：

stories:
- story: story with a slot
  steps:
   - intent: greet
   - slot_was_set:
     - name
   - action: utter_greet_user_by_name

active_loop：负责激活和取消激活表单form。


-active_loop: restaurant_form

特殊的自定义动作，包含了一个要求的槽位集合。在 domain.yml 的 forms section定义。一旦定义，需要为form指定一个 happy path 作为一个 rule。在form中，也需要定义 unhappy paths 让模型能够识别未曾见过的对话序列。示例格式如下：

stories:
- story: 有表单的故事
steps:
- intent: search_restaurant
- action: restaurant_form
- active_loop: restaurant_form
- active_loop: null
- action: utter_restaurant_found

action 激活了form并且开启了槽位填充的循环。 active_loop: restaurant_form表示现在有一个激活的form。 active_loop:null 表示在当前form完成前，别的form不被激活。

form可以在被中途打断了后仍处于激活状态；在这种情况下，中断应该出现在 action: <form to activate></form>步骤之后，然后是 active_loop: <active form></active>步骤。表单的中断可能如下所示：

stories:
- story: 中断食物
steps:
  - intent: request_restaurant
  - action: restaurant_form
  - intent: chitchat
  - action: utter_chitchat
  - active_loop: restaurant_form
  - active_loop: null
  - action: utter_slots_values

减少故事中重复部分，名字相同的检查点之间可以互相跳转，将故事与另一个故事联系起来。

stories:
- story: 流程开始
 steps:
 - intent: greet
 - action: action_ask_user_question
 - checkpoint: check_asked_question
- story: 处理用户确认
 steps:
 - checkpoint: check_asked_question
 - intent: affirm
 - action: action_handle_affirmation

故事开头的检查点也可以以设置的插槽为条件:

stories:
- story: story_with_a_conditional_checkpoint
  steps:
  - checkpoint: greet_checkpoint

    slot_was_set:
    - context_scenario: holiday
    - holiday_name: thanksgiving
  - intent: greet
  - action: utter_greet_thanksgiving

规则描述了应该始终 遵循相同路径的简短对话。格式类似于story， conversation_started和 conditions键用于指定规则应适用的条件。


rules:
- rule: 当用户以 greet 意图开始对话时说 hello
  conversation_start: true
  steps:
  - intent: greet
  - action: utter_greet


rules:
- rule: 只有在用户提供姓名时才说"嘿"
   condition:
   - slot_was_set:
      - user_provided_name: true
   steps:
   - intent: greet
   - action: utter_greet

❃ 在规则结束时跳过等待用户输入：完成最后一步后等待下一条用户消息

rules:
- rule: 应用时等待用户消息的规则
  steps:
  - intent: greet
  - action: utter_greet

❃ 若将下一个动作预测交给另一个故事或规则，添加 wait_for_user_input: false到规则中。

rules:
- rule: 应用就不会等待用户消息的规则
  steps:
  - intent: greet
  - action: utter_greet
  wait_for_user_input: false

不要过度使用规则

测试一个mesage是否被成功分类，用user指定实际的消息文本和文本中包含的实体。

stories:
- story: A basic end-to-end test
  steps:
  - user: |
     hey
    intent: greet
  - action: utter_ask_howcanhelp
  - user: |
     show me [chinese]{"entity": "cuisine"} restaurants
    intent: inform
  - action: utter_ask_location
  - user: |
     in [Paris]{"entity": "location"}
    intent: inform
  - action: utter_ask_price

不必处理 NLU 管道提取的消息的特定意图，使用 user将用户消息直接放入stories。

stories:
- story: user message structure
  steps:
    - user: the actual text of the user message
    - action: action_name

可以添加实体标签，也可以将机器人话语直接放入stories中。

stories:
- story: 完整端到端的故事
  steps:
  - intent: greet
    entities:
    - name: 李明
  - bot: 你好!

  - intent: search_restaurant
  - action: utter_suggest_cuisine
  - user: 我总是去吃 [寿司](菜)
  - bot: 就我个人而言，我更喜欢披萨，不过我们还是去找找寿司店吧。
  - action: utter_suggest_cuisine
  - user: 祝你有美好的一天!

  - action: utter_goodbye

参考文献：
[1] 孔小泉,王冠.Rasa实战：构建开源对话机器人[M].电子工业出版社.2022:201.

[2] RASA官方文档 https://rasa.com/docs/rasa/rules

Original: https://blog.csdn.net/qnstar_/article/details/125046335
Author: 就要辣谢谢。
Title: 对话机器人（三）——RASA：训练数据

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/544619/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

C语言函数详解

一、函数的定义与分类 1.定义 2.分类二、库函数 1.库函数存在的意义 2.库函数的学习和使用三、自定义函数 1.自定义函数的组成 2.示例（1）写一个函数找出两个整数的最…

人工智能 2023年7月31日
0041
Pytorch拟合多项式回归

主要思路多项式f(x)=-1.13s-2.12x^2+3.15x^3-0.01x^4+0.512 输入参数为[x,x^2,x^3,x^4] 需要拟合的参数为[-1.13,-2.1…

人工智能 2023年6月17日
0062
OpenVINO安装和使用

Openvino对平台系统的要求，他不是所有平台和硬件条件下都适配的，具体要求所需的处理器和相应的操作系统如下所示： [En] The required processor an…

人工智能 2023年5月24日
0090
【MATLAB】RGB转换为HSV三通道

Matlab自带的图片所在路径为C:\Program Files\MATLAB\R2018b\toolbox\images\imdata，可以用其他图片。代码：%rgb2hsvcl…

人工智能 2023年6月18日
0063
python pandas笔记

数据读取可以读取excel，csv等： df = pd.read_excel("Name.xlsx") df = pd.read_csv("Name…

人工智能 2023年7月7日
0058
pytorch的模型保存加载和继续训练

import torch from torch import nn import numpy as np 定义一个三层的MLP分类模型 class MyModel(nn.Modul…

人工智能 2023年6月16日
0071
Matplotlib可视化数据分析图表下（常用图表的绘制、折线图、柱形图、直方图、饼形图、散点图、面积图、热力图、箱形图、3D图表、绘制多个图表、双y轴可视化图表、颜色渐变图）

本文来自《Python数据分析从入门到精通》_明日科技编著 5.6 常用图表的绘制本节介绍常用图表的绘制，主要包括绘制折线图、绘制柱形图、绘制直方图、绘制饼形图、绘制散点图、绘制…

人工智能 2023年6月11日
0068
逻辑回归模型在处理文本分类问题上有什么注意事项

问题背景逻辑回归模型是一种被广泛应用于文本分类问题的机器学习方法。它通过建立一个线性模型并使用逻辑函数来预测文本的类别。在处理文本分类问题时，逻辑回归模型需要考虑一些重要的注意事…

人工智能 2023年12月31日
0040
机器学习单层神经网络感知机及其python实现

对于神经网络，由许许多多的神经元构成，而无数的神经元又可以拆分成为许许多多的双层神经元（输入层和输出层）仅由两层神经元构成的简单神经网络称为感知机，感知机可以轻松实现逻辑与，或，…

人工智能 2023年7月14日
0043
MATLAB中怎样初始化(创建)二维、三维、四维以及多维矩阵,各维度的索引顺序是怎样的？

目录 1 在MATLAB中初始化二维矩阵 2 在MATLAB中初始化三维矩阵 3 在MATLAB中初始化四维矩阵 4 在MATLAB中初始化N维矩阵 1 在MATLAB中初始化二维…

人工智能 2023年6月18日
00102
Java开发才不到3年，来面试开口要25K，面完连10K都不想给

前言我的好朋友兼大学同学老左家庭经济情况不错，毕业之后没两年自己存了点钱加上家里的支持，自己在杭州开了一家网络公司。由于公司不是很大所以公司大部分的开发人员都是自己面试的，近期公…

人工智能 2023年7月30日
0051
python kfold交叉验证_kfold交叉验证python

我是python的初学者。我写了下面的函数来分区从csv文件读取的数据。索引生成没有错误，但是当我用这个索引拆分df时，结果是不正确的。我的代码怎么了？在def partition…

人工智能 2023年7月8日
0051
【过程挖掘算法4】Alpha Miner及其系列算法

Alpha算法是最早应用于过程挖掘的过程发现算法，在2002年被过程挖掘之父Wil van der Aalst提出，后续并被很多研究学者所完善，提出了一系列的扩展alpha算法，比…

人工智能 2023年6月19日
0072
SSD（pytorch）自建数据集训练及测试

一、数据集准备 SSD代码：GitHub – amdegroot/ssd.pytorch: A PyTorch Implementation of Single Sho…

人工智能 2023年7月23日
0078
已经安装了python如何与anaconda共存？

嗨害大家好鸭，我是小熊猫🖤 有小伙伴问我：只听过python，anaconda 是什么？？？今天就来给大家说一说，已经安装了python如何与anaconda共存？有什么p…

人工智能 2023年6月16日
0056
R语言使用head函数获取dataframe的头部数据、使用tail函数获取dataframe的尾部数据、使用参数n指定获取的个数

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月15日
0061

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

对话机器人（三）——RASA：训练数据

1. 训练数据格式

2. NLU 训练数据

3. 对话训练数据

大家都在看