文本生成：自动摘要评价指标 Rouge

2023年5月31日上午3:58 • 人工智能 • 阅读 90

Rouge的全名是Recall-Oriented Understudy for Gisting Evaluation，单看名字就会发现Rouge是由召回率演变而来的指标，用于衡量模型生成摘要文本的质量。我们常说的Rouge其实是一组评价指标的统称，包含Rouge-N, Rouge-L, Rouge-W, Rouge-S四个指标，它们的计算方式和适用场景有所不同。本文首先介绍了它们各自的适用场景和计算方式，并给出了简洁可用的代码示例，最后写下了一点个人思考。

单文档摘要任务中， ROUGE-2, ROUGE-L, ROUGE-W, 以及 ROUGE-S表现很好
在短摘要/标题式摘要任务中， ROUGE-1, ROUGE-L, ROUGE-W,
ROUGE-SU4, 以及 ROUGE-SU9表现很棒
在多文档摘要任务中，当停用词被排除在匹配之外时， ROUGE-1, ROUGE-2, ROUGE-S4, ROUGE-S9, ROUGE-SU4, 以及 ROUGE-SU9表现不错
排除停用词通常能改善相关性评估
使用多个reference(ideal 摘要)可以改善相关性评估。

n-gram召回率，Co-Occurrence Statistics

rouge-n = pred与ideal的n-gram重叠数量 ideal的n-gram数量 \text{rouge-n}=\frac{\text{pred与ideal的n-gram重叠数量}}{\text{ideal的n-gram数量}}rouge-n =ideal 的n-gram 数量pred 与ideal 的n-gram 重叠数量

分母是ideal字符串的n-gram个数，因为Rouge更关心recall值。（而BLEU更关心precision值）

简单地说， Rouge-n统计了pred和ideal两个字符串的n-gram重叠单元的数量，并计算了重叠单元在ideal字符串中的占比，作为召回率。

以短摘要/title摘要任务为例：
ideal摘要：”武汉长江大桥”
pred摘要：”武汉市长江大桥”

N-gram摘要内容单元数量Rouge-N1-gram武 / 汉 / 长 / 江 / 大/ 桥

武 / 汉 / 市 / 长 / 江 / 大/ 桥ideal：6

重叠：6

2-gram武汉 / 汉长 / 长江 / 江大 / 大桥

武汉 / 汉市 / 市长 / 长江 / 江大 / 大桥ideal：5

重叠：4

注：如有多个ideal摘要，怎么计算？
分别计算每个ideal摘要和pred摘要的Rouge值，并取其中最大值，作为当前pred摘要的Rouge值。
rouge-n m u l t i = a r g m a x i {rouge-n ( i d e a l i , p r e d ) } \text{rouge-n}_{multi} = argmax_i \text{{rouge-n}(ideal_i, pred)}rouge-n m u l t i =a r g m a x i {rouge-n (i d e a l i ,p r e d )}

最长公共子序列，Longest Common Subsequence(LCS)

LCS和最长公共子串不同，不要求连续，保序即可
Rouge-N 只关注匹配单元的数量，像词袋一样，不关注词序
Rouge-L 关注词序

R l c s = l c s 长度 i d e a l 字符串长度 , P l c s = l c s 长度 p r e d 字符串长度 , F l c s = ( 1 + β 2 ) R l c s P l c s R l c s + β 2 P l c s R_{lcs} = \frac{lcs长度}{ideal字符串长度}, P_{lcs}=\frac{lcs长度}{pred字符串长度}, F_{lcs}=\frac{(1+\beta^2)R_{lcs}P_{lcs}}{R_{lcs}+\beta^2P_{lcs}}R l c s =i d e a l 字符串长度l c s 长度,P l c s =p r e d 字符串长度l c s 长度,F l c s =R l c s +β2 P l c s (1 +β2 )R l c s P l c s

注：lcs经过了去重

以文档摘要任务为例：
ideal摘要：”矿泉水和纯净水的所含物质不同”
pred摘要：”矿泉水含有丰富的矿物质元素，纯净水不含矿物质”

-摘要内容lcs内容Rouge-L句子1ideal:

和纯净水

pred:

含有丰富

句子2ideal:矿泉水和

pred:

合并去重ideal长度: 14

pred长度: 21

lcs长度：10

from rouge import Rouge

pred = '武汉市长江大桥'
ideal = '武汉长江大桥'

pred, ideal = ' '.join(pred), ' '.join(ideal)

rouge = Rouge()
rouge_scores = rouge.get_scores(hyps=pred, refs=ideal)

结果如下

>>> pred
'武 汉 市 长 江 大 桥'
>>> ideal
'武 汉 长 江 大 桥'
>>> rouge_scores
[{'rouge-1': {'r': 1.0, 'p': 0.8571428571428571, 'f': 0.9230769181065088},
'rouge-2': {'r': 0.8, 'p': 0.6666666666666666, 'f': 0.7272727223140496},
'rouge-l': {'r': 1.0, 'p': 0.8571428571428571, 'f': 0.9230769181065088}}]

from rouge import Rouge
import jieba

pred = '武汉市长江大桥'
ideal = '武汉长江大桥'

pred = ' '.join(jieba.cut(pred, HMM=False))
ideal = ' '.join(jieba.cut(ideal, HMM=False))

rouge = Rouge()
rouge_scores = rouge.get_scores(hyps=pred, refs=ideal)

结果如下，

>>> pred
'武汉市 长江大桥'
>>> ideal
'武汉长江大桥'
>>> rouge_scores
[{'rouge-1': {'r': 0.0, 'p': 0.0, 'f': 0.0},
'rouge-2': {'r': 0.0, 'p': 0.0, 'f': 0.0},
'rouge-l': {'r': 0.0, 'p': 0.0, 'f': 0.0}}]

word粒度的Rouge计算有两个缺点：

受jieba分词的影响，分词错误就会评估错误。
降低了长词的重要性，这样一来，模型更倾向于拟合容易预测的短词。

word粒度的Rouge也有明显的优点：

更好地评估模型对专有名词的拟合程度。

在苏神的文章中，看到了一个结合了字粒度Rouge和词粒度Rouge各自优点的方法，简单来说，还是以词为匹配单位，把词的长度作为权重，为Rouge做一个加权即可。比如上文的”武汉长江大桥”，如果匹配对了，就给6分，而不是1分。这个方法需要自己实现Rouge计算函数。

Original: https://blog.csdn.net/GJ_0418/article/details/120944646
Author: SunnyGJing
Title: 文本生成：自动摘要评价指标 Rouge

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/548491/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Unity架构之详解域重新加载和场景重新加载

一、unity进入运行模式包括以下主要阶段备份当前场景：这仅在场景被修改后发生。这样当退出运行模式时，Unity 将场景恢复为运行模式开始前的状态。 Domain Reload：…

人工智能 2023年7月30日
0048
图像分类模型 I. 从LeNet到ResNet

从LeNet到ResNet，神经网络沿着越来越深方向演进。 LeNet LeNet是最早发布的卷积神经网络，取得了与SVM性能相媲美的效果，广泛应用于ATM数字识别。代码实现模型…

人工智能 2023年7月1日
0092
Vision Transformer详解

论文名称： An Image Is Worth 16×16 Words: Transformers For Image Recognition At Scale论文下载链…

人工智能 2023年6月16日
00109
使用Mx-Yolov3与Maixhub，本地及线上训练K210模型文件

声明：本文谢绝转载！ CSDN地址：https://blog.csdn.net/weixin_58068682个人博客：https://amnesia-f.gitee.io/ 一…

人工智能 2023年5月26日
00153
ACL 2022 | NLP领域最新热门研究，你一定不能错过！

编者按：作为自然语言处理领域的国际顶级学术会议，ACL 每年都吸引了大量学者投稿和参会，今年的 ACL 大会已于5月22日至5月27日举办。值得注意的是，这也是 ACL 大会采用 …

人工智能 2023年5月25日
0093
机器学习划分，为有监督学习、无监督学习、强化学习。

人工智能核心技术：机器学习总览机器学习作为人工智能的核心，与计算机视觉、自然语言处理、语音处理和知识图谱密切关联机器学习是实现人工智能的核心方法，专门研究计算机如何模拟/实…

人工智能 2023年7月28日
00135
基于SPSS的聚类分析原理概述

文章目录 1. 聚类分析的基本概念 * 1.1 方法概述 1.2 聚类方法 2. 系统聚类 * 2.1系统聚类的类型 2.2 两个距离概念 2.3亲疏程度的度量 – 2…

人工智能 2023年5月31日
0076
mysql 锁机制与原理详解

前言不管是数据库，还是很多后端编程语言，都存在锁的机制，锁的存在有效解决了并发情况下对共同资源的抢占，保证了数据的稳定性和一致性，在mysql中，锁是如何工作的呢？其底层的工作原…

人工智能 2023年7月30日
0071
python中使用pd.to_datetime函数从1970开始的情况

python中使用pd.to_datetime函数从1970开始以纳秒计时的情况 dataframe的时间列操作将图中的日期用pd.to_datetime转为datetime y…

人工智能 2023年7月6日
0070
WT588F02KD实现智能闹钟触摸+显示驱动+语音播报

闹钟离不开我们的日常生活。它不仅能帮我们节省时间，还能提醒我们按时作息。近年来，智能闹钟市场持续火爆，随着潜在用户需求的释放，智能闹钟市场将进一步扩大。智能闹钟将不仅仅是闹钟，还将…

人工智能 2023年5月25日
0086
win10下pytorch转ncnn手把手教程

前言最近需要把pytorch转为onnx再转为ncnn，整体流程大概为：1、pytorch转为onnx；2、使用onnx-simplifier工具简化onnx模型；3、onnx转…

人工智能 2023年7月24日
0079
三维目标检测之OpenPCDet环境配置及demo测试

很久没写过关于环境配置的博客了，这次实在是因为，自己在是在OpenPCDet环境的配置上遇到坑了。一环扣一环，由于我的实验环境是ubuntu16.04，跟网上大多数教程环境不一样，…

人工智能 2023年6月1日
00163
汽车控制理论数学基础——状态方程

1. 利用状态方程求传递函数公式状态方程为(G(s)=\dfrac{Y(s)}{U(s)} = C(sI-A)^{-1}B+D) 例1：(m-c-k)系统，求(m\overset…

人工智能 2023年6月4日
0096
AI 作画初体验

连续看了几期和菜头的公众号上关于 AI 作画的文章后，我也产生了一些兴趣。作为一名理科生，立马就行动起来，这篇文章就聊一聊我的尝试过程。说起 AI 作画，其实已经出现好几年了。最…

人工智能 2023年6月24日
00102
Nvidia Deepstream极致细节：1. Deepstream Python 官方案例1：deepstream_test_1

Nvidia Deepstream极致细节：1. Deepstream Python 官方案例1：deepstream_test_1 此博客将详细解释如何使用Deepstream中…

人工智能 2023年5月26日
00140
Python Dataframe 分组排序和 Modin

1、按照其中一列进行排序在dataframe中，按照其中的一列排序：比如q值倒排 2、按照其中多列进行排序在dataframe中，按照其中的多列排序：比如q值倒排、经纪人uci…

人工智能 2023年6月2日
0055

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

文本生成：自动摘要评价指标 Rouge

大家都在看