BLEU score 是什么评估指标?

参考链接:https://zhuanlan.zhihu.com/p/338488036

文章目录

主要是为了解决如何判断模型翻译语句的质量的问题。

BLEU 可以低成本,快速的实现对模型结果的评估,从而促进模型架构的发展

BLEU的含义

BLEU的全名为:bilingual evaluation understudy,即:双语互译质量评估辅助工具。
用于评估机器翻译质量的好坏。

设计思想:
机器翻译结果越接近专业人工翻译的结果,则越好。

BLEU算法实际上就是在判断两个句子的相似程度,即拿这个句子的标准人工翻译与机器翻译的结果作比较。

BLEU 并不是拿一个对应的参考翻译来做比较,而是多参考翻译,最后算出一个综合分数。 其分数值越高越好

优点:
方便、快速、结果有参考价值

缺点:

  1. 不考虑语言表达(语法)上的准确性;
  2. 测评精度会受常用词的干扰;
  3. 短译句的测评精度有时会较高;
  4. 没有考虑同义词或相似表达的情况,可能会导致合理翻译被否定;

BLEU如何进行评估的

BLEU的评估算是也是在不断改进的。
最先提出的算法是这样的:
两个句子,S1和S2,S1里头的词出现在S2里头越多,就说明这两个句子越一致。

改进之后的是这样的:

BLEU score 是什么评估指标?

改进的第三种方法:BLEU多元精度(n-gram precision)

BLEU score 是什么评估指标?
改进的n-gram精度得分可以用来衡量翻译评估的充分性和流畅性两个指标:一元组属于字符级别,关注的是翻译的充分性,就是衡量你的逐字翻译能力; 多元组上升到了词汇级别的,关注点是翻译的流畅性,词组准了,说话自然相对流畅了。所以我们可以用多组多元精度得分来衡量翻译结果的。

关于n-gram的另一种解释:
根据n-gram可以划分成多种评价指标,常见的指标有BLEU-1、BLEU-2、BLEU-3、BLEU-4四种,其中n-gram指的是连续的单词个数为n
BLEU-1衡量的是单词级别的准确性,更高阶的bleu可以衡量句子的流畅性。

BLEU score 是什么评估指标?
BLEU score 是什么评估指标?
BLEU score 是什么评估指标?

For example:
candidate: the cat sat on the mat

reference: the cat is on the mat

那么各个bleu的值如下:

就 bleu2 ,对 candidate中的5个词,{the cat,cat sat,sat on,on the,the mat} ,查找是否在reference中,发现有3个词在reference中,所以占比就是0.6

BLEU score 是什么评估指标?

更多详情:

https://zhuanlan.zhihu.com/p/338488036
https://zhuanlan.zhihu.com/p/223048748

Original: https://blog.csdn.net/NGUever15/article/details/123197549
Author: _Summer tree
Title: BLEU score 是什么评估指标?

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/532067/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球