基于深度学习的自然语言处理 第七章

在讨论了用于从自然语言中获取特征的不同信息来源后,我们继续探讨具体的NLP分类任务实例,以及适合它们的特征。

在语言识别任务中,给定一个文档或句子,希望判别是哪一种语言。正如第二章看到的,字母级二元文法词袋(bag of letter-bigrams)是这个任务的一个非常强的特征表示。具体来说,每一个二阶字母是一个核心特征,对于给定的文档,其核心特征是该特征在文档中的计数。

在主题分类任务中,对于给定的文档,需要将它们归类为一组主题。
在这里,字母级别的信息不是很翔实,我们将词作为基本单位。词序对任务不是很有帮助。所以,一个好的特征集可能是文档的词袋,也许伴随着二元文法词袋。

在作者归属任务中,对于给定的文本,推断作者的身份,或者文本作者的其他特征,例如他们的性别、年龄或者母语。
用于解决此任务的信息类型与主题分类不同,涉及文本的文体属性而不是内容词。
对这些任务,一个好的特征集专注于词性(pos)标签和功能词。(of on and the),着眼于这些特征,我们可以捕捉写作中微妙的问题变化。

在词性标注任务中,给定一个句子,我们需要给句子中的每个单词分配正确的词性。词性来自于一个预定的集合,包含17个词性标签。

在命名实体识别(NER)任务中,给定一篇文档,需要找到命名实体,如Milan、John、以及Smith、以及Paris,讲他们归类为一组预定义的类别,如位置、机构、人物或其他。值得注意的一点是,这项任务是依赖于上下文的。比如Milan可以代表位置,也可以代表机构。
为该任务设置的核心特征类似于词性标注任务中的特征,它依赖于举例焦点单词每侧长度为2的窗口中的单词。

介词如on,in,with以及for等,用于将谓语与它的论元以及名词与它的前缀修饰词连接起来。介词非常常见,也容易引起歧义,如下面几个句子中的for:
a.We went there for lunch
b.He paid for me
c.We ate for two hours
d.He would have left for home
四个句子中的for表达着不同的含义:a目的,b受益者,c时间,d地点。
为了充分理解句子的含义,你应该知道句中介词二点正确含义。介词消歧任务处理是从有限的语义集合中选择正确的意义分配给上下文中的介词。
考虑以下句子:
a.He liked the round object from the very first time he saw it.

b.He saved the round object from him the very first time they saw it.

这两个例子中的from表达不同的语义,但大多词的窗口信息并不具很大的信息量,甚至有误导性。我们需要一个更好的机制来选择信息量较大的上下文。一种方法是使用启发式规则,例如,左边的第一个动词和右边的第一个名词。这些将捕捉一个三元组

在依存任务中,给定一个句子,需要返回一个语法依存树,每个词语都被分配了一个父词语,除了句子中主词语的根节点是root结点。
对任务建模的一种方法是弧分解法,其中每个可能的n²个词-词关系被分配一个独立的分数,然后我们搜索得到一个最大化总体分数的有效的树。分数通过训练好的打分函数arcscore(h,m,sent)分配,接收给定的句子以及句子中分配的候选词对h,m(h是候选词的索引,m是候选词修饰词的索引)。在这里,我们主要讨论打分函数中用到的特征。
我们开始于最普通的猜测:
头词的字面形式以及词性。
修饰词的字面形式以及词性。
与头词在同一窗口中的单词与词性,以及其位置。
与修饰词在同一窗口中的单词与词性,以及其位置。
我们使用词性以及单词本身的字面形式。单词本身的字面形式给我们提供了非常丰富的信息。例如,对于吃,蛋糕是一个很好的候选对象,而词性提供更低级的语法信息以得到更好的泛化性能。例如,限定词和形容词对名词来说是好的修饰词,而名词对动词来说是好的修饰词。由于依存树的训练语料库规模有限,使用词簇和预训练的词嵌入等分布信息来补充或者替换单词可能是一个好主意。
除了这些特征,也可以考虑如下特征。
词w(h)与w(m)在句中的举例,举例更能代表一个依存关系。
单词之间的方向
头词和修饰词之间的所有词(词性标注)

Original: https://blog.csdn.net/weixin_42003117/article/details/123636160
Author: weixin_42003117
Title: 基于深度学习的自然语言处理 第七章

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/531510/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球