自然语言处理(NLP)语义分析:“词汇级”语义分析【词义消歧、词义表示和学习】、“句子级”语义分析【浅层语义分析(语义角色标注)、深层语义分析】

语义分析(Semantic Analysis):指运用各种机器学习方法,学习与理解一段文本所表示的语义内容。

一段文本通常由词、句子和段落来构成,根据理解对象的语言单位不同,语义分析又可进一步分解为:

  • 词汇级语义分析;
  • 句子级语义分析;
  • 篇章级语义分析;

一般来说:

  • 词汇级语 义分析关注的是如何获取或区别单词的语义;
  • 句子级语义分析则试图分析整个句子所表达的 语义,
  • 篇章语义分析旨在研究自然语言文本的内在结构并理解文本单元(可以是句子从句 或段落)间的语义关系。

1、词义消歧(词汇级)

词义消歧根据一个多义词在文本中出现的上下文 环境来确定其词义,作为各项自然语言处理的基础步骤和必经阶段被提出来。词义消歧包含 两个必要的步骤:(1)在词典中描述词语的意义;(2)在语料中进行词义自动消歧。例如”苹 果”在词典中描述有两个不同的意义:一种常见的水果;美国一家科技公司

词义消歧主要面临如下两个关键问题:(1)词典的构建;(2)上下文 的建模。

2、词义表示和学习(词汇级)

One-hot
这种方法把每个词表示为一个很长的向量。这 个向量的维度是词表大小,其中绝大多数元素为 0,只有一个维度的值为 1,这个维度就代表了当前的词。

Word Embedding
通过训练将某种语言中的每一个词映射成一个固定维数的向量,将所 有这些向量放在一起形成一个词向量空间,而每一向量则可视为该空间中的一个点,在这个 空间上引入”距离”,则可以根据词之间的距离来判断它们之间的(词法、语义上的)相似性。

1、浅层语义分析(句子级)

语义角色标注(Semantic Role Labeling,简称 SRL)是一种浅层的语义分析。

给定一个 句子,SRL 的任务是找出句子中谓词的相应语义角色成分,包括核心语义角色(如施事者、 受事者等)和附属语义角色(如地点、时间、方式、原因等)。

根据谓词类别的不同,又可 以将现有的 SRL 分为动词性谓词 SRL 和名词性谓词 SRL。

浅层语义分析主要围绕着句子中的谓词,为每个谓词找到相应的语义角色

2、深层语义分析(句子级)

深层的语义分析(有时直接称为语义分析,Semantic Parsing)不再以谓词 为中心,而是将整个句子转化为某种形式化表示,例如:谓词逻辑表达式(包括 lambda 演 算表达式)、基于依存的组合式语义表达式(dependency-based compositional semantic representation)等 。

以下给出了 GeoQuery 数据集中的一个中英文句子对,以及对应的一 阶谓词逻辑语义表达式:
中文: 列出在科罗拉多州所有的河流
英文: Name all the rivers in Colorado
语义表达式: answer(river(loc_2(stateid(‘colorado’))))

深度语义分析主要面临如下二个关键问题。

  • 普通文本到实体/关系谓词之间的映射。自然语言的一个主要特点在于其表达形式 的丰富多样性,对同样的表达意思(如某个语义表达式),不仅可以使用不同的语 言进行表达。如何建立普通文本到实体/关系之间的映射是一个关键问题。
  • 面向开放领域的语义分析。受标注语料的限制, 目前的很多语义分析研究都限于 某一特定领域。随着面向开放领域的知识库的构建及完善,如 Freebase 等,人工 大规模标注涉及各领域的语义表达式是个费时费力的过程。为此,需要探索基于半 监督或无监督的语义分析研究

Original: https://blog.csdn.net/u013250861/article/details/122415733
Author: u013250861
Title: 自然语言处理(NLP)语义分析:“词汇级”语义分析【词义消歧、词义表示和学习】、“句子级”语义分析【浅层语义分析(语义角色标注)、深层语义分析】

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/531638/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球