深度学习与自然语言处理教程(4) – 句法分析与依存解析（NLP通关指南·完结）

2023年5月30日下午6:34 • 人工智能 • 阅读 98

深度学习与自然语言处理教程(4) - 句法分析与依存解析（NLP通关指南·完结）

作者：韩信子@ShowMeAI
教程地址：https://www.showmeai.tech/tutorials/36
本文地址：https://www.showmeai.tech/article-detail/237
声明：版权所有，转载请联系平台与作者并注明出处
*收藏ShowMeAI 查看更多精彩内容

本系列为 斯坦福CS224n《自然语言处理与深度学习(Natural Language Processing with Deep Learning)》的全套学习笔记，对应的课程视频可以在这里; 查看。

ShowMeAI为CS224n课程的全部课件，做了 中文翻译和注释，并制作成了 GIF动图！点击 第5讲-句法分析与依存解析 查看的课件注释与带学解读。更多资料获取方式见文末。

概述

CS224n是顶级院校斯坦福出品的深度学习与自然语言处理方向专业课程，核心内容覆盖RNN、LSTM、CNN、transformer、bert、问答、摘要、文本生成、语言模型、阅读理解等前沿内容。

内容要点

Dependency Grammar
Dependency Structure
Neural Dependency Parsing
依存解析
依存句法
语法依赖

1.依存语法与依存结构

与编译器中的解析树类似，NLP中的解析树是用于分析句子的句法结构。使用的结构主要有两种类型—— 短语结构 和 依存结构。

短语结构文法使用短语结构语法将词组织成嵌套成分。后面的内容会展开对它做更详细的说明。我们现在关注依存语法。

句子的依存结构展示了单词依赖于另外一个单词 (修饰或者是参数)。词与词之间的二元非对称关系称为依存关系，描述为从 head (被修饰的主题) 用箭头指向 dependent (修饰语)。一般这些依存关系形成树结构，他们通常用语法关系的名称 (主体，介词宾语，同位语等)。

Bills on ports and immigration were submitted by Senator Brownback， Republican of Kansas. 依存树的例子如下图所示：

有时，在依存树的头部增加一个假的ROOT节点，这样每个单词都依存于唯一一个节点。

; 1.1 依存分析

依存语法是给定一个输入句子 S S S，分析句子的句法依存结构的任务。依存句法的输出是一棵依存语法树，其中输入句子的单词是通过依存关系的方式连接。

正式一点定义，依存语法问题就是创建一个输入句子的单词 S = w 0 w 1 ⋯ w n S=w_{0}w_{1} \cdots w_{n}S =w 0 w 1 ⋯w n (其中 w 0 w_{0}w 0 是 ROOT) 到它的依存语法树的映射图 G G G。最近几年提出了很多以依存句法为基础的的变体，包括基于神经网络的方法，我们将会在后面介绍。

确切地说，在依存语法中有两个子问题：

学习：给定用依赖语法图标注的句子的训练集D D D，创建一个可以用于解析新句子的解析模型M M M
解析：给定解析模型M M M 和句子S S S，根据M M M 得到S S S 的最优依存语法图

1.2 基于转移的依存分析

Transition-based 依存语法依赖于定义可能转换的状态机，以创建从输入句到依存句法树的映射。

「学习」问题是创建一个可以根据转移历史来预测状态机中的下一个转换的模型。
「解析」问题是使用在学习问题中得到的模型对输入句子构建一个 最优的转移序列。

大多数 Transition-based 系统不会使用正式的语法。

1.3 Greedy Deterministic Transition-Based Parsing

这个系统是由 Nivre 在 2003 年提出，与当时的常用方法截然不同。

这个转换系统是一个状态机，它由状态和这些状态之间的转换组成。该模型导出了从初始状态到几种终端状态之一的一系列转换。

1) 状态

对任意句子 S = w 0 w 1 ⋯ w n S=w_{0}w_{1} \cdots w_{n}S =w 0 w 1 ⋯w n ，一个状态可以描述为一个三元组 c = ( σ , β , A ) c=(\sigma, \beta,A)c =(σ,β,A )：

① 来自 S S S 的单词 w i w_{i}w i 的堆 σ \sigma σ
② 来自 S S S 的单词 w i w_{i}w i 的缓冲区 β \beta β
③ 一组形式为 ( w i , r , w j ) (w_{i},r,w_{j})(w i ,r ,w j ) 的依存弧，其中 w i , w j w_{i},w_{j}w i ,w j 是来自 S S S，和 r r r 描述依存关系。

因此，对于任意句子 S = w 0 w 1 ⋯ w n S=w_{0}w_{1} \cdots w_{n}S =w 0 w 1 ⋯w n ：

① 一个形式为 ( [ w 0 ] σ , [ w 1 , ⋯ , w n ] β , ∅ ) ([w_{0}]{\sigma},[w{1}, \cdots ,w_{n}]{\beta},\varnothing)([w 0 ]σ,[w 1 ,⋯,w n ]β,∅) 的初始状态 c 0 c{0}c 0 (现在只有 ROOT 在堆 σ \sigma σ 中，没有被选择的单词都在缓冲区 β \beta β 中。
② 一个形式为 ( σ , [ ] β , A ) (\sigma,[]_{\beta},A)(σ,[]β,A ) 的终点状态。

2) 转移

在状态之间有三种不同类型的转移：

① S H I F T SHIFT S H I FT：移除在缓冲区的第一个单词，然后将其放在堆的顶部 (前提条件：缓冲区不能为空)。
② L e f t – A r c r Left\text{-}Arc_{r}L e f t -A r c r ：向依存弧集合 A A A 中加入一个依存弧 ( w j , r , w i ) (w_{j},r,w_{i})(w j ,r ,w i )，其中 w i w_{i}w i 是堆顶的第二个单词， w j w_{j}w j 是堆顶部的单词。从栈中移除 w i w_{i}w i (前提条件：堆必须包含两个单词以及 w i w_{i}w i 不是 ROOT )
③ R i g h t – A r c r Right\text{-}Arc_{r}R i g h t -A r c r ：向依存弧集合 A A A 中加入一个依存弧 ( w i , r , w j ) (w_{i},r,w_{j})(w i ,r ,w j )，其中 w i w_{i}w i 是堆顶的第二个单词， w j w_{j}w j 是堆顶部的单词。从栈中移除 w j w_{j}w j (前提条件：堆必须包含两个单词)

下图给出了这三个转换的更正式的定义：

; 1.4 神经网络依存解析器

虽然依赖项解析有很多深层模型，这部分特别侧重于贪心，基于转移的神经网络依存语法解析器。与传统的基于特征的判别依存语法解析器相比，神经网络依存语法解析器性能和效果更好。与以前模型的主要区别在于这类模型依赖稠密而不是稀疏的特征表示。

我们将要描述的模型采用上一部分中讲述的标准依存弧转换系统。最终，模型的目标是预测从一些初始状态 c c c 到一个终点状态的转换序列，对模型中的依存语法树进行编码的。

由于模型是贪心的，它基于从当前的状态 c = ( σ , β , A ) c=(\sigma, \beta, A)c =(σ,β,A ) 提取特征，然后尝试一次正确地预测一次转移 T ∈ { S H I F T , L e f t – A r c r , R i g h t – A r c r } T\in {SHIFT, Left\text{-}Arc_{r},Right\text{-}Arc_{r}}T ∈{S H I FT ,L e f t -A r c r ,R i g h t -A r c r }。回想一下， σ \sigma σ 是栈，β \beta β 是缓存， A A A 是对于一个给定的句子的依赖弧的集合。

1) 特征选择

根据该模型所需的复杂性，定义神经网络的输入是灵活的。对给定句子 S S S 的特征包含一些子集：

① S w o r d S_{word}S w or d ：在堆 σ \sigma σ 的顶部和缓冲区 β \beta β 的 S S S 中一些单词的词向量 (和它们的依存)。
② S t a g S_{tag}S t a g ：在 S S S 中一些单词的词性标注 ( POS )。词性标注是由一个离散集合组成：P = { N N , N N P , N N S , D T , J J , ⋯ } \mathcal{P}={NN,NNP,NNS,DT,JJ, \cdots }P ={NN ,NNP ,NNS ,D T ,JJ ,⋯}。
③ S l a b e l S_{label}S l ab e l ：在 S S S 中一些单词的依存标签。依存标签是由一个依存关系的离散集合组成：L = { a m o d , t m o d , n s u b j , c s u b j , d o b j , ⋯ } \mathcal{L}={amod,tmod,nsubj,csubj,dobj, \cdots }L ={am o d ,t m o d ,n s u bj ,cs u bj ,d o bj ,⋯}。

对每种特征类型，我们都有一个对应的将特征的 one-hot 编码映射到一个 d d d 维的稠密的向量表示的嵌入矩阵。

S w o r d S_{word}S w or d 的完全嵌入矩阵是 E w ∈ R d × N w E^{w}\in \mathbb{R}^{d\times N_{w}}E w ∈R d ×N w ，其中 N w N_{w}N w 是字典/词汇表的大小。
POS 和依存标签的嵌入矩阵分别为 E t ∈ R d × N t E^{t}\in \mathbb{R}^{d\times N_{t}}E t ∈R d ×N t 和 E l ∈ R d × N l E^{l}\in \mathbb{R}^{d\times N_{l}}E l ∈R d ×N l ，其中 N t N_{t}N t 和 N l N_{l}N l 分别为不同词性标注和依存标签的个数。

最后，定义从每组特征中选出的元素的数量分别为 n w o r d n_{word}n w or d ，n t a g n_{tag}n t a g ，n l a b e l n_{label}n l ab e l 。

2) 特征选择的例子

作为一个例子，考虑一下对 S w o r d S_{word}S w or d ，S t a g S_{tag}S t a g 和 S l a b e l S_{label}S l ab e l 的选择：

① S w o r d S_{word}S w or d ：在堆和缓冲区的前三个单词：s 1 , s 2 , s 3 , b 1 , b 2 , b 3 s_{1},s_{2},s_{3},b_{1},b_{2},b_{3}s 1 ,s 2 ,s 3 ,b 1 ,b 2 ,b 3 。栈顶部两个单词的第一个和第二个的 leftmost / rightmost 的子单词：l c 1 ( s i ) , r c 1 ( s i ) , l c 2 ( s i ) , r c 2 ( s i ) , i = 1 , 2 lc_{1}(s_{i}),rc_{1}(s_{i}),lc_{2}(s_{i}),rc_{2}(s_{i}),i=1,2 l c 1 (s i ),r c 1 (s i ),l c 2 (s i ),r c 2 (s i ),i =1 ,2。栈顶部两个单词的第一个和第二个的 leftmost of leftmost / rightmost of rightmost 的子单词：l c 1 ( l c 1 ( s i ) ) , r c 1 ( r c 1 ( s i ) ) , i = 1 , 2 lc_{1}(lc_{1}(s_{i})),rc_{1}(rc_{1}(s_{i})),i=1,2 l c 1 (l c 1 (s i )),r c 1 (r c 1 (s i )),i =1 ,2。S w o r d S_{word}S w or d 总共含有 n w o r d = 18 n_{word}=18 n w or d =18 个元素。
② S t a g S_{tag}S t a g ：相应的词性标注，则 S t a g S_{tag}S t a g 含有 n t a g = 18 n_{tag}=18 n t a g =18 个元素。
③ S l a b e l S_{label}S l ab e l ：单词的对应的依存标签，不包括堆/缓冲区上的 6 6 6 个单词，因此 S l a b e l S_{label}S l ab e l 含有 n l a b e l = 12 n_{label}=12 n l ab e l =12 个元素。

注意我们使用一个特殊的 N U L L NULL N ULL 表示不存在的元素：当堆和缓冲区为空或者还没有指定依存关系时。

对一个给定句子例子，我们按照上述的方法选择单词，词性标注和依存标签，从嵌入矩阵 E w , E t , E l E^{w},E^{t},E^{l}E w ,E t ,E l 中提取它们对应的稠密的特征的表示，然后将这些向量连接起来作为输入 [ x w , x t , x l ] [x^{w},x^{t},x^{l}][x w ,x t ,x l ]。

在训练阶段，我们反向传播到稠密的向量表示，以及后面各层的参数。

3) 前馈神经网络模型

（关于前馈神经网络的内容也可以参考ShowMeAI的对吴恩达老师课程的总结文章深度学习教程 | 神经网络基础，深度学习教程 | 浅层神经网络和深度学习教程 | 深层神经网络）

这个神经网络包含一个输入层 [ x w , x t , x l ] [x^{w},x^{t},x^{l}][x w ,x t ,x l ]，一个隐藏层，以及具有交叉熵损失函数的最终 softmax 层。

我们可以在隐藏层中定义单个权值矩阵，与 [ x w , x t , x l ] [x^{w},x^{t},x^{l}][x w ,x t ,x l ] 进行运算，我们可以使用三个权值矩阵 [ W 1 w , W 1 t , W 1 l ] [W^{w}{1},W^{t}{1},W^{l}_{1}][W 1 w ,W 1 t ,W 1 l ]，每个矩阵对应着相应的输入类型，如下图所示。

然后我们应用一个非线性函数并使用一个额外的仿射层 [ W 2 ] [W_{2}][W 2 ]，使得对于可能的转移次数 (输出维度) ，有相同数量的 softmax 概率。

Softmax layer：p = softmax ⁡ ( W 2 h ) p=\operatorname{softmax}\left(W_{2} h\right)p =softmax (W 2 h )
Hidden layer：h = ( W 1 w x w + W 1 t x t + W 1 l x l + b 1 ) 3 h=\left(W_{1}^{w} x^{w}+W_{1}^{t} x^{t}+W_{1}^{l} x^{l}+b_{1}\right)^{3}h =(W 1 w x w +W 1 t x t +W 1 l x l +b 1 )3
Input layer：[ x w , x t , x l ] \left[x^{w}, x^{t}, x^{l}\right][x w ,x t ,x l ]

注意在上图中，使用的非线性函数是 f ( x ) = x 3 f(x)=x^{3}f (x )=x 3。

有关 greedy transition-based 神经网络依存语法解析器的更完整的解释，请参考论文：[A Fast and Accurate Dependency Parser using Neural Networks](https://cs.stanford.edu/~danqi/papers/emnlp2014.pdf)。

; 2.参考资料

ShowMeAI 深度学习与自然语言处理教程（完整版）

ShowMeAI 斯坦福NLP名课 CS224n带学详解（20讲·完整版）

Original: https://blog.csdn.net/ShowMeAI/article/details/124563172
Author: ShowMeAI
Title: 深度学习与自然语言处理教程(4) – 句法分析与依存解析（NLP通关指南·完结）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/544529/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

如何进行探索性数据分析

一般数据分析项目第一步都需要探索性数据分析。主要包括三个方面：使用描述性统计汇总数据使用图标可视化数据识别缺失值通过上述三个方面分析，可以在执行假设检验或统计模型之前对数据…

人工智能 2023年6月11日
00179
记一次调试YOLOv5+DeepSort车辆跟踪项目的经过

摘要：学习别人的开源项目是日常的一项必备技能，本文通过一个车辆跟踪（YOLOv5+DeepSort）的例子介绍如何配置和调试GitHub上的开源代码。以第一人称的视角给出本人调试代…

人工智能 2023年6月4日
0071
打通tensorflow版Unet_v1代码

目录知识积累：代码调试：构建Unet网络： 1.Conv2D ModelCheckpoint model.fit() 代码 data.py unet.py 运行…

人工智能 2023年5月23日
00115
FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection

Paper name FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection Paper Readi…

人工智能 2023年6月17日
0073
使用Python生成直方图

引言你想知道如何在Python中生成直方图吗？在本教程中，我将向大家展示如何做到这一点。数值数据的分布可以用直方图表示。直方图是数据的一种可视化表示，它使用不同高度的条形图，其…

人工智能 2023年6月29日
0056
（二十四）【2021 ACL】OntoED: Low-resource Event Detection with Ontology Embedding

题目： OntoED: Low-resource Event Detection with Ontology Embedding论文链接： https://arxiv.org/ab…

人工智能 2023年6月10日
0084
4、docker 容器保存加载和退出

1、容器保存为镜像文件 docker commit将容器提交为镜像。容器本身只是内存对象，容器关闭后，里面的内容不保存。所以，要保存容器内配置，需将容器存为镜像文件，需要的时候再加…

人工智能 2023年6月24日
00107
YOLOX-目标检测算法（代码解读）

YOLOX简洁且高效，分享具体实现过程。部分代码可以迁移，很具有参考价值。测试比较简单，首先看demo.py。 -运行需要指定三个参数：–path：测试图片路径–exp_file…

人工智能 2023年6月17日
00130
Yolov5 网络结构

yolov5 的网络结构 yolov5 的网络结构的配置文件在models文件夹下，有yolov5n.yaml, yolov5s.yaml, yolov5m.yaml等等。几个网络…

人工智能 2023年7月10日
0049
windows下CUDA的卸载以及安装

一、缘由对于CUDA新手来说，安装问题里面有很多需要注意的细节，很多自定义的选项，如果漏选就会出现一些莫名奇妙的问题。为此，会经常出现卸载CUDA，再安装CUDA的问题，下面总结…

人工智能 2023年6月16日
0078
神经网络的梯度下降公式推导及代码实现

1. 神经网络结构以 2-Layers-Neural Network 为例，其结构如下。该神经网络有两层，仅有一层为隐藏层。输入相应的数据X = { X 1 , X 2 , ⋯ …

人工智能 2023年7月14日
0092
365天深度学习训练营-第P1周：实现mnist手写数字识别

🍨 本文为🔗365天深度学习训练营内部限免文章（版权归 K同学啊所有） 🍦 参考文章地址： 🔗第P1周：实现mnist手写数字识别 | 365天深度学习训练营 🍖 作者：K同学…

人工智能 2023年6月30日
00105
python聚类分析如何确定分类个数_确定聚类分析中的类别个数的方法

1、gap statistic 以k-means聚类为例，对于一个聚类个数k，首先利用k-means聚类将样本聚成k类，然后计算k类中各类内各点与类中心的距离加和W(ki)，进而计…

人工智能 2023年6月3日
0090
回归 Evaluation Metrics

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月18日
0052
机器学习：贝叶斯网络

一、什么是贝叶斯网络？贝叶斯网络是一种用于进行概率推理的模型。（比如说下面这个图，箭头表示因果关系，也就是强盗抢劫和地震都会引起房子铃响，如果房子铃响，那么这个人的两个邻居Joh…

人工智能 2023年6月15日
0079
多模态融合论文阅读笔记

文章目录前言一、Richpedia: A Comprehensive Multi-modal Knowledge Graph * 1.整体构造方法 2.发现实体之间关系的方法 …

人工智能 2023年6月1日
0071

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31