论文阅读之Syntax Encoding with Application in Authorship Attribution（2018）

2023年10月10日上午12:17 • Python • 阅读 28

文章目录

摘要
引言
Syntax Encoding
实验结果
参考

摘要

论文阅读之Syntax Encoding with Application in Authorship Attribution（2018）

我们提出了一种新的策略，将句子的语法分析树编码为可学习的分布式表示。所提出的语法编码方案是可证明的信息无损的。具体而言，为句子中的每个单词构建嵌入向量，对语法树中与该单词对应的路径进行编码。这些”语法嵌入”向量与句子中的单词（因此它们的嵌入向量）之间的一一对应使得将这种表示与所有单词级NLP模型相结合变得容易。我们通过经验展示了作者归属域上语法嵌入的好处，其中我们的方法改进了现有技术，并在五个基准数据集上实现了新的性能记录。

这篇文章提出一种语法树的编码方式，能够几乎无损地编码语法树。

; 引言

（节选）

迄今为止，利用句法信息的现有方法可分为两类。第一类可以被视为”句法特征工程”。在这种方法中，从句子的语法分析树中提取某些属性或统计信息作为语法特征。例如，提取的特征可能包括树的深度、树中某些结构模式的频率等（Massung等人，2013；Wang等人，2015）。这种方法的优点是，如果特征被认为与分类任务相关，则提取的特征可以用于任何类型的分类器。然而，这种方法的局限性在于语法树中包含的丰富结构信息在特征提取过程中丢失。此外，使用这种策略，模型设计者通常需要设计特定于其任务的语法特征提取器。

第二类可被视为”语法辅助句子编码”。这类方法基于神经网络模型。此类方法的示例包括TreeSTM（Tai等人，2015；Zhu等人，2015b）和递归神经网络（Socher等人，2011），其中网络根据输入句子的语法树进行结构化。经过训练后，网络能够以自下而上的方式将单词嵌入序列编码为表示整个句子的向量。值得注意的是，在这些方法中，编码的特征向量虽然包含语法信息，但主要用作输入句子的语义表示，其中利用的语法信息主要用于辅助语义表示。此外，这种方法不够灵活，无法与另一类流行的NLP模型CNN集成。

文章先分析了之前对利用句法树地方式，第一种类似特征工程，计算出句法树地一些统计特征如句法树地深度等进行分析，第二种就是结构性建模如使用Tree-LSTM将句法树自下而上编码，最终将句法信息融入到句子中，虽然使用了结构，但是其实可能结构信息并不完整，并且也不够灵活，不能与CNN等集成。

Syntax Encoding

几十年来，包括句法分析信息在内的有益于NLP模型的研究一直很活跃。句法特征工程是指从给定文本的句法分析树中静态提取特定领域特征的努力（Massung等人，2013；Wang等人，2015）。最近的尝试还包括利用句法分析树结构自下而上递归生成句子表示（Socher等人，2011；Zhu等人，2015b；Tai等人，2015；Zhu等，2015a）。

上述两类方法都有严重的局限性。前者的解析表示通常无法对解析树结构进行编码，而后者受到解析器所青睐的树结构的约束。此外，最近的分布式单词嵌入技术，如Glove（Pennington等人，2014）和W2V（Mikolov等人，2013），已被证明对给定语料库的有限语法知识进行编码（Andreas和Klein，2014）。这一缺点也促进了最近关于创建语法感知单词嵌入的研究，该研究利用单词在其周围上下文中的位置信息增强了分布式嵌入向量（Cheng和Kartsaklis，2015），这再次编码了有限的语法信息。

我们的语法嵌入方法克服了上面提到的限制。

嗯看不太懂，接下来我们就看看他到底怎么进行句法树编码的。

给定句子的句法结构可以由一棵树唯一地表示，我们称之为句法树。图1给出了这样一个语法树的示例。如示例所示，语法树具有标记节点。具体来说，每个节点的标签是一个”语法标记”，如S、NP、VP等，表示节点下树枝覆盖的单词序列的语法属性。例如，树的根总是用S（”句子”）标记，树下的树枝覆盖了整个句子。另一方面，树的末端或叶子的标签，如EX、VBP、JJ等，对应于该句子中每个单词的”词性”标签。我们将用T表示所有语法标记的集合。

给定句子s的这种句法树结构，句子s中的每个单词w在树中都有一条唯一的路径，离开词根到达终点。

然后，单词w的这种”语法路径”可以由路径上的一系列节点标签表示。表1给出了语法路径的一些示例。下面的引理很容易验证。

s表示一个句子，w表示一个单词。
每句话中，每个单词的句法树路径是唯一的。

引理1：
让一个句子s写成一系列单词（w1，w2，…，wn）。为每个单词位置i=1，2，…，n，设r（wi）表示单词wi的语法路径。设R:={（i，R（wi））：i=1，2，…，n}是一个（无序）集合，精确地包含s中单词的所有语法路径。

在引理中，我们注意到R是一个无序集合。也就是说，无论R中路径的顺序如何，都可以从R中恢复语法树。

令 r(w) 为单词 w 在感兴趣的句子 s 中的句法路径。具体来说，r(w)可以写成序列(t1,t2,…,tL)，其中L是路径r中的节点数，每个ti是一个句法记号。

这里无序就是说其实每个元组已经包含了单词位置以及路径信息，每个元组之间的顺序是不影响结果的。
r(wi)表示的是单词i的句法路径。
例如以上面那颗句法树为例

让欧几里得空间RK是我们将用于编码语法的嵌入空间。现在，我们描述一种将路径r（w）编码为向量r（w）的方法。

只要K足够大，上述编码句法树的方法将会是无损的。

然而，我们注意到，在实践中，当学习到标记嵌入和位置（整数）嵌入时，不再保证可以从其嵌入中恢复语法路径。对于受监督的任务尤其如此。在此类任务的训练过程中，与训练目标无关的信息必然被”挤出”，那些不提供区分特征的语法路径的表示被”拉近”。这将导致这些路径与其嵌入不可区分（因此不可恢复）。这也是在实践中不需要非常大的嵌入维度 K 的原因。

尽管如此，由于不同的监督任务可能具有不同的训练目标，因此适用于一项任务的”有损”语法编码可能对其他任务无效。因此，正如我们在本文中提出的那样，采用一种普遍适用的信息无损编码框架仍然是必不可少的。

在实战中，K其实不需要很大，但无损确实有必要，因为不同的任务需要保留的句法结构不同。

; 实验结果

主要是看这篇文章的句法树编码了，CNN应该好懂。

只是可惜这文章代码没开源…

参考

Syntax Encoding with Application in Authorship Attribution

Original: https://blog.csdn.net/qq_52785473/article/details/128099438
Author: Icy Hunter
Title: 论文阅读之Syntax Encoding with Application in Authorship Attribution（2018）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/795105/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

flask_migrate解决数据库迁移冲突

当多人数据库迁移，会出现migration版本冲突。以下是解决办法 1.保存本地修改 git stash save ‘c1’ 2.拉取最新代码 git pu…

Python 2023年6月3日
0079
python快速实现简易超级玛丽小游戏

《超级玛丽》是一款超级马里奥全明星的同人作品，也是任天堂公司出品的著名横版游戏。《超级马里奥》是一款经典的像素冒险过关游戏。最早在红白机上推出，有多款后续作品，迄今多个版本合共销…

Python 2023年9月19日
0064
7天限时 | 机器学习资料(书籍+视频)推荐与分享！

还不快开始学习机器学习？机器学习是一门多领域的交叉学科，涉及概率论、统计学、凸分析、算法复杂性理论等多个学科。它专门研究计算机如何模拟或实现人类的学习行为，以获得新的知识或技能…

Python 2023年5月24日
0080
超详细的 pytest 教程（一）使用入门篇

前言 pytest到目前为止还没有翻译的比较好全面的使用文档，很多英文不太好的小伙伴，在学习时看英文文档还是很吃力。本来去年就计划写pytest详细的使用文档的，由于时间关系一直搁…

Python 2023年9月11日
0042
python测试框架–＞pytest结合数据驱动-excel（六）

1、数据驱动的含义数据驱动就是数据的改变从而驱动自动化测试的执行，最终引起测试结果的改变。简单来说，就是参数化的应用。数据量小的测试用例可以使用代码的参数化来实现数据驱动，数据量…

Python 2023年9月9日
0059
Pytest学习笔记（7）-参数化

文章目录 * – 参数化 – + 前言 + Pytest参数化的方式 + @pytest.mark.parametrize实现参数化 + * 装饰测试类 *…

Python 2023年9月12日
0078
字典和dataFrame的相互转换

字典和dataFrame的相互转换一、字典转dataFrame 1、字典转dataFrame比较简单，直接给出示例： import pandas as pd dic = { ‘n…

Python 2023年8月1日
0047
页面静态化

网站的首页频繁被访问，为了提升访问速度，除了我们之前已经学过的使用缓存技术外，还可以使用页面静态化技术。页面静态化即将动态渲染生成的页面结果保存成html文件，放到静态文件服务器…

Python 2023年6月11日
0070
python矩阵乘法运算

一、矩阵乘法矩阵乘法为 A@B 或 np.dot(A,B) ，若为对应元素相乘则用 A*B 或 np.multiply(A,B) 。 1. A@B 和 np.dot(A,B) A…

Python 2023年8月1日
0056
用PyGame实现贪吃蛇游戏

准备工作配置环境使用 Anaconda配置新环境。通用代码为： conda create -n 新建环境名字 python==3.X 我写的代码是 conda create -…

Python 2023年9月19日
0050
Image Super-Resolution via Iterative Refinement 论文解读和感想

随着20年DDPM的提出，近两年提出了大量基于Denoising Diffusion的图像处理模型，本文便是谷歌在21年 CVPR提出的基于Denoising Diffusion的…

Python 2023年9月30日
0053
数据分析-pandas（dataframe）

DataFrame选取列 data={‘Name’:[‘关羽’,’刘备’,’张飞’,’曹操’],’Age’:[28,34,29,42]} index=["rank1&qu…

Python 2023年8月7日
0048
最新IDEA配置Maven指南（适用于2022及以下版本）

2023年更新——IDEA2022配置Maven一次包过教程前言 Maven是当今Java开发中主流的依赖管理工具，那么小伙伴们在刚开始学习的时候呢，IDEA配置Maven肯定会…

Python 2023年9月26日
00273
爬虫常说的君子协议是什么?

我们常常说 robots.txt 协议防君子不防小人。robots.txt 协议防什么样的君子，又防不了什么样的小人呢？就听我给你一一道来。首先我们需要了解爬虫常说的君子协议是什…

Python 2023年6月10日
0065
Python—-抽象类的使用方法和使用场景

推荐文章很多小伙伴都发现了，用户自主「申请上首页」的按钮取消了，那博主们写的文章还有上首页曝光的机会吗？我们的回答是”当然有！！！”虽然我们取消了上首页申…

Python 2023年5月24日
00116
python爬虫url去重_python学习：python爬虫之Scrapy框架（2）：请求队列，页面持久化，url去重，Cookie…

Scrapy框架 scrapy框架学习进阶：这里接scrapy框架(1)的内容， 1、使用Request将新的请求加入请求队列; 2、使用pipline和item对返回页面信息持…

Python 2023年10月4日
0044

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

论文阅读之Syntax Encoding with Application in Authorship Attribution（2018）

文章目录

摘要

; 引言

Syntax Encoding

; 实验结果

参考

大家都在看