《自然语言处理简明教程》读书笔记:第一章 自然语言处理与理论语言学

目录

第一章 自然语言处理与理论语言学

第一,语言符号的层次性。

第二,语言符号的非单元性。

第三,语言符号的离散性。

第四,语言符号的递归性。

第五,语言符号的随机性。

第六,语言符号的冗余性。

第七,语言符号的模糊性。

第一章 自然语言处理与理论语言学

我们认为,计算机对自然语言的研究和处理,一般应经过如下四个方面的过程:

第一,把需要研究的问题在语言学商加以形式化,建立语言的形式化模型,使之能以一定的数学形式,严密而规整地表示出来,这个过程可以叫做”形式化”;

第二,把这种严密而规整的数学形式表示为算法,这个过程可以叫做”算法化”;

第三,根据算法编写计算机程序,使之在计算机上加以实现,建立各种实用的自然语言处理系统,这个过程可以叫做”程序化”;

第四,对于所建立的自然语言处理系统进行评测,使之不断地改进质量和性能,以满足用户的要求,这个过程可以叫做”实用化”。

因此,为了研究自然语言处理,我们不仅要有语言学方面的知识,还要有数学和计算机科学方面的知识,这样自然语言处理就成为了一门介乎语言学、数学和计算机科学之间的边缘性的交叉学科,它同时涉及文科、理科和工科三大领域。

自然语言处理的出现,使得语言学在现代科学体系中的地位有了明显的变化,使语言学由一门基础科学变成了带头科学,获得了与数学、哲学同等的地位,语言学将成为人文科学发展的突破点和生长点,它的重要意义已经为越来越多的人所认识。

自然语言处理的研究与计算语言学的研究是密不可分的,计算语言学可以看成是自然语言处理的同义词,当我们主要涉及方法的时候,用”自然语言处理”这个术语,当我们主要涉及理论的时候,用”计算语言学”这个术语。

在实际应用的驱动下,自然语言处理技术不断与各种新技术相结合,开发出越来越多的实用技术。

自然语言处理有着明确的应用目标,语音合成、语音识别、信息检索、信息抽取、文本分类、文本数据挖掘、自动文摘、机器翻译等,都是自然语言处理的重要应用领域。由于现实的自然语言极为复杂,不可能直接作为计算机的处理对象,为了使现实的自然语言成为可以由计算机直接处理的对象,在这众多的应用领域中,我们都需要根据处理的要求,把自然语言处理抽象成一个”问题”,再把这个问题在语言学上加以”形式化”,建立语言的”形式模型”,使之能以一定的数学形式,严密而规整地表示出来,并且把这种严密而规整地数学形式表示为”算法”,建立自然语言处理地”计算模型”,使之能够在计算机上实现。 在自然语言处理中,算法取决于形式模型,形式模型是自然语言计算机处理的本质,而算法只不过是实现形式模型的手段而已。

随着自然语言处理研究的发展,一系列的形式模型开始建立起来。这些形式模型大致可以归纳为如下几种:

1.基于短语结构语法的形式模型;

2.基于合一运算的形式模型;

3.基于依存和配价的形式模型;

4.基于格语法的形式模型;

5.基于词汇主义的形式模型;

6.基于概率和统计的形式模型;

7.语义自动处理的形式模型;

8.语用自动处理的形式模型。

自然语言处理还对传统的形态学提出了新问题。在机器翻译和人机对话的研究中,都要对单词进行形态分析,这就促进了形态学的研究。

针对自然语言处理的形态学研究主要解决两个问题:词例还原和词目还原。

“词例”是文本中独立的词汇单元。所谓”词例还原”,就是自动地把句子中地单词作为独立的词例切分出来。英语文本中的单词一般是界限分明的,单词与单词之间存在空白,单词的切分不像汉语书面文本那样困难。单词,汉语书面文本是不分词的,词与词之间的界限被淹没在连续的汉字文本之中,汉语书面文本的”自动切词”成为了汉语自然语言处理的一个瓶颈问题。

词目还原的目的是把文本中实际存在的变形词还原成原形词,以便让计算机查词典。

传统的形态学研究都要区分屈折和派生。如英语的amend/amended是屈折,amend/amendment是派生,前者作为词形变化看待,后者作为构词法问题看待。然而,对于计算机来说,也可以不作这样的区分。一个自动形态分析方案可包括一部词干词典和一套描述词形变化和构词的规则系统,其中既有派生,也有屈折。这样,在分析时,给出词干,计算机就可以自动地列举出它的所有的变化形态,而给出一个变化形式,计算机就可以自动地把它切分为词干、词缀和词尾。

汉语书面文本的形态分析,主要是”自动切词”和”自动标注”。这些问题至今还没有很好解决。

近年来,由于语义学与句法学的联系日趋密切,逻辑语法有了很大的发展。逻辑语法时指用谓词逻辑来表达的语法,它是逻辑程序设计和自然语言处理相结合的产物。

语言在实际使用时,总是以篇章或话语的形式出现的,省略和指代以及单词和句子的歧义问题一般要在上下文背景之下才能解决,而要在字里行间找出说话者的真正目的,则需要根据广泛的关于客观世界的知识和其他信息才有可能知其端倪。因此,自然语言处理中还出现了一些关于篇章处理和话语分析的理论和方法,如脚本、规划、故事语法、故事树等。

近年来,互联网的发展日新月异,也对于自然语言处理提出了新的挑战。与互联网有关的自然语言处理的问题有很多,除了机器翻译之外,还有基于网络的问答系统。这种基于网络的问答系统是简单的网络搜索的进一步发展,在基于网络的问答系统中,用户不只是仅仅键入关键词进行提问,而是可以用自然语言提出一系列完整的问题,从容易的问题到困难的问题都可以提。

在这些问题中,有的问题只要求回答定义,有的问题只要求回答诸如日期、地点等简单的新闻要素,对于这样的问题,使用搜索引擎就可以回答了。但是对于需要抽取嵌入在网页的其他文本中的信息才能回答的那些更加复杂的问题,就要进行推理,也就是根据已经知道的事实推出结论,或者从多重的信息源或网页中对信息进行综合或摘取。这就涉及到信息抽取、文本数据挖掘等问题。

在自然语言处理的推动下,文字学研究开始同图像识别的方法结合起来。因为文字也是一种图像,图像识别中采用的许多方法,如图像识别的句法分析方法,也可用到文字识别中去。

这里我(作者)列举出当前自然语言处理的一些应用项目,由此可以看出这个学科近期发展对于社会进步的重要作用。

1.自动生成天气预报;

2.自动翻译和自动问答;

3.饭馆咨询服务;

4.图像到语音的自动转换;

5.残疾人增强交际;

6.旅行咨询服务;

7.语音地理导航;

8.语音资料搜索;

9.跨语言信息检索和翻译;

10.作文自动评分;

11.自动阅读家庭教师;

12.个性化市场服务。

语言符号除了索绪尔所指出的那两个不尽完善的特点之外,还有着如下七个十分引人注目的特点。

第一,语言符号的层次性。

语言符号并不是线条性的东西,而是立体性的东西。所谓立体性,就是说,语言符号是具有分层结构,即层次性。

语言符号的层次性,在句子结构方面表现得特别明显。

《自然语言处理简明教程》读书笔记:第一章 自然语言处理与理论语言学

《自然语言处理简明教程》读书笔记:第一章 自然语言处理与理论语言学

《自然语言处理简明教程》读书笔记:第一章 自然语言处理与理论语言学

3.A和B中各个词之间的层次结构相同。

在自然语言处理中,常采用树形图来表示语言符号的层次关系。自然语言处理的理论认为,任何一个句子的线性序列的表层之下,都隐藏着一个层次分明的树形图。当一个句子的线性序列之下隐藏着两个或两个以上的树形图时,这个句子就会产生歧义,就会得到不同的解释。

树形图由结点和连接点的枝组成。树形图的各个结点之间,有两种关系值得注意:一种是支配关系,它反映了上下结点之间的先辈和后裔的关系,一种是前于关系,它反映了左右结点之间前位和后位的关系。语言符号的线条性只反映了前于关系,而没有反映支配关系,当然就有很大的局限。

自然语言处理的发展,进一步加深了我们对与语言符号的层次性的认识。

第二,语言符号的非单元性。

基于对语言符号的层次性认识的基础之上的短语结构语法,在机器翻译和自然语言处理的研究中很快就暴露了它的不少缺陷。这种语法分析能力不高,分析时难于处理歧义等自然语言中普遍存在的问题;这种语法生成能力过强,往往会生成许多歧义的句子或不合语法的句子。后来,自然语言处理研究者发现,引起这些缺陷的症结在于,短语结构语法是采用单标记来描述语言符号的,它把语言符号看成是不可分割的原子式的单元;如果把语言符号看成是可以分割的非单元性的东西,采用多标记函数或者复杂特征来描述,便可以从根本上客服短语结构语法的上述缺陷,大大地改善短语结构语法的功能,提高它过弱的分析能力,限制它过强的生成能力。这样,便提出了语言符号的非单元性问题。

物理学中关于物质具有粒子结构的观点,音位学中关于音位由十二对基本的区别特征组合而成的观点,自然语言处理中关于语言符号由多个标记组合而成的观点,它们之间是何等的相似!客观世界中存在着的这种相似现象,说明了这些现象之间是有内在联系的,认识事物之间的这种相似性,可以增进我们进行科学研究的才干,提高研究工作的自觉性和目的性。

自然语言处理的理论和实践,加深了我们对于语言符号的非单元性的认识。

自然语言处理还提出了非单元性的这种”复杂特征”进行运算的数学方法——”合一”运算,从而使我们对于语言符号非单元性的认识可以在计算机上进行实际的操作和演算。这种合一运算,并不完全服从于传统的集合论的运算。集合运算一般并不考虑运算对象的相容性,而合一运算则必须考虑运算对象的相容性。合一运算具有两种作用:

1.合并原有的特征信息,构造新的特征结构,这与集合论中的”求并”运算类似。

2.检查特征的相容性合规则执行的前提条件,如果参与合一的特征相冲突,就立即宣布合一失败。

合一运算提供了一种在合并各方面来的特征信息的同时,检验限制条件的机制。这正是非单元性的语言符号在计算机上运算时所需要的。所以,自然语言处理不仅在理论上证明了语言符号确实具有非单元性,而且还在实践上使这种非单元性获得了在计算机上进行运算的可能性。

第三,语言符号的离散性。

我们平时说话时的语流似乎使连续不断的,但在实际上,这些连续不断的语流却是由许多离散的单元所组成的。在水平方向上,语流可以被分解成若干段落,一个段落又可以被分解成若干句子,一个句子又可以被分解为若干短语,一个短语又可以被分解成若干单词,一个单词又可以被分解为若干语素,一个语素又可以被分解为若干音节,一个音节又是由若干个元音合辅音音位组合而成的。在竖直方向上,语流中的各个成分又可引起联想,引出与之属于同一聚类的若干个离散单元来。所以,在连续语流的水平方向合竖直方向上,实际上都是与若干个不同的离散单元联系着的。

语言符号的这种离散性,在语流的停延时表现得特别明显,人们往往可以利用语流停延的这种离散性质,来区别语流的不同含义。

“离散性”和”连续性”都是语言符号本身所具有的性质,不过,在语言的使用的交际过程中,我们强调语言符号的连续性,用连续数据的方法来研究它,在语言结构的分析中,我们强调语言符号的离散性,用离散数学的方法来研究它,而语言本身则是离散性和连续性的统一体。

第四,语言符号的递归性。

语言的句子是无穷无尽的,而语法规则却是有限的,人们之所以能够借助于有限的语法规则,造出无穷无尽的句子来,其原因就在于语言符号具有递归性。

在自然语言处理的研究中,语言符号的递归性起着很大的作用。机器翻译的实质,就是把源语言中无限数目的句子,通过有限的规则,自动地转换为目标语言中无限数目的句子。

语言是有限手段的无限运用。

第五,语言符号的随机性。

在言语(或语言运用)中,当我们用用语言来进行交际活动的时候,有的语言成分使用得多一些,有的语言成分使用得少一些,各个语言成分的使用并不是完全确定的,这种不确定性,就是语言符号的随机性。我们在学习语言时常常感到语言规则中总是有许多的例外,这些例外,就是由于语言符号的随机性造成的。所以,语言符号的随机性,也应该是语言的本质属性之一。

正因为语言符号具有随机性,所以我们很难用确定性的规则来描述它。

如果我们从语言学理论的高度,把随机性看成是语言符号本身的一种自然特性,并采用恰当的数学工具来描述这种随机性,使用计算机来进行一般手工所难于胜任的大量的统计计算和分析,那么,我们对于语法规则中的各种各样的例外情况,也就不会再感到迷惑不解和束手无策了,因为这些例外的情况正是由于语言符号本身的随机性这一个特点而形成的。

语料库语言学的研究,可以帮助我们从大量的经过标注的语言素材中,发现语言的统计规律,并将其提炼为自然语言处理的规则。这种研究生动地体现了索绪尔所指出的语言和言语的相互关系。大量的语言素材相当于索绪尔定义的言语,语言学规则相当于索绪尔定义的语言,通过对言语的统计研究,就可以发现语言的规律。这是语言符号随机性的又一佐证。

第六,语言符号的冗余性。

语言成分在交际活动中的出现是一个随机事件,语言成分之间彼此有着相互的影响和制约,也就是说,前后的语言符号具有相关性,我们根据前面出现的符号,常常可以预测后面的符号出现的可能性。当说话不清楚或文字有错落时,我们往往可以根据前后文来理解话语或文章的含义。在有噪声或干扰时,我们仍然有能力根据已经听清楚的部分来识别那些不清晰的语音。这些事实说明,并不是语言中的一切成分对于传达语言符号整体所包含的信息都是绝对不可缺少的,就是缺少了某些部分,语言本身有能力把这些缺少的部分补充和恢复出来。这意味着,语言符号具有冗余性。

这种冗余性是有必要的和有益的,它保证了不理想的环境下,语言符号仍能发挥其交际功能。没有冗余度的语言在实际上是无法理解的,因为日常语言总有很大的灵活性,要想理解句子的意思,就必须考虑到字母在单词中的位置和单词在句子中的上下文关系。事实上,只要语言有结构性就会有冗余度,语言符号的冗余度就是语言的结构性在语言符号的一个重要特性,它与语言符号的随机性一样,无时不刻不在语言的使用中表现出来。

第七,语言符号的模糊性。

语言符号的模糊性不仅存在于单词的含义方面,语法方面也存在着模糊性。例如,许多语言中动词和名词的划界并不十分清楚,存在着”亦此亦彼”现象,也就是说,动词和名词的划界是模糊的。

《自然语言处理简明教程》读书笔记:第一章 自然语言处理与理论语言学

在自然语言处理中,自然语言的表达和理解技术是一个十分困难的问题。自然语言的表达和理解的主要困难在于自然语言本身的模糊性。这种困难的内在原因是我们对于人类如何贮存和处理模糊信息的机制还不十分清楚,外在原因是我们还没有一种适合于处理自然语言的模糊信息的工具。

语言符号的模糊性与语言符号的随机性是两个不同的概念。

语言符号的随机性是指事件的发生与否而言,但事件本身的含义是确定的,由于条件不充分,事件的发生与否有多种可能性,在[0,1]上取值的概率分布函数就是描述这种随机性的,它经常表现为字符或单词出现概率的大小。

语言符号的模糊性是指元素对集合的隶属关系而言,事件本身的含义是不确定的,但事件发生与否是可以确定的,因而元素(事件)对集合的隶属关系是不确定的,在[0,1]上取值的隶属函数就是描写这种不确定性(即模糊性)的,它经常表现为单词含义对某一集合隶属函数值的大小。

语言符号的随机性放弃了”一因一果”的决定论,反映了”一因多果”的规律性,因此,它是由于因果律破缺而造成的一种不确定性,在用统计方法来描述自然语言时,是满足排中律的。

语言符号的模糊性摆脱了”非此即彼”的确定性,反映了”亦此亦彼”的规律性,因此,它是由排中律破缺而造成的一种不确定性。

研究语言符号的随机性,可以把语言学的领域从必然现象扩大到偶然现象,研究语言的模糊性,可以把语言学的研究领域从清晰现象扩大到模糊现象。因此,语言符号随机性和模糊性的发现,都加深了我们对语言符号本质的认识,拓宽了语言学的研究领域。

语言符号具有任意性、层次性、非单元性、离散性、递归性、随机性、冗余性、模糊性等共八个特性。自然语言处理的发展,使我们对于语言符号的这些特性的认识和理解更为丰富、更为深刻。

语言符号的任意性,也就是语言符号的社会约定性,它反映了语言符号的社会—人文的本质,这使我们有可能用社会科学的方法来研究语言。语言符号的层次性、非单元性、离散性、递归性、随机性、冗余性反映了语言符号的物质—自然的本质,这使我们有可能用自然科学的方法来研究语言。而语言符号的模糊性,则表现了人类心智活动和思维活动的特点,反映了语言符号的智能—心理的本质,这使我们有可能用思维科学的方法来研究语言。这样,原来作为纯粹人文科学的语言学,在计算机时代便大大地拓广了它的研究领域,使它同时跨着人文科学、自然科学和思维科学三个领域。

Original: https://blog.csdn.net/weixin_44850744/article/details/123697201
Author: feiwen110
Title: 《自然语言处理简明教程》读书笔记:第一章 自然语言处理与理论语言学

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/531726/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球