自然语言处理入门（何晗）：第一章

2023年5月25日下午9:16 • 人工智能 • 阅读 82

第一章新手上路

自然语言处理（NLP）是一门融合了计算机科学、人工智能以及语言学的交叉学科，

这门学科研究的是如何通过机器学习等技术，让计算机学会处理人类语言，乃至实现终极目标——理解人类语言或人工智能

; 1.1 自然语言与编程语言

1.1.1 词汇量

自然语言中的词汇比编程语言中的关键词丰富，我们还可以随时创造各种类型的新词

自然语言中的词汇比编程语言中的关键词丰富。

1.1.2 结构化

自然语言是非结构化的，而编程语言是结构化的

自然语言是非结构化的，而编程语言是结构化的。所谓结构化，指的是信息具有明确的结构关系，比如编程语言中的类与成员、数据库中的表与字段，都可以通过明确的机制来读写。

&#x82F9;&#x679C; &#x7684; &#x521B;&#x59CB;&#x4EBA; &#x662F; &#x4E54;&#x5E03;&#x65AF; &#xFF0C;&#x5B83; &#x7684;logo&#x662F; &#x82F9;&#x679C;

1.1.3 歧义性

 &#x81EA;&#x7136;&#x8BED;&#x8A00;&#x542B;&#x6709;&#x5927;&#x91CF;&#x6B67;&#x4E49;&#xFF0C;&#x8FD9;&#x4E9B;&#x6B67;&#x4E49;&#x6839;&#x636E;&#x8BED;&#x5883;&#x7684;&#x4E0D;&#x540C;&#x800C;&#x8868;&#x73B0;&#x4E3A;&#x7279;&#x5B9A;&#x7684;&#x4E49;&#x9879;&#x3002;&#x6BD4;&#x5982;&#x6C49;&#x8BED;&#x4E2D;&#x7684;&#x591A;&#x4E49;&#x8BCD;&#xFF0C;&#x53EA;&#x6709;&#x5728;&#x7279;&#x5B9A;&#x7684;&#x4E0A;&#x4E0B;&#x6587;&#x4E2D;&#x624D;&#x80FD;&#x786E;&#x5B9A;&#x5176;&#x542B;&#x4E49;&#xFF0C;&#x751A;&#x81F3;&#x5B58;&#x5728;&#x6545;&#x610F;&#x5229;&#x7528;&#x65E0;&#x6CD5;&#x786E;&#x5B9A;&#x7684;&#x6B67;&#x4E49;&#x8425;&#x9020;&#x5E7D;&#x9ED8;&#x6548; &#x679C;&#x7684;&#x7528;&#x6CD5;&#x3002;&#x9664;&#x4E86;&#x4E0A;&#x6587;&#x201C;&#x82F9;&#x679C;&#x201D;&#x7684;&#x4E24;&#x79CD;&#x610F;&#x601D;&#x4E4B;&#x5916;&#xFF0C;&#x201C;&#x610F;&#x601D;&#x201D;&#x8FD9;&#x4E2A;&#x8BCD;&#x4E5F;&#x6709;&#x591A;&#x79CD;&#x610F;&#x4E49;&#x3002;

但在编程语言中，则不存在歧义性#。如果程序员无意中写了有歧义的代码，比如两个函数的签名一样，则会触发编译错误

1.1.4 容错性

自然语言错误随处可见，而编程语言错误会导致编译不通过

1.1.5 易变性

自然语言变化相对迅速嘈杂一些，而编程语言的变化要缓慢得多

1.1.6 简略性

自然语言往往简洁、干练，而编程语言就要明确定义

由于说话速度和听话速度、书写速度和阅读速度的限制，人类语言往往简洁、干练。我们经常省略大量背景知识或常识，比如我们会对朋友说”老地方见”，而不必指出”老地方”在哪里。

1.2 自然语言处理的层次

; 1.2.1 语音、图像和文本

自然语言处理系统的输入源一共有 3 个，即 语音（语音识别）、图像（光学字符识别）与文本。

语音经过语音识别，图像经过光学字符识别，转换成文本。

1.2.2 中文分词、词性标注和命名实体识别

这 6 个任务都是围绕词语进行的分析，所以统称 词法分析

中文分词：词法分析的主要任务是将文本分隔为有意义的词语
词法标注：确定每个词语的类别和浅层的歧义消除
命名实体识别：识别出一些较长的专有名词

对中文而言，词法分析常常是后续高级任务的基础

1.2.3 信息抽取

高频词、关键词、公司名称、专业术语等等。

词法分析之后，文本已经呈现出部分结构化的趋势，根据分析出来的每个单词和附有自己词性及其他标签的数据，抽取出一部分有用的信息，关键词、专业术语等，也可以根据统计学信息抽取出更大颗粒度的文本。

1.2.4 文本分类与文本聚类

将文本拆分为一系列词语之后，我们还可以在文章级别做一系列分析

有时我们想知道一段话是褒义还是贬义的，判断一封邮件是否是垃圾邮件，想把许多文档分门别类地整理一下，此时的 NLP的任务称作 文本分类

另一些时候，我们只想把相似的文本归档到一起，或者排除重复的文档，而不关心具体类别，此时进行的任务称作 文本聚类

1.2.5 句法分析

词法分析只能得到零散的词汇信息，计算机不知道词语之间的关系。在一些问答系统中，需要得到句子的主谓宾结构。

; 1.2.6 语义分析与篇章分析

相较于句法分析，语义分析侧重语义而非语法。

它包括 词义消歧（确定一个词在语境中的含义，而不是简单的词性）、 语义角色标注（标注句子中的谓语与其他成分的关系）乃至 语义分析（分析句子中词语之间的语义关系）。

1.2.7 其他高级任务

除了上述”工具类”的任务外，还有许多综合性的任务，与终端应用级产品联系更紧密。比如：

自动问答，根据知识库或文本中的信息直接回答一个问题，比如微软的 Cortana 和苹果的 Siri
自动摘要，为一篇长文档生成简短的摘要；
机器翻译，将一句话从一种语言翻译到另一种语言。

注意，一般认为 信息检索（IR）是区别于自然语言处理的独立学科。虽然两者具有密切的联系，但 IR的目标是查询信息，而 NLP的目标是理解语言。此外，IR 检索的未必是语言，还可以是以图搜图、听曲搜曲、商品搜索乃至任何信息的搜索。现实中还存在大量不需要理解语言即可完成检索任务的场景，比如SQL中的 LIKE

1.3 自然语言处理的流派

1.3.1 基于规则的专家系统（难扩展）

规则，指的是由专家手工制定的确定性流程。专家系统要求设计者对所处理的问题具备深入的理解，并且尽量以人力全面考虑所有可能的情况。它最大的弱点是难以拓展。当规则数量增加或者多个专家维护同一个系统时，就容易出现冲突。

1.3.2 基于统计的学习方法

人们使用统计方法让计算机自动学习语言。所谓” 统计“，指的是在语料库上进行的统计。所谓” 语料库“，指的是人工标注的结构化文本。

统计学习方法其实是机器学习的别称，而机器学习则是当代实现人工智能的主要途径。

1.3.3 历史

1.3.4 规则与统计

1.3.5 传统方法与深度学习

; 1.4 机器学习

1.4.1 什么是机器学习

人工智能领域的先驱在 1959年给出的机器学习定义是：不直接编程却能赋予计算机提高能力的方法。

机器学习指的是计算机通过某项任务的经验数据提高了在该项任务上的能力

简而言之，机器学习是让机器学会算法的算法。

机器学习算法则可以称作”元算法”，它指导机器自动学习出另一个算法，这个算法被用来解决实际问题。为了避免混淆，人们通常称被学习的算法为模型

1.4.2 模型

; 1.4.3 特征

特征指的是事物的特点转化的数值，比如牛的特征是 34条腿、0双翅膀，而鸟的特征是 2条腿、1双翅膀。

特征指的是事物的特点转化的数值。
如何挑选特征，如何设计特征模板，这称作 特征工程。特征越多，参数就越多；参数越多，模型就越复杂。

1.4.4 数据集

; 1.4.5 监督学习

1.4.6 无监督学习

如果我们只给机器做题，却不告诉它参考答案，机器仍然可以学到知识吗？

可以，此时的学习称作 无监督学习，而不含标准答案的习题集被称作无标注的数据集。

无监督学习一般用于聚类和降维，两者都不需要标注数据。

j降维指的是将样本点从高维空间变换到低维空间的过程。

1.4.7 其他类型的机器学习算法

如果我们训练多个模型，然后对同一个实例执行预测，会得到多个结果。如果这些结果数一致，则可以将该实例和结果放到一起作为新的训练样本，用来扩充训练集。这样的算法被称为 半监督学习。由于半监督学习可以综合利用标注数据和丰富的未标注数据，所以正在成为热门的研究课题。

现实世界中的事物之间往往有很长的因果链：我们要正确地执行一系列彼此关联的决策，才能得到最终的成果。这类问题往往需要一边预测，一边根据环境的反馈规划下次决策。这类算法被称为 强化学习习。强化学习在一些涉及人机交互的问题上成果斐然，比如自动驾驶、电子竞技和问答系统。

半监督学习：如果我们训练多个模型，然后对同一个实例执行预测，会得到多个结果。如果这些结果多数一致，则可以将该实例和结果放到一起作为新的训练样本，用力啊扩充训练集。这样的算法被称为半监督学习。
强化学习：现实世界中的事物之间往往有很长的因果链：我们要正确地执行一系列彼此关联的决策，才能得到最终的成果。这类问题往往需要一边预测，一边根据环境的反馈规划下次决策。这类算法被称为强化学习。

1.5 语料库

语料库作为自然语言处理领域中的数据集，是我们教机器理解语言不可或缺的习题集。在这一节中，我们来了解一下中文处理中的常见语料库，以及语料库建设的话题

1.5.1 中文分词语料库

中文分词语料库指的是，由人工正确切分后的句子集合。

以著名的1998年《人民日报》语料库为例：

先有通货膨胀干扰，后有通货紧缩叫板。

1.5.2 词性标注语料库

它指的是切分并为每个词语指定一个词性的语料

依然以《人民日报》语料库为例：

迈向/v 充满/v 希望/n 的/u 新/a 世纪/n –/w 一九九八年/t 新年/t 讲话/n

1.5.3 命名实体识别语料库

这种语料库人工标注了文本内部制作者关心的实体名词以及实体类别。比如《人民日报》语料库中-共含有人名、地名和机构名3种命名实体:

萨哈夫/nr 说/v ,/w 伊拉克/ns 将/d 同/p [联合国/nt 销毁/v 伊拉克/ns 大规模/b 杀伤性/n 武器/n 特别/a 委员会/n] /nt 继续/v 保持/v 合作/v 。/w

这个句子中的加粗词语分别是人名、地名和机构名。中括号括起来的是复合词，我们可以观察到:有时候机构名和地名复合起来会构成更长的机构名，这种构词法上的嵌套现象增加了命名实体识别的难度。

1.5.4 句法分析语料库

汉语中常用的句法分析语料库有CTB(Chinese Treebank，中文树库)，其中一个句子可视化后如下图所示：

中文单词上面的英文标签标示词性，而箭头表示有语法联系的两个单词，具体是何种联系由箭头上的标签标示。

; 1.5.5 文本分类语料库

它指的是人工标注了所属分类的文章构成的语料库。

1.5.6 语料库建设

语料库建设指的是构建一份语料库的过程，分为规范制定、人员培训与人工标注这 3个阶段。

针对不同类型的任务，人们开发出许多标注软件，其中比较成熟的一款是brat，它支持词性标注、命名实体识别和句法分析等任务。

1.6 开源工具

目前开源界贡献了许多优秀的 NLP 工具，它们为我们提供了多种选择，比如教学常用的NLTK ( Natural Language Toolkit )、斯坦福大学开发的CoreNLP，以及国内哈工大开发的 LTP ( Language Technology Platform )、我开发的HanLP ( Han Language Processing )。

1.6.1 主流 NLP 工具比较

选择一个工具包，我们需要考虑的问题有：功能、精度、运行效率、内存效率、可拓展性、商业授权和社区活跃程度。

; 1.6.2 Python 接口

得益于Python简洁的设计，使用这门动态语言调用HanLP会省下不少时间。无论用户是否常用Python，都推荐一试。
HanLP的 Python接口由 pyhanlp包提供，其安装只需一句命令:

pip install pyhanlp

1.7 总结

本章给出了人工智能、机器学习与自然语言处理的宏观缩略图与发展时间线。机器学习是人工智能的子集，而自然语言处理则是人工智能与语言学、计算机科学的交集。这个交集虽然小，它的难度却很大。为了实现理解自然语言这个宏伟目标，人们尝试了规则系统，并最终发展到基于大规模语料库的统计学习系统。

在接下来的章节中，就让我们按照这种由易到难的发展规律去解决第一个NLP问题一中文分词。我们将先从规则系统人手，介绍一些快而不准的算法，然后逐步进化到更加准确的统计模型。

1.8 GitHub项目

HanLP何晗–《自然语言处理入门》笔记：

https://github.com/NLP-LOVE/Introduction-NLP

Original: https://blog.csdn.net/weixin_44953928/article/details/121744201
Author: xiao52x
Title: 自然语言处理入门（何晗）：第一章

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/516089/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

神经网络模型

一．概述通过上篇对神经网络组成部分的分析，本篇的内容是基于上篇内容的继承(上篇内容详见：神经网络的组成)。如果从结构上讲，神经网络就是由很多个单一的神经单元组合到一起,这里面的…

人工智能 2023年6月16日
0096
pythong小知识列表

1、输出结果字段名数据对齐： pd.set_option(‘display.unicode.ambiguous_as_wide’, True) pd.set_option(‘dis…

人工智能 2023年7月8日
0049
jetson设备上部署Yolov5 v3.1 — Deepstream5.0应用

目录 1. 概述 2.环境配置 2.1 Jetson边缘部署设备 2.1.1 Jetson 设备配置及其版本 2.1.2 Jetson设备软件配置 2.2 x86训练环境 3.De…

人工智能 2023年7月12日
0061
【AI】Windows下的环境搭建（Tensorflow-gpu、CUDA&cuDNN、Opencv）

硬件平台：windows10、NVIDIA GeForce GTX 1050 软件平台：Pycharm、Anaconda3、Tensorflows 实现功能基础平台搭建一、安装…

人工智能 2023年5月24日
0074
利用Anaconda安装pytorch深度学习环境

因为本人笔记本没有英伟达的显卡，因此不需要关注NVIDIA驱动安装与更新等问题。 Anaconda安装打开网址，现在是2022年6月，对应的anaconda版本是支持python…

人工智能 2023年7月22日
0054
时间序列模型进行预测及异常值检测

文章目录前言 1. 简介 2. 步骤 3. 代码 4. 结果图展示 5. 参考资料及数据文件获取前言本文主要记录使用时间序列模型进行预测及异常值检测的相关笔记简介在数据分…

人工智能 2023年7月16日
0069
Tensorflow keras中实现语义分割多分类指标：IOU、MIOU

在TF1.x版本中 miou指标可以使用tf.metrics.mean_iou 进行计算： tf.metrics.mean_iou(labels, predictions, num…

人工智能 2023年6月30日
00100
JL杰理AC6082 AC6084替换AC1082 AC1074 MP3解码芯片方案

一、MP3音频解码芯片因外部环境的影响，国内消费类电子产品的主要芯片，处在不是缺货就是停产的状态。特别是做MP3音频播放解码芯片，缺的更严重。目前几大芯片商杰理、建荣、山景，都存在…

人工智能 2023年5月27日
0095
提高Tesseract-OCR验证码识别率

Tesseract-OCR训练自己需要的语言在正常使用Tesseract-OCR的默认eng去识别复杂的验证码失败率很高，这时候就需要自己训练出自己需要的语言来提高识别成功率。如…

人工智能 2023年5月23日
00106
一个极简的Http请求client推荐，一行搞玩外部请求

在Java的世界中，Http客户端之前一直是Apache家的HttpClient占据主导，但是由于此包较为庞大，API又比较难用，因此并不使用很多场景。而新兴的OkHttp、Jod…

人工智能 2023年6月26日
0063
VITS 语音合成完全端到端TTS的里程碑

Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speec…

人工智能 2023年5月27日
00135
Pytorch 中打印网络结构及其参数的方法与实现

print 直接输出网络结构 print(model) print 只能打印最基本的网络结构，显示每一层的操作，输出结果如下： Classifier( (cnn): Sequent…

人工智能 2023年7月26日
0071
检索与倒排索引

引言 Information Retrieval (IR)：从大规模非结构化数据的集合中找到满足用户信息需求的资料。包括信息的获取、表示、存储、组织和访问。一、倒…

人工智能 2023年5月31日
0062
FID指标复现踩坑避坑文本生成图像FID定量实验全流程复现（Fréchet Inception Distance ）定量评价实验踩坑避坑流程

目录一、FID分数简介二、FID分数 CUB定量实验步骤 * 2.1、下载FID计算代码 2.2、下载FID预训练好的模型 2.3、输入终端命令 2.4、注意事项最后一、F…

人工智能 2023年6月16日
00116
R语言计算回归模型每个样本（观察、observation、sample）的DFFITS度量实战：忽略单个观察（样本）时，回归模型所做的预测会发生多大的变化

好的，下面是一个使用Python编写的基于PyTorch的强化学习模型示例：首先，需要安装PyTorch和其他必要的库。可以使用以下命令在Python中安装PyTorch： pi…

人工智能 2023年6月18日
0073
KGNN：基于知识图谱的图神经网络预测药物与药物相互作用

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入！药物间相互作用（DDI）预测是药理学和临床应用中一个具有挑战性的问题，在临床试验期间，有效识别潜在的DDI对患者和社…

人工智能 2023年6月1日
00152

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31