自然语言处理相关知识的构成

2023年5月28日上午6:02 • 人工智能 • 阅读 81

NLP 的基本术语

为了帮助你更好地学习 NLP ，我们将逐一介绍 NLP 领域的一些基础专业词汇。
1、分词( segment )
词是最小的能够独立活动的有意义的语言成分，英文单词之间是以空格作为自然分界符的，而汉语是以字为基本的书写单位，词语之间没有明显的区分标记；因此，中文词语分析是中文分词的基础与关键。
中文和英文都存在分词的需求，不过相较而言，英文单词本来就有空格进行分割，所以处理起来相对方便。但是，由于中文是没有分隔符的，所以分词的问题就比较重要。分词常用的手段是 基于字典的最长串匹配，据说可以解决85%的问题，但是歧义分词很难。

2、词性标注( part-of-speech tagging )
基于机器学习的方法里，往往需要对词的词性进行标注。词性一般是指动词、名词、形容词等。标注的目的是 表征词的—种隐藏状态，隐藏状态构成的转移就构成了状态转移序列。

3、命名实体识别( NER, Named Entity Recognition )
命名实体是指从文本中识别具有特定类别的实体(通常是名词)，例如人名、地名、机构名、专有名词等。

4、句法分析( syntax parsing ）
句法分析往往是一种基于规则的专家系统。当然也不是说它不能用统计学的方法进行构建，不过最初的时候，还是利用语言学专家的知识来构建的。句法分析的目的是解析句子中各个成分的依赖关系。所以，往往最终生成的结果是一棵句法分析树。句法分析可以解决传统词袋模型不考虑上下文的问题。

5、指代消解( anaphora resolution )
中文中代词出现的频率很高，它的作用是用来表征前文出现过的人名、地名等。

6、情感识别( emotion recognition )
所谓情感识别，本质上是分类问题，经常被应用在舆情分析等领域。情感一般可以分为两类，即正面、负面，也可以是三类，在前面的基础上，再加上中性类别。一般来说，在电商企业，情感识别可以分析商品评价的好坏，以此作为下一个环节的评判依据。通常可以基于词袋模型+分类器，或者现在流行的词量模型+ RNN 。经过测试发现，后者比前者准确率略有提升。

7、纠错( correction )
自动纠错在搜索技术以及输入法中利用得很多。由于用户的输入出错的可能性比较大，出错的场景也比较多。所以，我们需要一个纠错系统。具体做法有很多，可以基于 N-Gram 进行纠错，也可以通过字典树、有限状态机等方法进行纠错。

8、问答系统( QA system )
这是一种类似机器人的人工智能系统。比较著名的有：苹果 Siri 、 IBM Watson 、微软小冰等。问答系统往往需要语音识别、合成，自然语言理解、知识图谱等多项技术的配合才会实现得比较好。

NLP 的知识体系

下面我们将简单介绍一下 NLP 的知识体系：
1、句法语义分析
针对目标句子，进行各种句法分析，如分词、词性标记、命名实体识别及链接、句法分析、语义角色识别和多义词消歧等。

2、关键词抽取
抽取目标文本中的主要信息，比如从一条新闻中抽取关键信息。主要是了解是谁、于何时、为何、对谁、做了何事、产生了有什结果。涉及实体识别、时间抽取、因果关系抽取等多项关键技术。

3、文本挖掘
主要包含了对文本的聚类、分类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的呈现界面。

4、机器翻译
将输入的源语言文本通过自动翻译转化为另一种语言的文本根据输入数据类型的不同，可细分为文本翻译、语音翻译、手语翻译、图形翻译等。

5、信息检索
对大规模的文档进行索引。可简单对文档中的词汇，赋以不同的权重来建立索引，也可使用算法模型来建立更加深层的索引。查询时，首先对输入进行分析，然后在索引里面査找匹配的候选文档，再根据排序机制把候选文档排序，最后输岀排序得分最高的文档。

6、问答系统
针对某个自然语言表达的问题，由问答系统给出一个精准的答案。需要对自然语言查询语句进行语义分析，包括实体链接、关系识别，形成逻辑表达式，然后到知识库中查找可能的候选答案并通过一个排序机制找出最佳的答案。

7、对话系统
系统通过多回合对话，跟用户进行聊天、回答、完成某项任务。主要涉及用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。此外，为了体现上下文相关，要具备多轮对话能力。同时，为了体现个性化，对话系统还需要基于用户画像做个性化回复。

常用语料库

语料库是我们在进行 NLP 实践开发必不可少的工具，常见的语料库有：
1、维基百科
维基百科是最常用且权威的开放网络数据集之一，作为极少数的人工编辑、内容丰富、格式规范的文本语料，各类语言的维基百科在 NLP 等诸多领域应用广泛。维基百科提供了开放的词条文本整合下载，可以找到你需要的指定时间、指定语言、指定类型、指定内容的维基百科数据。

2、IMDB 情感分析语料库
互联网电影资料库( Internet Movie Database，简称 IMDB )是一个关于演员、电影、电视节目、电视明星和电影制作的在线数据库。 IMDB 的资料中包括了影片的众多信息、演员片长、内容介绍、分级、评论等。对于电影的评分目前使用最多的就是 IMDB 评分。

还有豆瓣读书相关语料(爬虫获取)、邮件相关语料等。

Original: https://blog.csdn.net/minghaibuai/article/details/123604772
Author: 「已注销」
Title: 自然语言处理相关知识的构成

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/530102/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

在线会议中人脸面部轮廓图像提取（三）——Dlib库人脸面部轮廓图像特征提取

前言：所使用图片并无盈利等目的，如有侵犯他人肖像权请联系删除。当当当当，第三期来廖！接上一期在线会议中人脸面部轮廓图像提取（二）——HOG人脸面部轮廓图像特征提取，介绍完HOG特…

人工智能 2023年6月18日
00102
UNet论文详解分析

2015年UNet的出现使得原先需要数千个带注释的数据才能进行训练的深度学习神经网络大大减少了训练所需要的数据量，并且其针对神经网络在图像分割上的应用开创了先河。当时神经网络在图…

人工智能 2023年6月17日
0088
pytorch中的所有随机数（normal、rand、randn、randint、randperm) 以及随机数种子(seed、manual_seed、initial_seed)

torch的所有随机数官方已经整理在torch — PyTorch 1.10.0 documentation这个页面了，我又重新整理到了本blog中，用中文进行了部分解释，方便理解…

人工智能 2023年6月17日
0088
torch.nn.functional.interpolate()函数详解

通常可以使用pytorch中的torch.nn.functional.interpolate()实现插值和上采样。上采样，在深度学习框架中，可以简单理解为任何可以让你的图像变成…

人工智能 2023年6月16日
0085
相关-37. 释放GPU显存

RuntimeError: CUDA out of memory. Tried to allocate 144.00 MiB (GPU 0; 2.00 GiB total capa…

人工智能 2023年7月22日
0052
数据分析：工具篇

初识pandas pandas简介 pandas的数据结构构建数据表的类简单介绍 * Series创建方法 DataFrame创建方法表格内容的查找方法 * 揭秘Series …

人工智能 2023年7月7日
0057
时间序列数据的预处理

时间序列数据随处可见，要进行时间序列分析，我们必须先对数据进行预处理。时间序列预处理技术对数据建模的准确性有重大影响。在本文中，我们将主要讨论以下几点：时间序列数据的定义及其…

人工智能 2023年6月16日
0075
backtrader数据基础

cerebro = bt.Cerebro() cerebro.addstrategy(TestStrategy2) codes=[‘600862.SH’,’300326.SZ’,’…

人工智能 2023年7月8日
0080
ptmalloc源码分析 – 多线程争抢竞技场Arena的实现（04）

一、为何要引入Arena竞技场概念二、主分配区和非主分配区的数据结构三、获取分配区主函数arena_get 四、首次申请分配区的核心函数arena_get2 1、get_fre…

人工智能 2023年6月30日
0079
System）方面有哪些应用和优势

人工智能 2024年1月1日
0065
基于Debian搭建Hyperledger Fabric 2.4开发环境及运行简单案例

前言在基于truffle框架实现以太坊公开拍卖智能合约中我们已经实现了以太坊智能合约的编写及部署，但其工作方式注定其只能应用于有限的业务场景中。相比之下，基于超级账本的 Fabr…

人工智能 2023年6月4日
00105
基于Anaconda的matplotlib学习

基于Anaconda的matplotlib学习 * – matplotlib安装 – 入门小案例 – 入门小测试 matplotlib安装第一…

人工智能 2023年7月23日
0080
图像分类-神经网络结构，（leetcode704 278）

常见的图像分类的CNN网络 1.AlexNet 1.1AlexNet介绍 AlexNet是用于图像分类的CNN模型，具体的结构如下（可以看这个帖子了解每一层的内容） 4个优点：1….

人工智能 2023年7月1日
0081
强化学习之stable_baseline3详细说明和各项功能的使用

本文基于官方文档的基础上，把其中的重要部分整合和翻译，并整理成容易理解的顺序。其中蕴含有大量使用案例，方便大家理解和查看。官方文档：https://stable-baseline…

人工智能 2023年6月23日
0090
Android OpenCV（六十八）：决策树

前言监督学习与非监督学习监督学习（supervised learning）的任务是学习一个模型，使模型能够对任意给定的输入，对其相应的输出做出一个好的预测。换言之，利用训练数…

人工智能 2023年7月19日
0050
BP神经网络的诊断分类（初学者+matlab代码实现）

1、简介 bp神经网络作为反向传播的经典算法。是我最初接触的第一个神经网络，使我对机器学习产生了很高的兴趣。同时我作为老初学者，给大家介绍具体代码及思路。 2.基本原理老规矩， …

人工智能 2023年7月28日
0051

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

自然语言处理相关知识的构成

大家都在看