【NLP Tool — NLTK】NLTK进行英文情感分析、分词、分句、词性标注（附代码）

2023年5月27日下午8:15 • 人工智能 • 阅读 80

NLP Tool 系列文章

工具介绍

NLTK，Natural Language Toolkit是一个Python模块，提供了多种语料库（Corpora）和词典（Lexicon）资源，比如WordNet等，以及一系列基本的自然语言处理工具集，包括：分句，标记解析（Tokenization），词干提取（Stemming），词性标注（POS Tagging）和句法分析（Syntactic Parsing）等，是对英文文本数据进行处理的常用工具。

注：此工具主要针对英文文本数据，那么使用中文数据会有什么效果？本文将详细介绍以下内容。

[En]

Note: this tool is mainly aimed at English text data, so what will be the effect of using Chinese data? The following contents of this article will be introduced in detail.

安装库

pip install nltk

安装语料库

方法一：直接在控制台安装

[En]

Method 1: install directly in the console

import nltk
nltk.download()

方法二：由于要下载的语料库太大，方法一有时不会成功，可以考虑手动下载

[En]

Method 2: because the corpus to be downloaded is too large, method 1 will not be successful sometimes, so you can consider downloading it manually

1 进入官网地址下官网地址 GitHub – nltk/nltk_data: NLTK Data

【NLP Tool -- NLTK】NLTK进行英文情感分析、分词、分句、词性标注（附代码）

2 查看解压后的语料库可以放在本地的哪些位置，在控制台中输入以下内容

from nltk.corpus import brown
brown.categories()

假如是在选择E:\nltk_data，那就在E盘中创建nltk_data文件，随后将下载的语料库中的packages包下的所有文件复制到nltk_data

进入nltk_data/tokenizers文件夹下解压punkt.zip文件

完整代码

import nltk
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import brown

brown.categories()
s = '近日，中国短道速滑队队员@武大靖,在直播中歪嘴喝水的画面走红,此后他本人还亲自教学。于是，短道速滑国家队的成员们相继挑战,还出了一人炫三瓶的升级版。网友：终于找到进短道速滑队的方法！'
s1 = 'Along with the development of society , more and more problems are brought to our attention , one of the most serious problems is involution and lying flat . Involution means that when social resources cannot meet the needs of everyone, people compete to obtain more resources. An important feature of involution is internal competition , Internal competition is becoming increasing prevalent at an amazing rate. '
englishTokens = word_tokenize(s1)
chineseTokens = word_tokenize(s)
分句和分词
print("英文分句", sent_tokenize(s1))
print("英文分词", englishTokens)
print("中文分句", sent_tokenize(s))
print("中文分词", chineseTokens)

词性标注
词性标注只能在分词后进行。<details><summary>*<font color='gray'>[En]</font>*</summary>*<font color='gray'>Part of speech tagging can only be carried out after word segmentation.</font>*</details>
englishTags = nltk.pos_tag(englishTokens)
chineseTags = nltk.pos_tag(chineseTokens)
print("英文词性标注", englishTags)
print("中文词性标注", chineseTags)

情感分析
#compound表示复杂程度,neu表示中性,neg表示负面情绪,pos表示正面情绪
from nltk.sentiment.vader import SentimentIntensityAnalyzer
s2 = ['This is a good book', 'This is a bad book']
s3 = ['这是一本好书', '这是一本糟糕的书']
创建分类器
sid = SentimentIntensityAnalyzer()
#英文情感分析
for sentence in s2:
    print(sentence)
    print("情感得分", sid.polarity_scores(sentence))
#中文情感分析
for sentence in s3:
    print(sentence)
    print("情感得分", sid.polarity_scores(sentence))

结果

结果分析

1分词、分句、词性标注

2 情感分析

显然，在分词阶段，英文的实现效果相对较好，而中文的实现效果相对较差。因此，基于分词的小句、词性标注和情感分析的实现效果也较差。

[En]

It is obvious that the implementation effect in English is relatively good, while that in Chinese is relatively bad at the stage of word segmentation. therefore, the implementation effect of clause, part of speech tagging and affective analysis based on word segmentation is also poor.

Original: https://blog.csdn.net/ccaoshangfei/article/details/124625623
Author: 北村南
Title: 【NLP Tool — NLTK】NLTK进行英文情感分析、分词、分句、词性标注（附代码）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/527561/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

强化学习—— 蒙特卡洛树（Monte Carlo Tree Search, MCTS）

强化学习—— 蒙特卡洛树（Monte Carlo Tree Search, MCTS） 1. 单一状态蒙特卡洛规划 * 1.1 特点 1.2 数学模型 2. 上限置信区间策略 3….

人工智能 2023年6月25日
0098
人工智能 | ShowMeAI资讯日报 #2022.06.15

ShowMeAI 日报系列全新升级！覆盖AI人工智能工具&框架 | 项目&代码 | 博文&分享 | 数据&资源 | 研究&论文等方向。点…

人工智能 2023年5月27日
00111
Yolov5如何更换EIOU / alpha IOU / SIoU？

🌟想了解YOLO系列算法更多教程欢迎订阅我的专栏🌟 对于基础薄弱的同学来说，推荐阅读《目标检测蓝皮书》 📘，里面涵盖了丰富的目标检测实用知识，是你迅速掌握目标检测的理想选择！如果…

人工智能 2023年7月29日
0084
pytoch中class定义神经网络的参数保存与加载

一、定义一个容易识别的网络在正式介绍模型的保存和加载之前，我们首先定义一个基本的网络Net，它只包含一个全连接层： class Net(nn.Module): def __ini…

人工智能 2023年7月13日
0073
Neo4j：通过 Docker 和 Cypher 查询语言运行图形数据库

简介与以数据对象为主要的 RDMS（关系数据库管理系统）相比，图数据库中的实体与实体之间的关系起主要作用，并表示为三元组。图数据库能够提供许多优越的性能，尤其是当数据中拥有许多相…

人工智能 2023年6月5日
00120
基于python的微博舆情分析与研究—以《北京冬奥会》为关键词

创作不易，如果以下内容对你有帮助，记得三连呀，让更多的小伙伴能看到吧~~ 1. 研究内容本课题研究的是基于Python的微博舆情热点分析与研究。在PyCharm、Jupiter …

人工智能 2023年7月6日
00103
NLP（四十八）使用kenlm进行文本纠错

BUILDING CMakeLists.txt COPYING COPYING.3 COPYING.LESSER.3 Doxyfile GIT_REVISION LICENSE M…

人工智能 2023年5月31日
0065
神经网络与深度学习day07-实践：前馈神经网络实现鸢尾花数据集分类

神经网络与深度学习day07-实践：前馈神经网络实现鸢尾花数据集分类深入研究鸢尾花数据集 4.5 实践：基于前馈神经网络完成鸢尾花分类 * 4.5.1 小批量梯度下降法 4.5….

人工智能 2023年7月1日
00111
Spark – RDD / ROW / sql.DataFrame 互转

一.引言 SparkSql 相比较 HiveSql 具有更快的运行速度和更高的灵活性，平常使用中经常需要进行数据转换，常见的有 RDD[T] -> DataFrame，Dat…

人工智能 2023年7月8日
0053
遥感影像几何精纠正（含详细步骤）

文章目录前言一、原理及方法 * 几何精纠正地面控制点（GCP）的选取方法正射影像纠正多项式模型图像重采样双线性内插法数据源及研究区概况二、操作步骤三、结果分析 …

人工智能 2023年6月17日
0074
机器学习之回归算法

机器学习之回归算法文章目录 * – 机器学习之回归算法* 1.线性回归* – 1.1线性回归原理 – 1.2线性回归的损失与优化原理 &#82…

人工智能 2023年6月18日
0094
【论文笔记】K-BERT: Enabling Language Representation with Knowledge Graph

论文地址：https://arxiv.org/abs/1909.07606v1项目地址：https://github.com/autoliuweijie/K-BERT 摘要 BER…

人工智能 2023年6月10日
0073
华为数通HCIE很好考吗？

华为数通hcie培训课程内容，包括但不限于：不同网络和各种路由器交换机之间的互联，复杂连接问题的解决，使用技术解决方案提高带宽、缩短相应时间、限度地提高性能、加强安全性和支持全球应…

人工智能 2023年6月28日
0066
k-means聚类算法对矩阵元素进行分类

实验目的使用k-means聚类算法对矩阵元素进行分类实验内容编写程序，使用k-means聚类方法对已知数据进行聚类，然后对未知样本进行分类。数据自己进行模拟生成，要求为整数，…

人工智能 2023年5月31日
0099
如何用OpenCV进行边缘检测(edge detecton)？

边缘检测边缘检测(edge detection)指的是检测图片中亮度等发生剧变或不连续的边缘和线条的各种数学方法。它是图像处理(image processing)，计算机…

人工智能 2023年5月26日
0083
树莓派视觉小车 — OpenCV巡线(HSL色彩空间、PID)

目录试错试错1：形态学处理试错2：HSV色彩空间基础理论 1、HSV与HSL色彩空间 2、PID调节一、OpenCV图像处理 1、在HSL色彩空间下得到二值图 2、对二…

人工智能 2023年6月19日
0094

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【NLP Tool — NLTK】NLTK进行英文情感分析、分词、分句、词性标注（附代码）

工具介绍

安装库

安装语料库

完整代码

结果

结果分析

大家都在看