nltk自然语言处理

2023年5月28日上午1:44 • 人工智能 • 阅读 82

一些知识点

`concordance`

concordance查找语料库中特定的单词的上下文, 检索词指定窗口大小的上下文。
concordance(word,width,lines)，其中 width表示包括 word在内的窗口大小， lines几行。

; `similar`

使用 similar 来查找具有相似上下文的词。

`common_contexts(['word1','word2'])`

共用两个及以上单词上下文的词汇。——哪两个词共用上下文。

表示text2中出现 the word以及 the world，以此类推。

; `dispersion_plot(['word1','word2',...])`

查看词汇离散图，查看词的分布情况。每个关键词所在的行代表着整个文本，横轴的位置代表着文本位置。
text1.dispersion_plot(['word','city','few','world'])

文本计数与排序

; 文本简单统计

函数 FreqDist方法获取文本中每个出现的标识符的频率分布，接受列表。

.keys()查看主键， .freq()打印频率
.N查看样本总数

`plot` 绘制频率分布图

FreqDist接受使用plot，接受一个数字n，图像包括出现次数最多的前n项。 cumulative表示出现次数是否累加，绘制累计频率分布图。下图红色表示 cumulative=True的情况。

; `tabulate` 绘制频率分布表

以表格形式打印频率最高的n项。

选择长单词

; 找搭配词

分析文本中不同词长的频率分布

; NLTK中常见的语料库

古腾堡 gutenberg
布朗 brown

语料库的基本处理步骤

导入语料库

from nltk.corpus import gutenberg as bg

使用实例化对象对该语料库文本进行操作
查看语料库中有多少个文件 .fileids()
查看语料库中指定文件的单词 .words(fileids=[f1,f2,f3])
ConditionalFreqDist（条件，事件）
对应方法类似于 FreqDist,专门统计条件词频类。
‘can’,’could’,’may’,’might’,’must’,’will’这几个单词在brown语料库中的’news’,’religion’,’hobbies’,’science_fiction’,’romance’,’humor’几个主题下的词频对比。

使用nltk载入并分析自己的语料库

nltk.corpus.PlaintextCorpusReader
Brown语料库一共有多少个类别？一共有多少个文件？
类别’news’下，有多少篇新闻文本？
新闻’ca01′ 包含了多少个单词？多少个句子？
打印新闻’ca02’的原始文本。

br.categories()
br.fileids()
len(br.fileids(categories='news'))
len(br.words('ca01'))
len(br.sents('ca01'))
br.raw('ca02')

正则表达式

re.search(p,s)判断字符串s中是否有模式p，有则返回非空对象，否则返回空none。
.匹配除换行符之外的任何字符；
^匹配字符串开头；
*匹配前一个正则的0或者更多（贪婪）；
+匹配前一个正则的1或者更多（贪婪）；
？匹配前一个正则的0或者1（贪婪）；
*? ?? +?不贪婪模式；
{m,n}匹配前一个正则的m到n个重复；
|或者；

Original: https://blog.csdn.net/Suzerk/article/details/124150386
Author: Suzerk
Title: nltk自然语言处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528596/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pytorch中LSTM参数详解（一张图帮你更好的理解每一个参数）

对LSTM网络的理解对LSTM网络不理解的请看这篇博客，对新手比较友好，也很容易理解，只有理解了LSTM，才知道下面要讲的参数分别对应什么 LSTM参数列表 Pytorch中创建…

人工智能 2023年7月22日
00112
图像分割汇总

Image Segmentation（图像分割）：所谓图像分割是指根据灰度、彩色、空间纹理、几何形状等特征把图像划分成若干个互不相交的区域，使得这些特征在同一区域内表现出一致性或…

人工智能 2023年5月28日
0090
【语音识别】WeNet：面向工业落地的E2E语音识别工具

WeNet：面向工业落地的E2E语音识别工具文章目录 WeNet：面向工业落地的E2E语音识别工具 * 一、WeNet语音识别平台搭建 – 1、参考资料 2、快速搭建…

人工智能 2023年7月27日
00389
Pytorch基础 Fashion Minst数据集读取

本章节主要举例说明了数据集读取的问题，针对于trochvision中Fashion Mnist数据集的读写问题；其中，具体的读取训练集和测试集为： mnist_train = t…

人工智能 2023年5月26日
0079
Realsense-D455的IMU在ubuntu18.04使用

一。配置realsense-ros: 已经新建了ROS工作空间，可以直接在工作空间的src目录下克隆相关功能包，然后进行编译，具体命令参考下方： 1、已建好工作空间Realsens…

人工智能 2023年6月11日
0091
社区发现算法——SCAN算法

论文地址该算法用于检测网络中的社区、桥节点和离群点。它基于结构相似性度量对顶点进行聚类。该算法特点是：速度快，效率高，每个顶点只访问一次。主要贡献是能够识别出桥节点和离…

人工智能 2023年5月31日
00140
深度学习—— 多层感知器 MLP

多层感知器 MLP MLP是一种前向结构的人工神经网络，映射一组输入向量到一组输出向量。MLP可以被看作是一个有向图，由多个节点层组成，每一层连接到下一层解决的问题：分类问题 M…

人工智能 2023年6月15日
0093
【项目实战】Python实现LightGBM分类模型(LGBMClassifier算法)项目实战

说明：这是一个机器学习实战项目（附带数据+代码+文档+代码讲解），如需数据+代码+文档+代码讲解可以直接到文章最后获取。 1.项目背景如今已是大数据时代，具备大数据思想至关重…

人工智能 2023年7月3日
0094
多元回归是一种回归算法，用于预测多个相关输出变量之间的关系。它将多个输入特征与多个输出变量之间的关系建模为多元线性方程

详细解决多元回归问题介绍多元回归是一种回归算法，用于预测多个相关输出变量之间的关系。它将多个输入特征与多个输出变量之间的关系建模为多元线性方程的问题。算法原理多元回归基于线…

人工智能 2023年12月31日
0042
Cuda与GPU显卡驱动版本一览

每日一歌，分享好心情：骑在银龙的背上(中岛阿姨，墙推) 问：在业务中怎样确定显卡驱动和cuda版本呢？ CUDA toolkit下载地址： https://developer.n…

人工智能 2023年6月16日
00153
深入理解PSNR（峰值信噪比）(附matlab代码)

深入理解PSNR 作者：老李日期：2022-1-19 本文引入MSE、SNR、变异系数（Coefficient of Variation），并希望从统计学的角度上解释这个变量这个…

人工智能 2023年7月29日
0069
KNN算法说明以及sklearn 中 neighbors.KNeighborsClassifier参数说明

文章目录 :rose:KNN :rose: sklearn 中 neighbors.KNeighborsClassifier参数说明 🌹KNN 概念有红色三角和蓝色方块两种类别，…

人工智能 2023年6月15日
00144
基于pytorch的BP神经网络模型构建

小伙伴好，最近想要认真学习一波pytorch，打算通过pytorch去构建一系列的网络模型，包括CNN、LSTM、Transform等，后续都会进行搭建。一个不断学习的小菜鸡，也希…

人工智能 2023年7月14日
0058
数据增广albumentations用法 -借例 hw3 食物分类-

previous work：开启第三个作业食物分类，有的人找不到数据集地址放一个：ml2021spring-hw3 | Kaggle 前言：这个作业每类带标签的数据…

人工智能 2023年7月2日
0097
（学习笔记）十大经典算法——K-means聚类算法

概述聚类算法是在无监督的情况下将对象自动分组的一种分析方法，典型的聚类算法分为三个阶段：特征选择和特征提取，数据对象间相似度计算，根据相似度将数据对象分组。聚类算法的目标是将数据…

人工智能 2023年5月31日
00126
线性回归之相关系数分类及其Python实例

相关系数的类型：三种相关系数区别以及计算：两组数据间的相关性计算可以分为如下3种情况： 1 数值数据与分类数据2 数值数据与数值数据3 分类数据与分类数据计算相关性用到的方法有…

人工智能 2023年7月8日
0095

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31