NLP自然语言处理工具

2023年5月28日上午11:58 • 大数据 • 阅读 96

Gensim是一款开源的第三方Python工具包，用于从原始的非结构化的文本中，无监督地学习到文本隐层的主题向量表达。
它支持包括TF-IDF，LSA，LDA，和word2vec在内的多种主题模型算法，
支持流式训练，并提供了诸如相似度计算，信息检索等一些常用任务的API接口

大家通过官网可以很容易找到自己需要的代码，尤其是安装问题。之前我遇到使用pip install –upgrade gensim安装后，出现DLL无法查找到的问题

from gensim.models.fasttext_corpusfile import train_epoch_sg, train_epoch_cbow
ImportError: DLL load failed: &#x627E;&#x4E0D;&#x5230;&#x6307;&#x5B9A;&#x7684;&#x6A21;&#x5757;&#x3002;

从百度的解决方案基本都是

&#xFF08;1&#xFF09;&#x5148;&#x7528;pip uninstall +&#x5305;&#x540D;&#x547D;&#x4EE4;&#x4F9D;&#x6B21;&#x5C06;numpy&#xFF0C;scipy&#xFF0C;gensim&#x5378;&#x8F7D;&#x3002;
&#xFF08;2&#xFF09;&#x518D;&#x6309;numpy&#xFF0C;scipy&#xFF0C;gensim&#x987A;&#x5E8F;&#x4F9D;&#x6B21;&#x5B89;&#x88C5;&#xFF0C;&#x80FD;&#x591F;&#x89E3;&#x51B3;&#x8FD9;&#x4E00;&#x95EE;&#x9898;

但对于已经安装了conda的我来说，应该是numpy，scipy，gensim的版本或者缺少包导致的，于是我上了官网，在官网中找到了正确的安装姿势

conda install -c conda-forge gensim

自然语言处理中，中文的分词与英文的区别比较大。中文一般采用语料库进行分词匹配，而jieba虽然已经很长时间不更新了，最近试用了一下，分词效果还可以，可以作为入门的分词工具。
安装采用

pip install jieba
&#x5F53;&#x7136;&#x4E5F;&#x53EF;&#x4EE5;&#x5148;&#x4E0B;&#x8F7D; http://pypi.python.org/pypi/jieba/
&#x7136;&#x540E;&#x89E3;&#x538B;&#xFF0C;&#x8FD0;&#x884C; python setup.py install

安装过程中一般不会遇到什么困难，访问官方的文档是github.com/fxsjy/jieba
不过因为工具本身维护的关系，相关的API文档解释有点简单，主要还是通过同步源码，利用其中的test用例来了解其用法。
包括在test中用到百度的飞桨paddlepaddle https://www.paddlepaddle.org.cn/，我对这个深度学习平台不太了解，后面还是要找机会了解一下。
jieba的lcut或者cut方法，对于中文的标点、常用词都会分解出来，也就是说可以还原成原句子，但是不利于做特征值提取

result = jieba.lcut("&#x8FD9;&#x662F;&#x4E00;&#x4E2A;&#x4F38;&#x624B;&#x4E0D;&#x89C1;&#x4E94;&#x6307;&#x7684;&#x9ED1;&#x591C;&#x3002;&#x6211;&#x53EB;&#x5B59;&#x609F;&#x7A7A;&#xFF0C;&#x6211;&#x7231;&#x5317;&#x4EAC;&#xFF0C;&#x6211;&#x7231;Python&#x548C;C++&#x3002;")
print(result)
&#x7ED3;&#x679C;
['&#x8FD9;&#x662F;', '&#x4E00;&#x4E2A;', '&#x4F38;&#x624B;&#x4E0D;&#x89C1;&#x4E94;&#x6307;', '&#x7684;', '&#x9ED1;&#x591C;', '&#x3002;', '&#x6211;', '&#x53EB;', '&#x5B59;&#x609F;&#x7A7A;', '&#xFF0C;', '&#x6211;', '&#x7231;', '&#x5317;&#x4EAC;', '&#xFF0C;', '&#x6211;', '&#x7231;', 'Python', '&#x548C;', 'C++', '&#x3002;']

但是利用jieba的analyse解析出来的更合适做特征值提取

import jieba.posseg as pseg
tags = jieba.analyse.extract_tags("&#x8FD9;&#x662F;2002&#x4E00;&#x4E2A;&#x4F38;&#x624B;&#x4E0D;&#x89C1;&#x4E94;&#x6307;&#x7684;&#x9ED1;&#x591C;&#x3002;&#x6211;&#x53EB;&#x5B59;&#x609F;&#x7A7A;&#xFF0C;&#x6211;&#x7231;&#x5317;&#x4EAC;&#xFF0C;&#x6211;&#x7231;Python&#x548C;C++&#x3002;")
print(tags)
&#x7ED3;&#x679C;['2002', 'Python', 'C++', '&#x4F38;&#x624B;&#x4E0D;&#x89C1;&#x4E94;&#x6307;', '&#x5B59;&#x609F;&#x7A7A;', '&#x9ED1;&#x591C;', '&#x5317;&#x4EAC;', '&#x8FD9;&#x662F;', '&#x4E00;&#x4E2A;']

利用collections可以计算词频

import collections
c = collections.Counter(tags)

Original: https://blog.csdn.net/super_ma_1981/article/details/121318892
Author: ERP面壁者
Title: NLP自然语言处理工具

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531373/

转载文章受原作者版权保护。转载请注明原作者出处！

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

NLP自然语言处理工具

大家都在看