Python词频分析

2023年11月1日下午11:52 • Python • 阅读 91

Python词频分析

在日常工作或者生活中，有时候会遇到词频分析的场景。如果是要进行词频分析，那么首先需要对句子进行分词，将句子中的单词进行切割并按照词性进行归类。
在Python中有个第三方库叫jieba(结巴)，可以对文章或者语句进行分词。不得不佩服这个库的作者，真是个取名鬼才：)

2.1 安装库

jieba库github地址
jieba库官方给出了3中安装库的方式，分别如下：
全自动安装：
easy_install jieba 或者 pip install jieba / pip3 install jieba
半自动安装：
先下载 http://pypi.python.org/pypi/jieba/ ，解压后运行 python setup.py install
手动安装：
将 jieba 目录放置于当前目录或者 site-packages 目录

2.2 方法介绍

方法接受四个输入参数:
1、需要分词的字符串；
2、cut_all 参数用来控制是否采用全模式；
3、HMM 参数用来控制是否使用 HMM 模型；
4、use_paddle 参数用来控制是否使用paddle模式下的分词模式，paddle模式采用延迟加载方式，通过enable_paddle接口安装paddlepaddle-tiny，并且import相关代码；
注意：
1、实测paddle模式无法开启(jieba.enable_paddle())，会报错。
2、该方法返回的是generator，如果需要返回list，则可以通过list转换结果或者使用jieba.lcut方法
3、待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8。

方法接受两个参数：
1、需要分词的字符串；
2、是否使用 HMM 模型。
注意：
1、该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细。
2、该方法返回的是generator，如果需要返回list，则可以通过list转换结果或者使用jieba.lcut_for_search方法。

该方法用于新建自定义分词器，可用于同时使用不同词典。jieba.dt 为默认分词器，所有全局分词相关函数都是该分词器的映射。

2.3 代码示例

encoding=utf-8
import jieba

strs = ["我来到北京清华大学", "乒乓球拍卖完了", "中国科学技术大学"]
for s in strs:
    seg_list = jieba.cut(s, use_paddle=False)  # 使用paddle模式
    print("Paddle Mode: " + '/'.join(list(seg_list)))

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))

运行结果：

Building prefix dict from the default dictionary …

Loading model from cache C:\Users\FURONG~1\AppData\Local\Temp\jieba.cache
Loading model cost 0.705 seconds.

Prefix dict has been built successfully.

Paddle Mode: 我/来到/北京/清华大学
Paddle Mode: 乒乓球/拍卖/完/了
Paddle Mode: 中国/科学技术/大学
Full Mode: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
Default Mode: 我/ 来到/ 北京/ 清华大学
他, 来到, 了, 网易, 杭研, 大厦
小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ，, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

开发者可以指定自己自定义的词典，以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力，但是自行添加新词可以保证更高的正确率。
用法：jieba.load_userdict(file_name) # file_name 为文件类对象或自定义词典的路径。
词典格式和 dict.txt 一样(dict.txt为安装jieba库时自带的词典，路径为：Python安装路径\Lib\site-packages\jieba\dict.txt)，一个词占一行；每一行分三部分：

创新办 3 i
云计算 5
凱特琳 nz
台中

更改分词器（默认为 jieba.dt）的 tmp_dir 和 cache_file 属性，可分别指定缓存文件所在的文件夹及其文件名，用于受限的文件系统。
范例：
自定义词典：https://github.com/fxsjy/jieba/blob/master/test/userdict.txt
用法示例：https://github.com/fxsjy/jieba/blob/master/test/test_userdict.py
加载自定义词库前：李小福 / 是 / 创新 / 办 / 主任 / 也 / 是 / 云 / 计算 / 方面 / 的 / 专家 /
加载自定义词库后：李小福 / 是 / 创新办 / 主任 / 也 / 是 / 云计算 / 方面 / 的 / 专家 /
调整词典
使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。
使用 suggest_freq(segment, tune=True) 可调节单个词语的词频，使其能（或不能）被分出来。
注意：自动计算的词频在使用 HMM 新词发现功能时可能无效。

print(‘/’.join(jieba.cut(‘如果放到post中将出错。’, HMM=False)))
如果/放到/post/中将/出错/。
jieba.suggest_freq((‘中’, ‘将’), True)
494
print(‘/’.join(jieba.cut(‘如果放到post中将出错。’, HMM=False)))
如果/放到/post/中/将/出错/。
print(‘/’.join(jieba.cut(‘「台中」正确应该不会被切开’, HMM=False)))
「/台/中/」/正确/应该/不会/被/切开
jieba.suggest_freq(‘台中’, True)
69
print(‘/’.join(jieba.cut(‘「台中」正确应该不会被切开’, HMM=False)))
「/台中/」/正确/应该/不会/被/切开

jieba.posseg.POSTokenizer(tokenizer=None) 新建自定义分词器，tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器。jieba.posseg.dt 为默认词性标注分词器。
标注句子分词后每个词的词性，采用和 ictclas 兼容的标记法。

import jieba.posseg as pseg

words = pseg.cut("我爱北京天安门")
for word, flag in words:
    print('%s %s' % (word, flag))

我 r
爱 v
北京 ns
天安门 ns

词性和专名类别标签集合如下表，其中词性标签 24 个（小写字母），专名类别标签 4 个（大写字母）：

3.1 分词

这里就拿笔者最近看的一本小说判官.txt来进行实例词频分析吧。目的是想要分析这本小说的人物、名词、地名，从而对这本小说有个大概的认识。
分词代码如下：

    def m_get_content(self):
"""
        获取给定txt或str中的内容
        @return: {str:获取到的内容}
"""
        if self.f_input.endswith('.txt'):
            with open(self.f_input, 'r', encoding='utf-8') as f:
                content = f.read()
        else:
            content = self.f_input
        return content
    def m_get_target_words_from_content(self, p_content):
"""
        从目标内容中获取到指定词性的词语
        @param p_content: 需要分词的内容
        @return: {list:分词后的词语}
"""
        return [
            _.word
            for _ in psg.cut(p_content)
            if len(_.word) > 1 and _.flag in self.f_wordclass
        ]

3.2 按照词频排序

def words_frequency(p_list, p_reverse=True):
"""
    返回给定的list中的所有元素按照频率和指定的顺序组成的list
    @param p_list: 给定的list
    @param p_reverse: 指定的排序顺序(倒序为True，正序为False)
    @return: {list[tuple]:经过排序后的内容}
"""
    result = {}
    for word in p_list:
        result.setdefault(word, 0)
        result[word] += 1
    return sorted(result.items(), key=lambda x: x[1], reverse=p_reverse)
    def m_words_sort(self, p_words: list):
"""
        对获取到的分词的内容进行按照频率排序
        @param p_words: 需要进行按频率排序的内容
        @return: {list[tuple]:经过排序后的内容}
"""
        return words_frequency(p_list=p_words, p_reverse=self.f_reverse)

3.3 获取排序后的前N项内容制作柱图

    def m_show_words_frequency(self, p_words_sort: list):
"""
        将p_words_sort中的内容提取前p_ranknum项使用"-"符号展示柱图。
        @param p_words_sort: 要用来展示柱图的dict内容
        @return: {str:柱图}
"""
        max_frequency = max(p_words_sort[0][1], p_words_sort[-1][1])
        ratio = max_frequency / self.f_shownum
        print('%-5s\t%-5s\t%-5s\t%-15s' % ('序号', '词性', '词频', '柱图'))
        for i in range(self.f_ranknum):
            print(f'{i + 1:

3.4 获取排序后的前N项内容制作词云图

from wordcloud import WordCloud
        words_cloud = ' '.join([_[0] for _ in words_sort[:10]])
        wordcloud = WordCloud(font_path="msyh.ttc").generate(words_cloud)
        wordcloud.to_file(self.f_wordcloud_fn)

3.5 结果

人名部分

序号词性词频柱图
1 闻时 1405 ——————————
2 谢问 1092 ———————–
3 周煦 762 —————-
4 卜宁 513 ———-
5 张岚 466 ———
6 张雅临 332 ——-
7 张碧灵 219 —-
8 沈曼怡 216 —-
9 张正初 185 —
10 李先生 164 —

名词部分

序号词性词频柱图
1 时候 777 ——————————
2 有点 449 —————–
3 傀线 376 ————–
4 手指 345 ————-
5 声音 324 ————
6 地方 316 ————
7 感觉 293 ———–
8 眼睛 255 ———
9 老毛 209 ——–
10 对方 208 ——–

地名部分

序号词性词频柱图
1 夏樵 803 ——————————
2 东西 550 ——————–
3 大东 231 ——–
4 沈家 184 ——
5 云山 140 —–
6 沈桥 80 —
7 宁州 51 –
8 下山 45 –
9 天津 35 –
10 西屏园 32 –

3.6 完整代码

import jieba.posseg as psg

def words_frequency(p_list, p_reverse=True):
"""
    返回给定的list中的所有元素按照频率和指定的顺序组成的list
    @param p_list: 给定的list
    @param p_reverse: 指定的排序顺序(倒序为True，正序为False)
    @return: {list[tuple]:经过排序后的内容}
"""
    result = {}
    for word in p_list:
        result.setdefault(word, 0)
        result[word] += 1
    return sorted(result.items(), key=lambda x: x[1], reverse=p_reverse)

class WordsFrequency:
    def __init__(self, p_input: str, p_wordclass: list[str], p_ranknum=10, p_reverse=True, p_shownum=30, p_wordcloud_fn='人名.jpg'):
"""
        @param p_input: 要分析的文件名或字符串，文件必须为txt格式，编码为utf-8.

        @param p_wordclass: 要获取的词性。常见的类型有：普通名词n、人名nr、地名ns
        @param p_ranknum: 要获取前多少个目标词性的词语。
        @param p_reverse: 目标词语通过频率指定的排序方向。(倒序为True，正序为False)
        @param p_shownum: 频率最多的元素使用的柱图标识"-"的个数。
        @param p_wordcloud_fn: 生成词云图的图片文件名
"""
        self.f_input = p_input
        self.f_wordclass = p_wordclass
        self.f_ranknum = p_ranknum
        self.f_reverse = p_reverse
        self.f_shownum = p_shownum
        self.f_wordcloud_fn = p_wordcloud_fn

    def m_get_content(self):
"""
        获取给定txt或str中的内容
        @return: {str:获取到的内容}
"""
        if self.f_input.endswith('.txt'):
            with open(self.f_input, 'r', encoding='utf-8') as f:
                content = f.read()
        else:
            content = self.f_input
        return content

    def m_get_target_words_from_content(self, p_content):
"""
        从目标内容中获取到指定词性的词语
        @param p_content: 需要分词的内容
        @return: {list:分词后的词语}
"""
        return [
            _.word
            for _ in psg.cut(p_content)
            if len(_.word) > 1 and _.flag in self.f_wordclass
        ]

    def m_words_sort(self, p_words: list):
"""
        对获取到的分词的内容进行按照频率排序
        @param p_words: 需要进行按频率排序的内容
        @return: {list[tuple]:经过排序后的内容}
"""
        return words_frequency(p_list=p_words, p_reverse=self.f_reverse)

    def m_show_words_frequency(self, p_words_sort: list):
"""
        将p_words_sort中的内容提取前p_ranknum项使用"-"符号展示柱图。
        @param p_words_sort: 要用来展示柱图的dict内容
        @return: {str:柱图}
"""
        max_frequency = max(p_words_sort[0][1], p_words_sort[-1][1])
        ratio = max_frequency / self.f_shownum
        print('%-5s\t%-5s\t%-5s\t%-15s' % ('序号', '词性', '词频', '柱图'))
        for i in range(self.f_ranknum):
            print(f'{i + 1:

Original: https://www.cnblogs.com/sibide/p/16514164.html
Author: crleep
Title: Python词频分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/809832/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

关于 pytest 运行时提示 NameError: name ‘driver‘ is not defined 的问题

在运行pytest 提示 NameError: name ‘driver’ is not defined 原因：没有定位到driver，有可能是Chrome…

Python 2023年9月10日
0048
postman中js脚本简单用法

1.获取接口相应结果 2.设置环境变量 3.设置全局变量 4.通过key值获取环境变量 5.通过key值获取全局变量 6.通过key值获取一个变量 7.通过key值注销一个环境变量…

Python 2023年6月11日
0064
Python实现人脸识别功能，face_recognition的使用 | 机器学习

前言接着上一篇：AI识别照片是谁，人脸识别face_recognition开源项目安装使用 | 机器学习_阿良的博客-CSDN博客根据项目提供的demo代码，调整了一下功能，自…

Python 2023年10月26日
0054
python外星人入侵游戏加随机游动_Python外星人入侵游戏(四)：飞船左右移动

今日任务：控制飞船动手前思考 1.如何实现左右移动；游戏是通过循环来刷新界面，那就需要在循环中更新飞船的位置，更新位置是通过按键的点击，所以操作应该在监听按键和页面刷新中完成 …

Python 2023年9月23日
0046
【Pandas分组聚合】 groupby()、agg() 方法的使用

Pandas分组聚合创建一个dataframe结构分组函数 groupby() * 初识分组聚合多重行索引分组聚合对多列数据进行分组聚合综合应用聚合函数 agg（agg…

Python 2023年8月6日
0050
Python-Django 项目模块-年级模块开发（七）

Python-django 自定义模块开发-列表展示第四章 Django 自定义模块-年级模块开发过程前言这一系列文章是通过一个简单的学校项目进行演示的，项目中遇到的问题将一…

Python 2023年5月25日
0055
Spring Cloud:微服务基础知识

✨ Spring Cloud:微服务基础知识一、系统架构演变 * 1. 单体应用架构 2. 垂直应用架构 3. 分布式架构 4. SOA架构 – 4.1 SOA概念 …

Python 2023年8月26日
0044
Python基础之lambda表达式

1、lambda函数介绍 2、lambda函数与def函数的区别 3、lambda案例 4、map方法混搭有时在使用函数时不需要给函数分配一个名称，该函数就是”匿名函…

Python 2023年8月1日
0031
❤️【Python从入门到精通】（二十七）更进一步的了解Pillow吧！

您好，我是码农飞哥，感谢您阅读本文，欢迎一键三连哦。进一步介绍Pillow库的使用，详细了解干货满满，建议搜集，需要经常查看。如果您有任何问题和需求，请随时留言。 [En] Ful…

Python 2023年5月25日
0054
Python贪吃蛇 (完整代码+详细注释+粘贴即食）

文章目录代码运行截图笔记补充参考博客（阿里嘎多！）代码 ”’ 游戏玩法：回车开始游戏；空格暂停游戏/继续游戏；方向键/wsad控制小蛇走向 ”’ ”’ 思路：用列表…

Python 2023年9月17日
0034
python的环境，你再也不用愁-conda

Conda简介 conda是一个包，依赖和环境管理工具，适用于多种语言，如: Python, R, Scala, Java, Javascript, C/ C++, FORTRAN…

Python 2023年10月22日
0024
Selenium+python自动化-登录教程

Original: https://www.cnblogs.com/123456feng/p/16195474.htmlAuthor: 蚂蚁ailingTitle: Seleniu…

Python 2023年5月24日
0061
[selenium]等待

selenium显式等待、隐式等待和期望条件前言当网络不稳定或应用页面加载问题时，可以设置等待，以避免网络问题导致找不到元素等异常。 [En] When the network…

Python 2023年5月23日
0059
#yyds干货盘点#python列表

Python 支持多种复合数据类型，可将不同值组合在一起。最常用的列表，是用方括号标注，逗号分隔的一组值。列表可以包含不同类型的元素，但一般情况下，各个元素的类型相同：…

Python 2023年5月24日
0048
Mybatis 一级缓存和二级缓存原理区别 (图文详解)

Java面试经常问到Mybatis一级缓存和二级缓存，今天就给大家重点详解Mybatis一级缓存和二级缓存原理与区别@mikechen Mybatis缓存缓存就是内存中的数据，常…

Python 2023年10月21日
0046
GeoServer+Django(python3)+leaflet构建地图服务

做个最简单的，地图服务用GeoServer发布；Django做后端转发服务请求，leaflet做前端渲染并实现绘制功能。 Python是python3.7，IDE是社区版pycha…

Python 2023年8月6日
0044

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Python词频分析

2.1 安装库

2.2 方法介绍

2.3 代码示例

3.1 分词

3.2 按照词频排序

3.3 获取排序后的前N项内容制作柱图

3.4 获取排序后的前N项内容制作词云图

3.5 结果

3.6 完整代码

大家都在看