python之词频统计

2023年5月27日下午11:49 • 人工智能 • 阅读 59

文章目录

1、Hamlet英文词频统计
2、python之jieba库
3、《三国演义》中文人物出场统计

1、Hamlet英文词频统计

txt = open('hamlet.txt','r').read()

txt = txt.lower()

for ch in ',./?;:'"<>=+-[]{}!~%@()
    txt.replace(ch, ' ')

words = txt.split()
counts = {}
for word in words:
    counts[word] = counts.get(word, 0) + 1

counts = sorted(counts.items(), key = lambda x: x[1], reverse = True)

for i in range(10):
    word, count = counts[i]
    print('{0:5}'.format(word,count)

运行之后发现高频单词大多数是冠词、代词、连接词等语法型词汇，并不能代表文章含义
建立一个排除词库encludes

excludes = {'the','and','of','you','a','i','my','in'}
txt = open('hamlet.txt', 'r').read()

txt = txt.lower()

for ch in ',./?;:'"<>=+-[]{}!~%@()
    txt = txt.replace(ch, ' ')

words = txt.split()

counts = {}
for word in words:
    counts[word] = counts.get(word, 0) + 1
for word in excludes:
    del counts[word]

counts = sorted(counts.items(), key = lambda x:x[1],reverse = True)

for i in range(10):
    print('{:5}'.format(counts[i][0],counts[i][1])

2、python之jieba库

1）重要的第三方中文分词函数库
2）安装 pip3 install jieba
3）常用函数

; 3、《三国演义》中文人物出场统计

import jieba
txt = open('三国演义.txt','r', encoding='utf-8').read()
words = jieba.lcut(txt)

counts = {}
for word in words:
    if len(word) == 1:
        continue
    else:
        counts[word] = counts.get(word, 0) + 1

counts = sorted(counts.items(), key = lambda x: x[1], reverse = True)

for i in range(5):
    word, count = counts[i]
    print('{:5}'.format(word, count))

【代码改进】
1、排除与人名无关的词汇
2、同一个人有不同称谓

encludes = {'将军','却说','荆州','二人','不可','不能','如此'}
import jieba
txt = open('三国演义.txt','r', encoding='utf-8').read()

words = jiaba.lcut(s)

counts = {}
for word in words:
    if len(word) == 1:
        continue

    elif word == '诸葛亮' or '孔明曰':
        rword = '孔明'
    elif word == '关公' or '云长':
        rword = '关羽'
    elif word == '玄德' or '玄德曰':
        rword = '刘备'
    elif word == '孟德' or '丞相':
        rword = '曹操'
    else:
        rword = word
    counts[rword] = counts.get(rword, 0) + 1

for word in excludes:
    del counts[word]

counts = sorted(counts.items(), key = lambda x:x[1], reverse=True)

for i in range(10):
    print('{:5}'.format(counts[i][0], counts[i][1]))

Original: https://blog.csdn.net/weixin_54958866/article/details/123466990
Author: grittii
Title: python之词频统计

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528218/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

常用Doc命令

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月26日
00123
分享 | OpenCV4.5.4 语音识别使用测试(含详细步骤)

点击下方卡片，关注” OpenCV与AI深度学习“公众号！视觉/图像重磅干货，第一时间送达！导读本文主要为大家分享OpenCV4.5.4中语音识别实…

人工智能 2023年5月23日
0063
YOLO算法创新改进系列项目汇总（入门级教程指南）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月30日
0075
【知识图谱论文】AttnPath：将图注意力机制融入基于深度强化的知识图推理

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月1日
0071
R语言、01 VSCODE 配置 R 环境快速指南、4.2.1版本

安装最新版 R-4.2.1 R: The R Project for Statistical Computing (r-project.org) 有大量镜像供选择下载，找中国地区镜…

人工智能 2023年6月4日
00123
1、知识图谱的概述

知识图谱是一种用图谱模型来描述知识和模型世界万物之间的关联关系方法。知识图谱由节点和边组成。节点可以是实体（一个人，一部电视剧等）或者抽象的概念（深度学习，人工智能，机器学习等…

人工智能 2023年6月10日
0054
python 用lasso进行变量选择_python机器学习库scikit-learn简明教程之：Lasso回归预测…

1.简介 LASSO回归的特点是在拟合广义线性模型的同时进行变量筛选和复杂度调整。因此，不论目标因变量是连续的，还是二元或者多元离散的，都可以用LASSO回归建模然后预测。这…

人工智能 2023年6月17日
0071
Java集合框架最全详解(看这篇就够了)

Java集合体系框架 Java集合类主要由两个根接口Collection和Map派生出来的。 Collection派生出了三个子接口： 1)List List代表了有序可重复集合，…

人工智能 2023年7月29日
0044
java计算机毕业设计健身俱乐部管理系统MyBatis+系统+LW文档+源码+调试部署

本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：idea eclipse 前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAV…

人工智能 2023年6月30日
0078
Pytorch中torch.unsqueeze()和torch.squeeze()函数解析

一. torch.squeeze()函数解析 1. 官网链接 torch.squeeze()，如下图所示： ; 2. torch.squeeze()函数解析 torch.squee…

人工智能 2023年7月13日
0042
MEMS惯导—芯片封装有多重要

1、MEMS惯性芯片封装的作用 MEMS芯片封装是将MEMS裸片封装在一个壳体中，从而保护MEMS结构和信号处理单元。封装装配包括如划片、裂片、粘片、裸片间互连、外围接口互连和密封…

人工智能 2023年6月10日
00129
[机器学习与scikit-learn-51]：模型评估-图解分类模型的评估指标（准确率、精确率、召回率）与代码示例

作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客本文网址：https://blog.csdn.net/HiWangWenBing/art…

人工智能 2023年7月1日
0080
go入门项目：(3) Bookstore-REST-API

CRUD API 添加书籍示例 [ { "id": "4", "title": "Rust权威指南"…

人工智能 2023年6月4日
0062
Matplotlib入门篇，也可以很酷炫

哈喽，大家好。今天写一篇 Matplotlib 的入门教程。 Matplotlib 是 Python 数据可视化库，广泛应用在数据分析和机器学习中。 1. 第一张图 Matplot…

人工智能 2023年7月18日
0072
图像处理模式

常用的减少分辨率：Skipping（跳采样）和Binning（合并读出） Binning 图像读出模式：将相邻的像元中感应的电荷被加在一起，以一个像素的模式读出。Binning分为…

人工智能 2023年6月22日
0078
聚类算法之层次聚类

层次聚类 1. 基本介绍层次聚类有聚合（自下而上）和分裂（自上而下）两种方式。聚合聚类开始将每个样本各自分到个类:之后将相距最近的两类合井，建立一个新的类，重复此操作直到满足…

人工智能 2023年5月31日
0090

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

python之词频统计

文章目录

大家都在看