数据可视化——词云图

2023年5月28日上午2:00 • 人工智能 • 阅读 88

本文目的：将爬取的评论数据进行分词，然后使用词云图进行可视化操作。

使用到的工具：结巴中文分词、Wordcloud库

首先介绍一下两个工具，其中结巴中文分词是一个专门将中文句子进行分词的第三方库，当然还有其他的中文分词平台，使用比较多的是结巴中文分词。具体使用以及介绍详看平台的GitHub（https://github.com/fxsjy/jieba/）。目前英语分词比较方便，因为英语每一个单词本身都是有空格隔开的，但中文每个词没有隔开（每个句子有符号隔开），这就给中文分词带来很大的不便之处。相信未来会得到解决，对此感兴趣的可以尝试深挖这个行业。分词之后会带来一些无效的词汇，为了得到更加有效的分词结果，需要将无效的词汇删减，以便更有效的展示出结果。这里就带来了另一个问题，就是使用怎样的停用词汇。目前有”中文停用词汇”、”哈工大停用词汇”、”百度停用词汇”、”四川大学停用词汇”。这几种都是可以直接拿来使用的，但要是追求更好的结果可以自行设定一些停用词汇。本文将使用中文停用词汇。#中文停用词表#中文分词#-数据挖掘文档类资源-CSDN下载中文分词常见的停用词表更多下载资源、学习资料请访问CSDN下载频道. 数据可视化——词云图 https://download.csdn.net/download/Tobe_01/84423742 ;

词云图可视化结果，词云图可视化结果相对平常的绘图显得更加酷炫一些，网上也有很多的平台可以进行绘制词云图，本文使用的是Wordcloud来绘制词云图。

（官方网站：WordCloud for Python documentation — wordcloud 1.8.1 documentation）

本身两个库的使用都比较简单，下面直接上代码，代码中有详细步骤解释。生成的词云图的形状是可以根据自己喜好来设定的，只需要添加图片，并设置成背景即可（如下面注释掉的几行代码所示）。为了简便，就不添加背景图片了。

import wordcloud # &#x5206;&#x8BCD;
from wordcloud import WordCloud,ImageColorGenerator,STOPWORDS # &#x8BCD;&#x4E91;&#xFF0C;&#x989C;&#x8272;&#x751F;&#x6210;&#x5668;&#xFF0C;&#x505C;&#x6B62;&#x8BCD;
from PIL import Image # &#x5904;&#x7406;&#x56FE;&#x7247;
import pandas as pd
import numpy as np

def get_ciyun(data,n):
"""
    &#x7ED8;&#x5236;&#x8BCD;&#x4E91;&#x56FE;&#x7684;&#x51FD;&#x6570;&#xFF1A;data&#x8868;&#x793A;&#x8BC4;&#x8BBA;&#x6570;&#x636E;&#xFF0C;n&#x8868;&#x793A;&#x54EA;&#x4E00;&#x5929;&#x7684;&#x65E5;&#x671F;&#x3002;
    &#x5176;&#x4E2D;&#x51FD;&#x6570;&#x4F1A;&#x5148;&#x521B;&#x5EFA;&#x4E00;&#x4E2A;TXT&#x6587;&#x4EF6;&#x6765;&#x4FDD;&#x5B58;&#x8BC4;&#x8BBA;&#x6570;&#x636E;&#xFF0C;&#x7136;&#x540E;&#x4F7F;&#x7528;&#x7ED3;&#x5DF4;&#x8FDB;&#x884C;&#x5206;&#x8BCD;&#xFF0C;&#x6700;&#x540E;&#x4F7F;&#x7528;Wordcloud&#x8FDB;&#x884C;&#x7ED8;&#x5236;&#x8BCD;&#x4E91;&#x56FE;&#x5E76;&#x4FDD;&#x5B58;&#x3002;
"""
    # &#x4FDD;&#x5B58;&#x8BC4;&#x8BBA;&#x6570;&#x636E;
    for ele in data:
        with open("3&#x6708;{}&#x53F7;.txt".format(n),mode="a") as f:
            f.write(ele.split("[")[0])

    # &#x4F7F;&#x7528;&#x7ED3;&#x5DF4;&#x8FDB;&#x884C;&#x5206;&#x8BCD;
    with open('3&#x6708;{}&#x53F7;.txt'.format(n),'r',encoding='gbk') as f:  #&#x6253;&#x5F00;&#x65B0;&#x7684;&#x6587;&#x672C;&#x8F6C;&#x7801;&#x4E3A;gbk
            textfile = f.read()  #&#x8BFB;&#x53D6;&#x6587;&#x672C;&#x5185;&#x5BB9;
    seg_list = jieba.cut(textfile, cut_all=False)
    space_list = ' '.join(seg_list) #&#x7A7A;&#x683C;&#x94FE;&#x63A5;&#x8BCD;&#x8BED;
    # backgroud = np.array(Image.open('LME.jpg'))  # &#x6DFB;&#x52A0;&#x60F3;&#x8981;&#x7684;&#x80CC;&#x666F;&#x56FE;&#x7247;

    # &#x5236;&#x5B9A;&#x505C;&#x7528;&#x8BCD;&#x8868;
    stop_words = set()
    content = [line.strip() for line in open('&#x4E2D;&#x6587;&#x505C;&#x7528;&#x8BCD;&#x8868;.txt',mode="r",encoding='utf-8').readlines()]
    stop_words.update(content)

    # &#x7ED8;&#x5236;&#x8BCD;&#x4E91;&#x56FE;
    # backgroud = np.array(Image.open('LME.jpg'))
    wc = WordCloud(width=400, height=600,background_color='white',mode='RGB', max_words=500,
                   font_path='&#x202A;C:\Windows\Fonts\SIMLI.TTF',   # &#x5B57;&#x4F53;&#x8DEF;&#x5F84;&#xFF0C;&#x53EF;&#x4EE5;&#x6839;&#x636E;&#x7535;&#x8111;&#x5B57;&#x4F53;&#x8DEF;&#x5F84;&#x8FDB;&#x884C;&#x66F4;&#x6539;
                   max_font_size=150,
                   relative_scaling=0.6,  # &#x8BBE;&#x7F6E;&#x5B57;&#x4F53;&#x5927;&#x5C0F;&#x4E0E;&#x8BCD;&#x9891;&#x7684;&#x5173;&#x8054;&#x7A0B;&#x5EA6;&#x4E3A;0.4
                   random_state=50,
                   scale=3,  # &#x8BBE;&#x7F6E;&#x5B57;&#x4F53;&#x6E05;&#x6670;&#x5EA6;&#xFF0C;&#x8D8A;&#x5927;&#x8868;&#x793A;&#x8D8A;&#x6E05;&#x6670;
                   stopwords=stop_words  # &#x8BBE;&#x7F6E;&#x505C;&#x7528;&#x8BCD;&#x8868;
                  ).generate(space_list)
    # image_color = ImageColorGenerator(backgroud)   #&#x8BBE;&#x7F6E;&#x751F;&#x6210;&#x8BCD;&#x4E91;&#x7684;&#x989C;&#x8272;&#xFF0C;&#x5982;&#x53BB;&#x6389;&#x8FD9;&#x4E24;&#x884C;&#x5219;&#x5B57;&#x4F53;&#x4E3A;&#x9ED8;&#x8BA4;&#x989C;&#x8272;
    # wc.recolor(color_func = image_color)

    plt.imshow(wc) #&#x663E;&#x793A;&#x8BCD;&#x4E91;
    plt.axis('off') #&#x5173;&#x95ED;x,y&#x8F74;
    plt.show()#&#x663E;&#x793A;
    wc.to_file('3&#x6708;{}&#x53F7;_ciyun.jpg'.format(n)) #&#x4FDD;&#x5B58;&#x8BCD;&#x4E91;&#x56FE;

&#x8C03;&#x7528;&#x51FD;&#x6570;&#xFF0C;&#x4F1A;&#x8F93;&#x51FA;&#x5E76;&#x4E14;&#x4FDD;&#x5B58;&#x8BCD;&#x4E91;&#x56FE;.

get_ciyun(data,n)

本文绘制词云图使用的数据来源于国内财经网页的股吧评论，通过爬虫获得。下面的词云图展示的是3月7号当天的所有评论数据。可以发现最显眼的有”沪镍”、”ni2204″、”镍”等，因为爬取的股吧正是沪镍吧下面的评论数据，所以此类相关的词汇比较多。

此次事件缘由是因为国内一家民企青山集团经营所需，正常持有20万吨的空头期货（作为套期保值），但由于俄乌战争，使得俄方的镍被移出伦敦交易所，无法进入欧洲市场，导致镍的供应不足，镍价因此暴涨（两个交易日涨了248%,见下面走势图），当然也存在多头方从中作怪的可能。如果到期青山集团无法交出这么多镍的现货就只能以高价进行平仓，这必然会导致很大的损失。这是经典的”多逼空”案例。

从词云图中可以看到”沪镍”、”空头”、”ni2204″、”涨停”等字眼比较突出，这些字眼也正是整个事件最突出的部分，其中”沪镍”表示此次的交易场所为上海期货交易所的镍产品，而”ni2204″则是镍产品的交易代码。”空头”正是此次事件的核心，就是青山集团持有的空头期货，”涨停”反应则是镍价的走势。对比于文本类的数据，词云图在突出展示信息重要性方面还是存在优势的，一方面，可以更加简洁清晰的展示结果，另一方面能够突出数据的关键词，有利于更快速的定位事件的核心。除此之外，本文展示的只是3月7号当天的数据，从词云图中也可以看到一些”明天”的字眼，由于7号当天青山集团对此事件并没有做出回应，所以人们很关心明天，或者接下来青山集团会怎么应对此次的”多逼空”。

ni2204走势图

3月7号评论词云图

Original: https://blog.csdn.net/Tobe_01/article/details/123427047
Author: TobeZhu
Title: 数据可视化——词云图

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528670/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

D3D处理2D图像: NV12格式及其转换（1）

NV12格式介绍 YUV 4:2:0是视频和图片编码和解码最常用的输入和输出格式。而在D3D中NV12是支持最广泛的YUV 4:2:0格式，主要因为它在GPU中处理的效率最高，只有…

人工智能 2023年5月26日
0098
Deformable DETR 实战（训练及预测）

开源地址：https://github.com/fundamentalvision/deformable-detr 超级小白，摸索了几天，感谢批评指正！！！一、数据集准备 1.下…

人工智能 2023年7月28日
0075
机器学习—聚类5-3（DBSCAN算法）

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

人工智能 2023年6月4日
0081
第八届泰迪杯B题特等奖比赛论文——基于Mask R-CNN及Yolov4的电力巡检中绝缘子缺陷研究

说明限时参赛完成的论文，大三（2020.5.8）时写的，忙着考研没及时分享。现在来看论文写的很粗糙。复制粘贴麻烦，这里仅展示部分，直接附上PDF文档，官网也有。第八届挑战赛B1-…

人工智能 2023年7月16日
0078
【pandas】Error tokenizing data. C error: Expected 6 fields in line 3, saw 9

今天又是编写代码的一天，在使用 pandas的 read_csv读取文件时候，程序运行突然出现了错误 Traceback (most recent call last): File…

人工智能 2023年6月16日
0077
常见数据集格式+数据集标注

文章目录 * – 一、什么是目标检测？ – 二、常见数据集 – + 1.VOC数据集 + 2.COCO数据集 – 三、数据集标注 &…

人工智能 2023年6月25日
00111
一文带你用Python玩转线性回归模型《加利福尼亚房价预测》回归模型评估指标介绍

大家早上好，本人姓吴，如果觉得文章写得还行的话也可以叫我吴老师。欢迎大家跟我一起走进数据分析的世界，一起学习！感兴趣的朋友可以关注我或者我的数据分析专栏，里面有许多优质的文章跟大家…

人工智能 2023年6月17日
00115
python数据分析基础010 -利用pandas带你玩转excel表格（终篇）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月15日
0053
YoloV7:训练自己得数据集详细教程

美团刚刚发出yolov6，AB大神就带着yolov7来了。。。。。这速度是真快。。在 5-160 FPS 范围内速度和精度超过所有已知目标检测器。在后不到两个星期，提出 YO…

人工智能 2023年6月15日
0079
机器学习-学习笔记(一) –> （假设空间 & 版本空间）及归纳偏好

机器学习一、机器学习概念啥是机器学习基本术语二、假设空间 & 版本空间假设空间（hypothesis space）： 1. 假设空间的定义 2. 假设空间的生成 …

人工智能 2023年6月4日
00157
python读取txt数据

目录 1、操作步骤路径问题函数说明 .3 数据处理 .4 python分行读取带字符串的数字 1、操作步骤（1）打开文件读取整个文件函数open返回一个表示文件的对象，对象…

人工智能 2023年7月5日
0062
pandas删除nan数据，筛选出nan的数据，筛选出非nan的数据，替换nan值

在处理缺失值的时候，总会遇到各种问题目录 1.删除全部为nan的行 2.删除含有nan的行 3.删除全部为nan的列 4. 删除包含nan的列 5.删除指定某一列有nan，这样即…

人工智能 2023年7月6日
0057
AlexNet网络详解

文章目录 * – 1 模型介绍 – 2 模型结构 – 3 模型创新 – 4 Pytorch模型搭建 1 模型介绍 2012年，A l…

人工智能 2023年7月14日
0063
PySpark和SQL中的pivot 最佳实践

目录前言实践理解 * 例子及pivot参数介绍代码实践结尾语前言 pivot官方文档：pyspark.sql.GroupedData.pivot pivot的中文解释是机…

人工智能 2023年7月7日
0058
orange软件：预测模型：逻辑回归

逻辑回归：Logistic Regression 逻辑回归算法介绍首先用逻辑回归方法建立一个分类模型： * 新建data—>file 新建model—>Logisti…

人工智能 2023年6月11日
0094
Could not load dynamic library ‘cudart64_110.dll‘； dlerror: cudart64_110.dll not found Ignore above

问题描述 2021-12-11 22:03:37.094666: W tensorflow/stream_executor/platform/default/dso_loader….

人工智能 2023年6月16日
0078

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

数据可视化——词云图

本文目的：将爬取的评论数据进行分词，然后使用词云图进行可视化操作。

使用到的工具：结巴中文分词、Wordcloud库

大家都在看