实战2 – 疫情背景下的周边游需求图谱分析（问题一）

2023年6月1日下午8:46 • 人工智能 • 阅读 66

来源于2022泰迪杯C题——疫情背景下的周边游需求图谱分析。

随着互联网和自媒体的繁荣，文本形式的在线旅游（Online Travel Agency，OTA）和游客的用户生成内容（User Generated Content，UGC）数据成为了解旅游市场现状的重要信息来源。OTA 和UGC 数据的内容较为分散和碎片化，要使用它们对某一特定旅游目的地进行研究时，迫切需要一种能够从文本中抽取相关的旅游要素，并挖掘要素之间的相关性和隐含的高层概念的可视化分析工具。

为此本赛题提出本地旅游图谱这一概念，它在通用知识图谱的基础上加入了更多针对旅游行业的需求。本地旅游图谱采用图的形式直观全面地展示特定旅游目的地”吃住行娱购游”等旅游要素，以及它们之间的关联。图 1 所示为我国西藏阿里地区的本地旅游图谱，中心位置节点为旅游目的地”阿里”，它的下层要素包括该地区的重要景点如”冈仁波齐” 和”玛旁雍错”，以及”安全”、”住宿”等旅游要素。旅游要素分为多个等级，需要从文本中挖掘出面对不同要素游客所关注的下一级要素。如阿里地区的”安全”要素下包括 “高反”、”天气”和”季节”等下一级要素，这个组合是西藏旅游所特有的。旅游要素之间会存在关联关系，如”冈仁波齐”和”玛旁雍错”这两个景点通过”神山圣湖”这一高层概念产生联系，在本地旅游图谱中使用连接两个节点的一条边来表示。

问题一：微信公众号文章分类

构建文本分类模型，对附件 1 提供的微信公众号的推送文章根据其内容与文旅的相关性分为” 相关” 和” 不相关” 两类，并将分类结果以表 1 的形式保存为文件”result1.csv”。与文旅相关性较强的主题有旅游、活动、节庆、特产、交通、酒店、景区、景点、文创、文化、乡村旅游、民宿、假日、假期、游客、采摘、赏花、春游、踏青、康养、公园、滨海游、度假、农家乐、剧本杀、旅行、徒步、工业旅游、线路、自驾游、团队游、攻略、游记、包车、玻璃栈道、游艇、高尔夫、温泉等等。

经查阅matlab帮助文档，matlab自带的分词函数不支持中文（流汗），于是我只能用python编程，借助jieba分词，将文章分词后存入excel。
我是在jupyter notebook里实现的，首先导入需要的模块，

import jieba
import pandas as pd
import numpy as np
import xlsxwriter

将文件读取到内存中，

weixin_wz = pd.read_excel(r'微信文章.xlsx')

查看列名，

print(weixin_wz.columns)

Index(['文章ID', '公众号标题', '发布时间', '正文'], dtype='object')

将标题和正文合并成新的一列，

weixin_wz['公众号标题_正文'] = weixin_wz['公众号标题'] + '\n' + weixin_wz['正文']

将series转化为list，并进行jieba分词，

wenben=weixin_wz['公众号标题_正文']
fenci = []
list_wenben = [str(b) for b in wenben.to_list()]
for a in list_wenben:
    fenci.append(jieba.lcut(a))
fenci_array = np.array(fenci)

将结果存于’jieba分词.xlsx’中，

workbook = xlsxwriter.Workbook('jieba分词.xlsx')
worksheet = workbook.add_worksheet()
h=fenci_array.shape[0]
for i in range (h):
    row_data=fenci_array[i]
    l=(np.array(row_data)).shape[0]
    for j in range (l):
        worksheet.write(i,j,row_data[j])

workbook.close()

以下是使用matlab做的，因为excel中每一行的长短不一，所以使用的readcell函数读取 ‘jieba分词.xlsx’ ，但我发现该函数的读取速度很慢，读到内存里后，也特别占内存，

warning("off");
lujing='jieba分词.xlsx';
C = readcell(lujing);

matlab是使用函数tokenizedDocument对文档进行”标记化”，我的理解是可以对文档进行精细化分词，因为我已经提前使用python把词分好了，所以”TokenizeMethod”选的”none”。先对第一行进行试水操作，

CC=C(1,:);
CC_S=string(CC);
%去除各种标点符号
expression = '[(，)(！)(？)(。)(\n)(\r)(：)(、)(")(")(（)(）)(【)(】)]';
replace = '';
newStr = regexprep(CC_S,expression,replace);
miss_in=ismissing(newStr);
newStr(miss_in)=[]; %去除缺失值
newStr(newStr=="")=[]; %去除空字符串
documents_out=tokenizedDocument(newStr,"TokenizeMethod","none");

然后对剩余其它行进行处理，

for i=2:size(C,1)
    CC=C(i,:);
    CC_S=string(CC);
    %去除各种标点符号
    expression = '[(，)(！)(？)(。)(\n)(\r)(：)(、)(")(")(（)(）)(【)(】)]';
    replace = '';
    CC_S = regexprep(CC_S,expression,replace);
    miss_in=ismissing(CC_S);
    CC_S(miss_in)=[]; %去除缺失值
    CC_S(CC_S=="")=[]; %去除空字符串
    documents_out=[documents_out;tokenizedDocument(CC_S,"TokenizeMethod","none")];
end

将与文旅相关性较强的词存在wenlv_keywords中，然后求解documents_out的每一行与wenlv_keywords的余弦相似度，

queries = tokenizedDocument(wenlv_keywords,"TokenizeMethod","none");
similarities = cosineSimilarity(documents_out,queries);

计算相似度大于0的文章数量，

sum(similarities>0)

得出5665篇文章里共有3819篇文章与文旅相关，其余文章不相关。

Original: https://blog.csdn.net/qq_43301351/article/details/125154089
Author: 木星流火
Title: 实战2 – 疫情背景下的周边游需求图谱分析（问题一）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/558441/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python机器人编程——差速机器人小车的控制，控制模型、轨迹跟踪，轨迹规划、自动泊车（上）

目录一、前言二、差速小车机器人的运动分析三、正向运动控制模型推导 * 3.1问题描述 3.2符号定义 3.3算式推导 – Step1 寻找数量关系，求出圆周半径，…

人工智能 2023年7月27日
00114
银行利率bp是什么意思,利率bp怎么换算

银行利率下降5bp，bp是什么意思啊？ bp是基点的意思一个基点就是0.01%，就是利率下降0.05%，银行利率下降5bp，就是银行利率下降0.25%。 bp是指基点BasisPo…

人工智能 2023年7月13日
0090
R3live笔记：（图像处理）视觉-惯性里程计VIO部分

R3LIVE相关参考：R3LIVE(升级R2LIVE)：编译与运行https://blog.csdn.net/handily_1/article/details/122271243…

人工智能 2023年6月20日
0082
初学者Tensorflow2.0第一个程序（含源码）

小白初入门的时候还是踩了很多坑，所以以一个初学者的角度记录一下自己复现的第一个基于TensorFlow程序。由于并不是专业，可能多有不足，不过水平相近的话应该可以更好的分享经验，…

人工智能 2023年5月26日
0086
[ 目标检测 ] 经典网络模型1——R-CNN 详解与复现

🤵 Author ：Horizon Max ✨ 编程技巧篇：各种操作小结 🎇 机器视觉篇：会变魔术 OpenCV 💥 深度学习篇：简单入门 PyTorch 🏆 神经网络篇：经典网络…

人工智能 2023年7月12日
0073
医学图像分割常用指标及代码（pytorch）

现在，医学图像分割有很多现成的工具包可以快速测量一些指标，比如python中的medpy库。但是，我们还是要学习一下滴！该文章列出了一些常用的指标，并解释了它的原理。目录一、医…

人工智能 2023年7月22日
0093
Python 计算机视觉（十）—— OpenCV 图像锐化及边缘检测

参考的一些文章以及论文我都会给大家分享出来 —— 链接就贴在原文，论文我上传到资源中去，大家可以免费下载学习，如果当天资源区找不到论文，那就等等，可能正在审核，审核完后就可以下载了…

人工智能 2023年6月17日
0086
[深度学习实验]通过keras实现Attenion注意力机制

前言：为何写此篇？最近搞毕设，需要用到Attenion去学习时间序列，同性交友网（github）和CSDN也有很多文章，但是由于 Tensorflow迭代比较快，而很多历程使用…

人工智能 2023年5月26日
00101
Anaconda创建的环境在pycharm中显示不出来的解决方法

写这篇博客的原因是，我刚下载好tensorflow,创建了一个新的环境，想在pycharm中检验一下，但是在创建项目的过程中找不到我在 anconda中创建的tensorflow…

人工智能 2023年5月26日
00111
Convolutional神经网络是什么？它的原理是什么

Convolutional神经网络 Convolutional神经网络是一种广泛应用于图像处理和计算机视觉任务的深度学习算法。它通过在不同区域上进行卷积操作，将输入图像转换为更有意…

人工智能 2024年1月3日
0044
在windows下训练solov2记录（继上次windows环境搭建）

写在最前面：在pycharm中运行的时候，记得用管理员身份打开pycharm，不然训练会报错。我们标注数据集使用的是labelme来标注，每一个图片会生成一个json标注文件，…

人工智能 2023年7月12日
0060
yolov5部署之dll封装并调用的方法

文章目录前言 * 1. VS2015新建一个dll项目 2. 将yolov5封装成一个导出类 3. 新建一个Test项目，调用yolov5类 4. 编译运行总结 *******…

人工智能 2023年6月20日
00176
OpenCV C++双目三维重建：双目摄像头实现双目测距

OpenCV C++双目三维重建：双目摄像头实现双目测距目录 OpenCV C++双目三维重建：双目摄像头实现双目测距 1.目录结构 2.依赖库 (1) Ubuntu 18.04…

人工智能 2023年7月20日
0058
机器学习分类算法之XGBoost（集成学习算法）

目录走进XGBoost 什么是XGBoost？ XGBoost树的定义 XGBoost核心算法正则项：树的复杂程度 XGBoost与GBDT有什么不同 XGBoost需要注意的…

人工智能 2023年6月26日
0078
SARIMA模型时间序列数据分析（附python代码）

一、主要内容根据SARIMA 实验的基本流程，对强生每股季度利润进行建模预测。 1 ）进行数据可视化操作。 2 ）进行季节性分析和平稳性分析。 3 ）如有必要，进行平稳化操作，并…

人工智能 2023年7月18日
0069
【模式识别】SVM实现人脸表情分类

import os import numpy as np import cv2 import matplotlib.pyplot as plt import seaborn fro…

人工智能 2023年7月1日
0098

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

实战2 – 疫情背景下的周边游需求图谱分析（问题一）

大家都在看