利用python爬取东方财富网股吧评论并进行情感分析（一）

2023年6月11日下午3:51 • 人工智能 • 阅读 187

利用python爬取东方财富网股吧评论（一）

python-东方财富网贴吧文本数据爬取

分享一下写论文时爬数据用到的代码，有什么问题或者改善的建议的话小伙伴们一起评论区讨论。涉及内容在前人的研究基础之上，探索适合自己一些知识点，本人非计算机专业，金融专业，学习爬虫用于项目研究，以此发表供大家学习与指点。

一、论文说明

论文需求：股吧中人们发表的评论和创业板股市价格波动
数据来源：东方财富网创业板股吧
数据标签：阅读、评论、标题、作者、更新时间，
实现功能：读取每个股吧的全部页面的评论并写入excel表中

二、实施过程

1.明确评论数据

2.查看网页源代码结构
① 网页源代码
首先打开网页的开发者工具（右击-检查）或者右击网页源代码，在源代码中查找对应字段的标签。
以下是大多数学者的分析：

从图中可以看出，这五个字段分别位于行标签内，对应的属性分别是”l1 a1″、”l2 a2″、”l3 a3″、”l4 a4″、”l5 a5″。
如果单纯想要获取此网址所对应的数据，参考此方法都可以进行爬取。但是，爬取之后会发现标题内容是不全，缺失的：

下面是每一条标题评论的详细网页的内容，与总页对比，详情页内容是完整的：

所以我们需要确定每一条详细评论的详情网页：
利用python爬取东方财富网股吧评论并进行情感分析（一）

以上通过简单分析，我们确定了所需要数据对应的标签结构所在处。
我们需要爬取不止一页的数据，因此还要分析以下情况：
首页：http://guba.eastmoney.com/list,zssz399006.html
第二页：http://guba.eastmoney.com/list,zssz399006_2.html
可以看出个股吧链接主要由三部分组成：list、名称代码、页数
通过以上分析，我们基本可以爬取需要的数据。

; 三、部分代码

1.以下是仅仅获取每一个总页中标题内容的代码

max_page=  #&#x722C;&#x53D6;&#x7684;&#x6700;&#x5927;&#x9875;&#x6570;
all_title = []   #&#x722C;&#x53D6;&#x7684;&#x6807;&#x9898;&#x5B58;&#x50A8;&#x5217;&#x8868;
all_time  = []   #&#x722C;&#x53D6;&#x7684;&#x53D1;&#x8868;&#x65F6;&#x95F4;&#x50A8;&#x5B58;&#x5217;&#x8868;
headers = {'User-Agent': ''}  #&#x6784;&#x9020;&#x5934;&#x6587;&#x4EF6;&#xFF0C;&#x6A21;&#x62DF;&#x6D4F;&#x89C8;&#x5668;&#x3002;
for page in range(1,max_page+1):
    #&#x83B7;&#x53D6;&#x7F51;&#x9875;&#x6E90;&#x4EE3;&#x7801;
    print('crawling the page is {}'.format(page))
    url= f'http://guba.eastmoney.com/list,zssz399006,f_{page}.html'
    response  = requests.get(url, headers=headers)
    #&#x89E3;&#x6790;&#x7F51;&#x9875;&#x6E90;&#x4EE3;&#x7801;
    root = etree.HTML(response.text)
    title = root.xpath("//div[contains(@class,'articleh normal_post')]//span[@class='l3 a3']//a//text()")
    time = root.xpath("//div[contains(@class,'articleh normal_post')]//span[@class='l5 a5']//text()")
    all_title += title  #&#x4FDD;&#x5B58;&#x5230;&#x603B;&#x6570;&#x7EC4;&#x4E0A;
    all_time  += time

data_raw = pd.DataFrame()
data_raw['title'] = all_title
data_raw['time'] = all_time
data_raw.to_excel('.//data_raw.xlsx', index=False)

四、完整代码

以下是本人长时间自己摸索所写，因本人非计算机专业，所写内容如有错误请各位前辈同仁所担待并提出宝贵意见，原谅本人不能提供相对完整代码，框架已写好，缺失部分填写对应的标签即可，如有需要请联系本人（注明来意）

import requests
from lxml import etree
import re
import csv
f = open('&#x521B;&#x4E1A;&#x677F;&#x80A1;&#x5427;&#x8BC4;.csv',mode='a',encoding='utf-8',newline='')#&#x53EF;&#x4EE5;&#x81EA;&#x5DF1;&#x6539;&#x6587;&#x4EF6;&#x540D;
csv_writer = csv.DictWriter(f,fieldnames=['&#x6807;&#x9898;','&#x6807;&#x9898;url','&#x53D1;&#x5E03;&#x65F6;&#x95F4;','&#x603B;&#x9605;&#x8BFB;&#x4EBA;&#x6570;','&#x603B;&#x8BC4;&#x8BBA;&#x6570;','&#x6B63;&#x6587;'])#&#x8FD9;&#x4E2A;&#x662F;&#x8868;&#x7684;&#x5B57;&#x6BB5;&#x540D;&#x79F0;
csv_writer.writeheader()
def xiangqing(n):
    url = 'http://guba.eastmoney.com/list,zssz399006_{}.html'.format(n)
    print('crawling the page is {}'.format(n))
    header = {
    'User-Agent': '    '
    }
    response = requests.get(url,headers=header)
    html = etree.HTML(response.text)
    text = html.xpath('     ')
    url_list = html.xpath('     ')
    return url_list
def a(url_list):
    header = {
        'User-Agent': '    '
    }
    for url in url_list:

            new_url = 'http://guba.eastmoney.com' + url
            response = requests.get(new_url,headers = header)
            html = etree.HTML(response.text)
            title = re.findall('     ',response.text)[0].replace('"','')
            text = re.findall('      ',response.text)[0].replace('"','')
            readers = re.findall(r'    ', response.text)[0]  # &#x83B7;&#x53D6;&#x603B;&#x4EBA;&#x6570;
            comments = re.findall(r'   ', response.text)[0]  # &#x83B7;&#x53D6;&#x603B;&#x8BC4;&#x4EF7;&#x6570;
            date = html.xpath('     ')[0]  # &#x83B7;&#x53D6;&#x53D1;&#x5E03;&#x65F6;&#x95F4;
            dic = {

            }
            csv_writer.writerow(dic)  #&#x5C06;&#x83B7;&#x53D6;&#x5230;&#x7684;&#x6570;&#x636E;&#x5199;&#x5165;&#x521B;&#x5EFA;&#x7684;csv&#x6587;&#x4EF6;&#x4E2D;# def bianli():
if __name__ == '__main__':
    for i in range(3195,3295):
        #&#x4EE5;&#x4E0B;&#x662F;&#x5FAA;&#x73AF;&#x4EE3;&#x7801;

五、爬取结果

由于本人正处在多进程学习当中，多进程代码无法提供，请谅解。

此正文部分可进行相关情绪分析且内容完整。

; 六、自我介绍

本人初次接触爬虫，一名金融非计算机专业的研究生二年级学生，学习之路漫漫且困难重重，以上信息如有雷同，请谅解。
希望广大学者指导交流。
接下来会写一篇lstm进行情感分析，请广大读者持续关注，谢谢。
本人 QQ:私信联系博主

Original: https://blog.csdn.net/YMG521000/article/details/114820502
Author: 学无止境_mg
Title: 利用python爬取东方财富网股吧评论并进行情感分析（一）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/600513/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python数据分析【第11天】| DataFrame转化格式并保存（to_excel()，to_json()，to_csv()）

系列文章目录第1天：读入数据第2天：read()、readline()与readlines()第3天：进度条（tqdm模块）第4天：命令行传参（argparse模块）第5天：读、…

人工智能 2023年7月7日
00138
随机森林降维

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.ensemble …

人工智能 2023年7月8日
0062
如何开启你的元宇宙社交之路？元宇宙社交产品推荐 #Bigscreen #元名片

今天元名片刷屏了元名片是一款产品？太卷了。。做个名片都要数字人（个人信息已遮挡）挺有趣的，丰富销售内容，容易拉近客情关系这个让我想起了有的景区里有傻傻的虚拟人向你讲解历史 …

人工智能 2023年6月1日
0085
设计模式学习（二十四）：Spring 中使用到的设计模式

设计模式学习（二十四）：Spring 中使用到的设计模式作者：Grey 原文地址：博客园：设计模式学习（二十四）：Spring 中使用到的设计模式 CSDN：设计模式学习（二十…

人工智能 2023年6月29日
0074
YOLOv5简析

先说些题外话，YOLOv5没有论文，其作者是Mosaic Augmentation 的创造者，YOLO V5 在性能上稍弱于YOLO V4，但是在灵活性与速度上远强于YOLO V4…

人工智能 2023年5月26日
0085
一整套美团面经（给对象超用心整理的）

做测试的，我整理的真的很用心了，能找的新鲜面经都找了。一面 1. 自我介绍 2. 面向对象的三种特性集成用到了哪些特性多态的具体使用场景设计模式中的多态体现（手撕）封装：…

人工智能 2023年5月30日
0061
【踩坑教程】win10环境下RTX3050Ti安装Tensorflow-gpu2.5+CUDA11.2.1+cudnn8.1.0

人工智能 2023年5月26日
0077
TensorFlow可以与其他深度学习框架进行互操作吗

问题介绍 TensorFlow 是一个非常流行的深度学习框架，它提供了很多方便易用的工具和功能。一个常见的疑问是，TensorFlow 是否可以与其他深度学习框架进行互操作？本文将…

人工智能 2023年12月31日
0074
202022 mp3文件能够完整播放，再次编辑（放入剪映）时却少几秒

帮雪雪读故事录了一段音借助 “录音专家” 这个软件录的喜欢录音专家是因为可以转存成视频格式，存放在图片中，我可以借助视频格式，放到剪映里进行编辑，…

人工智能 2023年5月27日
00161
指纹图谱相似度评价软件_杜仲平压片指纹图谱及3种成分含量测定

杜仲平压片指纹图谱及3种成分含量测定何艳,张辉 (湘南学院药学院,湖南郴州423000) 杜仲平压片是由杜仲叶经水煎煮､提取加工制成的片剂,能降血压,强筋健骨;适用于高血压､腰膝…

人工智能 2023年6月1日
0088
深度学习目标检测模型综述

还是学习啊勿怪勿怪给自己好保存而已哦论文地址：https://arxiv.org/pdf/2104.11892.pdf whaosoft aiot http://143ai….

人工智能 2023年6月25日
0090
深度学习参数初始化（一）Xavier初始化含代码

目录一、简介二、基础知识三、标准初始化方法四、Xavier初始化的假设条件五、Xavier初始化的简单的公式推导：六、Pytorch实现：七、对比实验 1.各层激活值…

人工智能 2023年6月23日
0081
自然语言处理NLP中文分词，词性标注，关键词提取和文本摘要

1.1 jieba “结巴”中文分词，理念是做最好的 Python 中文分词组件。支持三种分词模式：（1）精确模式，试图将句子最精确地切开，适合文本分…

人工智能 2023年5月27日
00237
AI遮天传 ML-无监督学习

一、无监督学习介绍机器学习算法分类(不同角度)：贪婪 vs. 懒惰参数化 vs. 非参数化有监督 vs. 无监督 vs. 半监督 …… 什么是无监督…

人工智能 2023年6月13日
0093
c# in vs out vs ref

out out表明parameter一定会被方法所改变，不需要初始化。 in in表明parameter不能被方法所改变，需要初始化。 ref 用于向方法传递或返回值的引用。基本…

人工智能 2023年6月30日
0068
机器学习预测离婚

1、数据分析数据集divorce.xlsx，我们先来看一下数据说明。简单来说，每一个维度对应一个调查问卷的问题。如图需要引入的库： import pandas as pd im…

人工智能 2023年7月2日
0070

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31