使用scrapy爬取斗鱼直播间信息

2023年10月3日上午12:31 • Python • 阅读 47

1. 谷歌抓包工具的使用

1.1 打开Chrome开发者工具的方法

在Chrome界面按F12
or在页面元素上右键点击，选择”检查”

1.2 开发者工具的结构

根据上图结构，从左到右依次介绍如下：
Elements（元素面板）：使用”元素”面板可以通过自由操纵DOM和CSS来重演您网站的布局和设计。
Console（控制台面板）：在开发期间，可以使用控制台面板记录诊断信息，或者使用它作为 shell，在页面上与JavaScript交互
Sources（源代码面板）：在源代码面板中设置断点来调试 JavaScript ，或者通过Workspaces（工作区）连接本地文件来使用开发者工具的实时编辑器
Network（网络面板）：从发起网页页面请求Request后得到的各个请求资源信息（包括状态、资源类型、大小、所用时间等），并可以根据这个进行网络性能优化
Performance（性能面板）：使用时间轴面板，可以通过记录和查看网站生命周期内发生的各种事件来提高页面运行时的性能
Memory（内存面板）：分析web应用或者页面的执行时间以及内存使用情况
Application（应用面板）：记录网站加载的所有资源信息，包括存储数据（Local Storage、Session Storage、-IndexedDB、Web SQL、Cookies）、缓存数据、字体、图片、脚本、样式表等
Security（安全面板）：使用安全面板调试混合内容问题，证书问题等等
Audits（审核面板）：对当前网页进行网络利用情况、网页性能方面的诊断，并给出一些优化建议。比如列出所有没有用到的CSS文件等。

; 1.3 network模块

定义：Network 面板记录页面上每个网络操作的相关信息，包括详细的耗时数据、HTTP 请求与响应标头和 Cookie
结构：由五个窗格组成，如图

Controls（控件）使用这些选项可以控制 Network(网络)面板的外观和功能
Filters（过滤器）使用这些选项可以控制在请求列表中显示哪些资源
Overview（概览）这个图表显示检索资源的时间轴。如果您看到多个垂直堆叠的栏，这意味着这些资源被同时检索。
提示：按住Ctrl（Window / Linux），然后点击过滤器可以同时选择多个过滤器。
这里，XHR主要是用来抓取ajax的请求，如图所示：

然后，我们就可以利用以上知识尝试抓取斗鱼页面的传输数据包

2. 使用谷歌抓包工具抓取斗鱼数据

1）清空初始状态下的自动获取的请求列表，单击第二页的按钮，通过谷歌浏览器抓包抓取ajax请求，如图所示：

2）查看对应url的请求头，分析需要携带的参数，这里简单介绍一下请求头中各个参数的作用：
Accept
作用：浏览器端可以接受的媒体类型,
例如： Accept: text/html 代表浏览器可以接受服务器回发的类型为 text/html 也就是我们常说的html文档,
Accept-Encoding：
作用：浏览器申明自己接收的编码方法，通常指定压缩方法，是否支持压缩，支持什么压缩方法（gzip，deflate），（注意：这不是只字符编码）;
Accept-Language
作用：浏览器申明自己接收的语言。
语言跟字符集的区别：中文是语言，中文有多种字符集，比如big5，gb2312，gbk等等；
Connection
例如： Connection: keep-alive 当一个网页打开完成后，客户端和服务器之间用于传输HTTP数据的TCP连接不会关闭，如果客户端再次访问这个服务器上的网页，会继续使用这一条已经建立的连接
Host（发送请求时，该报头域是必需的）
作用: 请求报头域主要用于指定被请求资源的Internet主机和端口号，它通常从HTTP URL中提取出来的
Referer
当浏览器向web服务器发送请求的时候，一般会带上Referer，告诉服务器我是从哪个页面链接过来的，服务器籍此可以获得一些信息用于处理。比如从我主页上链接到一个朋友那里，他的服务器就能够从HTTP Referer中统计出每天有多少用户点击我主页上的链接访问他的网站。
User-Agent
作用：告诉HTTP服务器，客户端使用的操作系统和浏览器的名称和版本.

Cookie
Cookie是用来存储一些用户信息以便让服务器辨别用户身份的（大多数需要登录的网站上面会比较常见），比如cookie会存储一些用户的用户名和密码，当用户登录后就会在客户端产生一个cookie来存储相关信息，这样浏览器通过读取cookie的信息去服务器上验证并通过后会判定你是合法用户，从而允许查看相应网页。当然cookie里面的数据不仅仅是上述范围，还有很多信息可以存储是cookie里面，比如sessionid等。
在这里我们通常使用的是cookie，referer和user-agent
如下图所示：

3） JSON 是前后端传输数据最常见的用法之一，是从 web 服务器上读取 JSON 数据（作为文件或作为 HttpRequest），将 JSON 数据转换为 JavaScript 对象，然后在网页中使用该数据。
我们的任务是要抓取到的json格式的数据，分析json的数据结构，找到我们要提取数据内容所在的位置。
通过分析，我们可以发现数据是存放在r1列表下的各个字典中的，我们可以使用循环，然后通过dict[‘key’]的方式来提取数据。

4）分析url的相关规律，想办法构造多页的ajax请求，从而获取多页的数据

分析之后发现，url最后的一个数字是控制ajax请求的页码。
至此，抓包分析过程结束

; 3. 使用scrapy爬取斗鱼直播间信息

1）使用start_requests函数进行构造20页的url列表。
这里start_requests方法必须返回一个可迭代对象（iterable）。该对象包含了spider用于抓取的第一个Request。
当spider开始抓取并且未指定start_urls时，该方法将会被调用。该方法仅仅会被scrapy调用一次，因此可以将其实现为url生成器。
使用scrapy.Request可以发送一个GET请求，传送到指定的函数进行处理。
详细代码操作如下：

 def start_requests(self):
        for i in range(1,20):
            start_url = "https://www.douyu.com/gapi/rkc/directory/mixList/0_0/{}".format(i)
            yield scrapy.Request(
                url=start_url,
                callback=self.parse
            )

2）使用parse函数提取数据
这里需要掌握几个重要的方法应用
response.text 请求返回的响应的字符串格式的数据
json.loads() loads方法是将str转化为dict格式数据
json.dumps() dumps方法是将dict格式的数据转化为str
具体代码操作如下：
data_dict = json.loads(response.text)
使用循环遍历json数据中的各个具体直播间数据的信息，新建一个item字典进行数据存储，然后使用yield传递给引擎进行相应的处理
代码操作如下：

for data in data_dict['data']['rl']:
    domain = "https://www.douyu.com"
   item = {}
   item["&#x76F4;&#x64AD;&#x95F4;&#x540D;&#x79F0;"] = data['rn']
   item["&#x4E3B;&#x64AD;&#x540D;&#x5B57;"] = data['nn']
   item["&#x76F4;&#x64AD;&#x95F4;id"] = data['rid']
   item["&#x76F4;&#x64AD;&#x7C7B;&#x578B;"] = data['c2name']
   item["&#x4E3B;&#x64AD;&#x522B;&#x79F0;"] = data['od']
   item["&#x76F4;&#x64AD;&#x95F4;&#x5730;&#x5740;"] = domain + data["url"]

在管道中将提取到的数据保存成CSV文件

&#x9996;&#x5148;&#xFF0C;&#x5148;&#x5BFC;&#x5165;csv&#x6A21;&#x5757;
import csv
&#x5B9A;&#x4E49;csv&#x6587;&#x4EF6;&#x9700;&#x8981;&#x7684;&#x5217;&#x6807;&#x9898;
headers = ["room_name", "zhubo_name", "zhubo_id", "zhubo_type", "zhubo_other_name", "room_addr"]
&#x6BCF;&#x6B21;&#x8C03;&#x7528;pipline&#x7684;&#x65F6;&#x5019;&#xFF0C;&#x90FD;&#x4F1A;&#x8FD0;&#x884C;&#x4E00;&#x904D;
class Day02Pipeline:
    def process_item(self, item, spider):
        &#x6587;&#x4EF6;&#x9ED8;&#x8BA4;&#x4FDD;&#x5B58;&#x5230;&#x5F53;&#x524D;&#x76EE;&#x5F55;&#x4E0B;&#x7684;douyu.csv&#x4E2D;
&#x8FD9;&#x91CC;a&#x662F;&#x8FFD;&#x52A0;&#x64CD;&#x4F5C;
        with open('douyu.csv', 'a', encoding='utf-8', newline='') as fa:
            &#x4FDD;&#x5B58;headers&#x89C4;&#x5B9A;&#x7684;&#x5217;&#x540D;&#x5185;&#x5BB9;
            writer = csv.DictWriter(fa, headers)
            writer.writerow(item)
            print(item)
      return item

4）最后，我们来查看一下运行结果，以及保存好的csv文件
终端运行结果如下：

CSV文件保存结果如下：

Original: https://blog.csdn.net/lijiamingccc/article/details/118967736
Author: 加油strive
Title: 使用scrapy爬取斗鱼直播间信息

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/789855/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Redis内存数据库在Exchange会议室的应用

本文论述了现有Exchange会议室应用现状和不足之处，并详细介绍了Redis内存数据库在Exchange会议室的应用，并给出了一种高性能的应用架构及采用关键技术和关键实现过程，最…

Python 2023年6月6日
0065
matplotlib.pyplot 中文乱码问题解决

matplotlib.pyplot 中文乱码问题解决原创 CorwinPC2022-07-18 17:47:50博主文章分类：Python ©著作权文章标签 ico 乱码问题 …

Python 2023年5月25日
0059
flask安装

1.创一个文件夹用来安装虚拟环境（名字用英文或字母） 2.从virtualenvwrapper文件夹中，输入cmd进入 3.安装：pip install virtualenvwra…

Python 2023年8月11日
0058
【网络安全】——文件上传之安全狗bypass

作者名：Demo不是emo主页面链接：主页传送门创作初心：一切为了她座右铭：不要让时代的悲哀成为你的悲哀专研方向：网络安全，数据结构每日emo：保持心脏震荡，等有人与我共鸣 …

Python 2023年9月15日
0036
Shell语法

一、概念 Shell 是命令行与操作系统沟通的桥梁，也是一门语言。 Shell 脚本可以直接在命令行中执行，也可以作为文件方便复用。 Linux中常见的 Shell 脚本有： Bo…

Python 2023年11月5日
0033
dateframe取某列数据_pandas的DataFrame对象抽取“整列”或者“整行”数据

先给出能取行和列的几种常用方式： data[ 列名 ]：取单列或多列，不能用连续方式取，也不能用于取行。 data[ i:j ]：用起始行下标(i)和终止行下标(j)取单行或者连续…

Python 2023年8月8日
00103
Python模块大全之《 os模块》

方法一、os.makedirs（）和os.removedirs（）|方法二、os.mkdir（）和os.rmdir（）方法|方法三、os.listdir（path）方法|方法四、o…

Python 2023年10月30日
0026
AI常用框架和工具丨1. 科学计算库NumPy

**科学计算库NumPy，AI常用框架和工具之一。理论知识结合代码实例，希望对您有所帮助。文章目录 * – 环境说明 – 一、NumPy简介 &#8211…

Python 2023年8月25日
0030
（3）Scrapy的Items（项目）

1.Items（项目）通常抓取的目标源一般都是非结构化来源，例如网页HTML等。我们需要从中提取结构化数据（解析数据）。Spider（蛛蛛）可以将提取的数据返回为Item（项目）…

Python 2023年10月2日
0041
Pandas中的连接函数汇总

如有错误欢迎指正~ 在数据分析的过程中数据的重构是非常重要的，本篇文章将详细讲解pandas中四个重要的连接函数：concat(), merge(), join(), append…

Python 2023年8月21日
0034
网络技术——网络运维工程师必会的网络知识（2）（详细讲解）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年11月5日
0025
如何使用Javascript开发sliding-nav带滑动条效果的导航插件?

本文介绍如何使用纯Javascript来开发一款简单的JS插件，本插件可以实现鼠标悬停在导航上时，下方的滑动条自动从当前菜单滑动到所选菜单当中去。本项目的源代码寄宿于GitHub…

Python 2023年6月12日
0076
深度学习之YOLOv5实践应用（3-1）人头检测模型

参考：基于yolov5训练人头检测模型 – 知乎一、数据集下载地址：链接：链接：https://pan.baidu.com/s/1xBph3IBXKnArVtM…

Python 2023年9月28日
0093
Django 数据库相关操作 (六)

前言上篇已经介绍过模型相关操作，并创建好了数据库及相关表字段，接下来将通过以下表在Django中进行表数据的增删改查。 from django.db import models …

Python 2023年8月5日
0070
NNDL 作业9：分别使用numpy和pytorch实现BPTT

6-1P：推导RNN反向传播算法BPTT. 6-2P：设计简单RNN模型，分别用Numpy、Pytorch实现反向传播算子，并代入数值测试. import torch import…

Python 2023年8月28日
0045
Tensorflow和Keras版本对照及环境安装

在安装tensorflow环境的时候，一定要先弄清楚对应的版本对应的情况，不要上来就 pip install tensorflow， pip install keras。最后发现全…

Python 2023年8月2日
00118

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31