爬虫（实战）：scrapy+mysql 豆瓣电影top250

2023年10月3日上午2:48 • Python • 阅读 32

爬虫（实战）：scrapy+mysql 豆瓣电影top250

*
–
+
* 1.前言
* 2.编辑环境
* 3.项目分享
*
– 3.1 项目目录结构
– 3.2 项目操作过程
– 3.3 项目结果展示
* 4.项目总结
*
– 4.1 问题与解决
– 4.2 scrapy框架内在联系

1.前言

作者学习了scrapy爬虫框架，想把获取的爬虫信息保存至本地mysql数据库中，查找了下不少作者的资料，这里整理了本人的学习经过，记录+分享在这里，望读者交流学习和批评建议。

2.编辑环境

; 3.项目分享

3.1 项目目录结构

结构简介：
1.spiders-是主爬虫文件夹，其中mvSpi.py是网页信息获取的主代码文件
2.items.py-定义了将要存储在mysql中结构化数据字段
3.pipelines.py-管道文件，定义数据库连接与操作信息等
4.setting.py-设置文件，定义请求头、mysql配置等信息
5.run.py-运行文件，以便不进入命令行，也能运行项目
以上未介绍的文件，为项目创建初始内容，本项目没有进行相应修改。

3.2 项目操作过程

（1）项目创建

以下操作默认配置好了python环境
-首先，在cmd命令行cd到要放scrapy项目的文件夹路径下
-然后，运行scrapy startproject mvSrc 命令，会出现上面的目录结构了
-最后，cd到mvSrc目录下，运行scrapy genspider mvSpi movie.douban.cn 会在spiders下创建爬虫文件

(2) mvSpi.py的编辑

这里是网页信息获取的主代码文件，当然在编辑具体的网页信息获取程序前，需要对目标网址进行网页分析。目标网页内容如下：

在解析网页内容时，可以使用shell交互式平台进行取数测试，具体步骤就是cd到项目目录下，运行如下代码：

>>>scrapy shell https://movie.douban.com/top250
In[1]：response.xpath('./div[@class="hd"]/a/span[1]/text()').extract()

(3) items.py的编辑

定义将要存储在mysql中结构化数据字段

当然，也要在你本地mysql中创建相应的库表

CREATE TABLE mvtable if not exists (
  mv_name varchar(100) DEFAULT NULL COMMENT '电影名称',
  mv_update varchar(200) DEFAULT NULL COMMENT '更新时间',
  mv_actor varchar(200) NOT NULL COMMENT '导演',
  mv_score varchar(50) DEFAULT NULL COMMENT '评分',
  mv_class varchar(20) CHARACTER SET utf8mb3 COLLATE utf8_general_ci DEFAULT NULL COMMENT '剧情分类',
  mv_mvUrl varchar(200) NOT NULL COMMENT '网址链接',
  PRIMARY KEY (mv_mvUrl)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb3;

(4) pipelines.py的编辑

定义数据库连接与操作信息

(5) setting.py的编辑

定义请求头、mysql配置等信息

(6) run.py运行程序的编辑

3.3 项目结果展示

run.py文件运行后，打开mysql中的mvtable如下所示：

; 4.项目总结

4.1 问题与解决

略

4.2 scrapy框架内在联系

结构简介：
1.spiders-是主爬虫文件夹，其中mvSpi.py是网页信息获取的主代码文件
2.items.py-定义了将要存储在mysql中结构化数据字段
3.pipelines.py-管道文件，定义数据库连接与操作信息等
4.setting.py-设置文件，定义请求头、mysql配置等信息
5.run.py-运行文件，以便不进入命令行，也能运行项目
以上未介绍的文件，为项目创建初始内容，本项目没有进行相应修改。

首先，spiders文件夹下mvSpi.py时主爬虫代码，这里继承了scrapy.spider类方法，引用了items的函数MvscrItem，产生了parse函数下的结果集item；

然后，pipelines.py 管道文件，接收scrapy.spider类方法与结果集item，将数据进行相应的保存；

最后，setting.py 配置文件，为以上操作进行权限的关联。

Original: https://blog.csdn.net/Phillip_xian/article/details/125598956
Author: Phil_xian
Title: 爬虫（实战）：scrapy+mysql 豆瓣电影top250

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/789931/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

云原生周刊 | 使用 ChatGPT 协助解决 Prometheus 告警

开源项目推荐这是一个适用于 Slack 的 ChatGPT 机器人，只要有监控告警发送到 Slack 频道中，你就可以通过机器人向 ChatGPT 咨询如何解决这个告警，Chat…

Python 2023年11月3日
0051
swagger python集成 flask篇

官方文档完整示例 from flask import Flask from flask_restplus import Api, Resource, fields from we…

Python 2023年8月13日
00102
26个数据分析案例——第五站：基于Scrapy的架构的数据采集

26个数据分析案例——第五站：基于Scrapy的架构的数据采集案例环境 Python: Python 3.x；数据说明 title：课程标题 image_url：标题图片地址。…

Python 2023年10月2日
0061
MICCAI 论文投稿须知翻译

本文件包含了一些要点，我们希望这些要点将有助于作者准备提交给2021 MICCAI的文件，并应阅读MICCIAI审查过程内容： 1.论文征集 2.提交截止日期 3.手稿格式 4.审…

Python 2023年10月24日
00117
pythonpandas读取txt文件_python pandas：尝试读取txt文件，但显示NaN

我认为您需要sep参数，因为默认值是sep=’,’。在如果tab：names=[‘t[s]’,’digits[]&#8…

Python 2023年8月8日
0048
做一个小闹钟，按规划做事…

通过PyQt5实现设置一个小闹钟的功能，到了设置的时间后可以响起一段音乐来提醒。【阅读全文】需要小闹钟完整的源代码，请到文章末尾获取下载链接。 [En] Need small …

Python 2023年5月24日
0067
#yyds干货盘点#Python源码中的这个中括号[]不知道怎么来理解比较好？

Python 2023年5月24日
0065
京东云开发者｜关于“React 和 Vue 该用哪个”我真的栓Q

一、前言：我全都要面对当今前端界两座大山一样的主流框架，React和Vue，相信很多小伙伴都或多或少都产生过这样疑问，而这样的问题也往往很让人头疼和犹豫不决：业务场景中是不是团…

Python 2023年10月16日
0049
python 远程控制摄像头_Python设置Socket代理及实现远程摄像头控制的例子

为了python设置socket代理，首先,你得下载SocksiPy这个.解压出来之后里面会有一个socks.py文件.然后你可以把这个文件复制到python安装目录里面的Lib\…

Python 2023年9月20日
0054
Python项目实践之三：添加 Play 按钮和提高游戏等级

现在外星人入侵游戏项目已经实现了武装飞船和外星人群的功能，本章主要添加一些辅助功能，如添加一个开始按钮，计分板信息和随着游戏的进行加快游戏节奏。需求：添加 Play 按钮，它在游…

Python 2023年9月22日
0024
Seata 1.5.2 源码学习（Server端）

Seata 包括 Server端和Client端。Seata中有三种角色：TC、TM、RM，其中，Server端就是TC，TM和RM属Client端。Client端的源码学习上一篇…

Python 2023年10月15日
0038
《异常检测——从经典算法到深度学习》19 OmniAnomaly：基于随机循环网络的多元时间序列鲁棒异常检测

《异常检测——从经典算法到深度学习》 0 概论 1 基于隔离森林的异常检测算法 2 基于LOF的异常检测算法 3 基于One-Class SVM的异常检测算法 4 基于高斯概率密度…

Python 2023年9月16日
0046
pyecharts可视化展示之柱状图、饼图学习

pyecharts基本上的图表类型绘制：chart_name=Type() #初始化具体类型图表chart_name.add() #添加数据及配置项chart_name.rende…

Python 2023年9月3日
0035
python编程游戏软件_python编程之bomb catcher 小游戏

一个简单的演示，综合了鼠标的输入、一些基本的图形绘制等等。当炸弹到达屏幕底端的时候如果没有抓住的话会丢掉性命。如果撞击到挡板，玩家就算抓住了炸弹，另一个炸弹也会落下。源代码如下：…

Python 2023年9月25日
0023
pandas之数据结构介绍

Python中的pandas库是数据分析中经常用的一个库，打开、转换csv、xlsx、txt文件、数据清洗、查找数据、简单的作图等等。 pandas中的所有操作是基于两种数据结构：…

Python 2023年8月7日
0053
PyTorch+Flask+Gunicorn 部署深度模型服务

目录简介项目实现 * 模型实现部署Flask服务 Gunicorn加速性能测试 – Python 多线程+requests ab工具（可选）HTML网页端总…

Python 2023年8月14日
0073

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

爬虫（实战）：scrapy+mysql 豆瓣电影top250

爬虫（实战）：scrapy+mysql 豆瓣电影top250

1.前言

2.编辑环境

; 3.项目分享

3.1 项目目录结构

3.2 项目操作过程

3.3 项目结果展示

; 4.项目总结

4.1 问题与解决

4.2 scrapy框架内在联系

大家都在看