Python scrapy爬取豆瓣

2023年10月3日下午4:37 • Python • 阅读 41

任务一爬取豆瓣并存储

1-3在命令行中实行，任务爬取豆瓣网的电影名和评分豆瓣电影 Top 250

1、检查scrapy是否安装那个成功，命令

在cmd
输入scrapy  检查是否成功

2、cd 命令

路径切换到 cd /d E:\demo\shixun_workspase\demo2\zl\10.26

3、创建项目命令

scrapy startproject doubanPro

后面步骤进入到pycharm环境执行打开创建的工程

4、就在pycharm Terminal 下创建爬取器

cls 清屏，ctrl +L ,clear

1、进入douabnPro项目内
cd /d E:\demo\shixun_workspase\demo2\zl\10.26
cd doubanPro

2、创建第一个爬取器
scrapy genspider movie www.xxx.com#www.xxx.com占位，域名可以更改

5、理解start_url在，掌握执行爬取的命令

start_urls = ['http://www.baidu.com/','http://www.sogou.com/']
表示待爬取的初始的urls集合,可以是一个，也可以是多个

6、君子协议

在setting.py中
ROBOTSTXT_OBEY = False  #君子协议为False
LOG_LEVEL='ERROR'  #显示错误日志，没有就不显示
#伪装浏览器
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36

7、编写爬取器

理解参数response，理解xpath
 response.xpath('//*[@id="content"]/div/div[1]/ol/li')
    #进入到谷歌浏览器开发者环境下，copy xpath 表达式

8、存储

终端指令持久化爬取数据
（1）基于终端指令
 要求且必须是：只能将parse方法的返回值寻西湖到本地的文本文件中（不能往数据库里存）
    使用字典存每一遍历的道德值，所有的值都放到列表中
    一定用return返回
 存储指令：scrapy crawl hzy -o ./news.csv

9、代码

在movie中

class HzySpider(scrapy.Spider):
    name = 'movie'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://movie.douban.com/top250']

    def parse(self, response):
        all_data=[]#存储所有解析到的字典数据
        li_list=response.xpath('//*[@id="content"]/div/div[1]/ol/li')
         #进入到谷歌浏览器开发者环境下，copy xpath 表达式
        for li in li_list:#循环所有的li标签，分别取出电影的名字和得分
            title=li.xpath('./div/div[2]/div[1]/a/span[1]/text()').get()#在li下面取div
            score=li.xpath('./div/div[2]/div[2]/div/span[2]/text()').get()
            #存到字典里
            dic={
                'title':title,
                'score':score,
            }
            #创建一个列表，列表中的每个元素都是字典
            all_data.append(dic)
        return all_data

10、在pycharm中的terminal下输入

scrapy crawl hzy -o ./news.csv

Original: https://blog.csdn.net/weixin_52102581/article/details/121006824
Author: MULHE
Title: Python scrapy爬取豆瓣

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/790379/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

[HCTF 2018]admin

[HCTF 2018]admin 进入页面可以看见左边有选项，发现一共有两个选项：根据常识，没注册肯定不能登录，因此我们随便注册一个账号：123456789，然后注册，跟着提示…

Python 2023年8月13日
0069
小学生python游戏编程arcade—-基本知识1

小学生python游戏编程arcade—-基本知识 * – 前言 – 基本知识 – + 1、简单窗体 + 2、试着添加角色及背景 +…

Python 2023年9月22日
0067
微光互联 TX800-U 扫码器无法输出中文到光标的问题

问题背景某检测场有一批扫码器，购于微光互联，型号 TX800-U，用于在不同办理窗口间扫描纸质材料上的二维码，简化录入过程。扫码器通过 USB 接入 PC 系统 (windows…

Python 2023年10月18日
0028
python-opencv第五期：rectangle函数详解

概要：众嗦粥汁所周知，在如今计算机视觉（ Computer Version short for CV）是人工智能与机器人技术发展的一个重大研究方向，而 opencv作为一个专门为…

Python 2023年9月29日
0031
使用SimpleITK读取、保存、处理nii文件

目录前言 nii格式读取nii成numpy格式将numpy格式保存成nii 什么是origin、Direction、Spacing，以及如何设置它们示例重采样 * 重采样…

Python 2023年8月24日
0073
python代码接口实现

python代码接口实现导言 * what is Apache？一、配置Apache – 1.下载 2.启动apache服务二、安装mod_wsgi 三、创建工程…

Python 2023年8月13日
0070
Matplotlib——直方图_hist()函数_histogram()函数_二维数据

一个简单的直方图可以直观地展示数据的分布，包括数值分布的区间、密度和形状。在实际的工作过程中，我们可能需要对数据进行数学建模和统计分析，这些数据处理技术往往基于数据符合的…

Python 2023年9月2日
0048
iNeuOS工业互联网操作系统，脚本化实现设备运行时长和效率计算与统计

目录概述… 2 实时采集开停状态… 2 增加虚拟设备… 2 脚本统计和计算设备运行时长… 4 设备运行时长报表… 7…

Python 2023年10月13日
0033
山东大学人工智能导论实验一 numpy的基本操作

目录【实验目标】【实验内容】【代码要求】【文档要求】 1. 代码运行结果截图(main函数里的内容不要修改)编辑 2. sigmoid函数的公式及图像 3. sigmoi…

Python 2023年8月24日
0088
【Pandas分组聚合】 groupby()、agg() 方法的使用

Pandas分组聚合创建一个dataframe结构分组函数 groupby() * 初识分组聚合多重行索引分组聚合对多列数据进行分组聚合综合应用聚合函数 agg（agg…

Python 2023年8月6日
0055
Python 部署flask项目+阿里云宝塔(巨详细)

目录一、购买阿里云服务器 * ① 选购方法 ② 更换操作系统二、安装宝塔Linux面板 * ① 进入服务器远程连接 ② 远程连接登录 ③ 安装宝塔 ④ 安装宝塔插件三、项目部…

Python 2023年8月9日
0061
pygame只能编写游戏_你还在打王者荣耀吗？用pygame写个游戏自己玩吧！

这里写目录标题第一个pygame程序第一步，先不看player类，先导入模块第二步，初始化第三步，设置窗体大小第四步，设置标题第五步，设置背景图第六步，帧率设置第七步，游戏循环第九…

Python 2023年9月24日
0030
Python代码阅读（第18篇）：变形词判断

本文所读取的代码实现了判断两个字符串是否为变形词的功能。 [En] The code read in this article implements the function of…

Python 2023年5月25日
0069
numpy第三章-索引器、多级索引

一、索引器 df = pd.read_csv(….) 下面的df都是指数据名 1.列索引从表中取出一列：df[‘列名’] 例如：df[‘Na…

Python 2023年8月7日
0035
大数据技术技能分析大赛——第三章数据预处理

第三章数据预处理 3.1熟悉数据【例】餐饮企业的决策者想要了解影响餐厅销量的一些因素，如天气的好坏，促销活动是否能影响餐厅的销量，周末和非周末餐厅销量是否有大的差别。餐厅手机的…

Python 2023年8月20日
0053
yolov5-5.0版本代码详解—-datasets.py的create_dataloader函数

yolov5-5.0版本代码详解—datasets.py的create_dataloader函数 1、作用 1.1 调用LoadImagesAndLabels获取数据集datase…

Python 2023年8月24日
0087

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python scrapy爬取豆瓣

任务一 爬取豆瓣并存储

1、检查scrapy是否安装那个成功，命令

2、cd 命令

3、创建项目命令

4、就在pycharm Terminal 下创建爬取器

5、理解start_url在，掌握执行爬取的命令

6、君子协议

7、编写爬取器

8、存储

9、代码

10、在pycharm中的terminal下输入

大家都在看

任务一爬取豆瓣并存储