scrapy框架分析ajax请求爬取图片并同时存到mongodb和mysql数据库中把照片存到本地

2023年10月4日下午5:39 • Python • 阅读 30

本次爬取的网站https://image.so.com/打开此页面切换到美女的页面，打开浏览器的开发者工具，切换到XHR选项，然后往下拉页面，我么会看到出现许多的ajax请求，如图：

scrapy框架分析ajax请求爬取图片并同时存到mongodb和mysql数据库中把照片存到本地

对上面的许多请求进行分析会发现我们要爬取图片的数据就在很多类似这样的 zjl?ch=beauty&sn=30 sn=0时代表0-30张图片，sn=30代表31-60张图片依次排列点进去，如图

切换到Headers 找到我们要请求的url (Request URL) 经过分析我们要请求的url很有规律经过简单的拼接一下就可以得到

实现代码
Spiders.py代码

import scrapy
from Pro360.items import Pro360Item
import json
class ImaSpider(scrapy.Spider):
    name = 'Ima'

    start_urls = ['https://image.so.com/zjl?ch=beauty&sn=0']
    MAx_page = 50
    for i in range(1,MAx_page+1):
        url = 'https://image.so.com/zjl?ch=beauty&sn={}'.format(i*30)
        start_urls.append(url)

    def parse(self, response):

        result = json.loads(response.text)
        for image in result['list']:

Original: https://blog.csdn.net/weixin_44996454/article/details/116664332
Author: B .O .
Title: scrapy框架分析ajax请求爬取图片并同时存到mongodb和mysql数据库中把照片存到本地

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/791186/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Image Super-Resolution via Iterative Refinement 论文解读和感想

随着20年DDPM的提出，近两年提出了大量基于Denoising Diffusion的图像处理模型，本文便是谷歌在21年 CVPR提出的基于Denoising Diffusion的…

Python 2023年9月30日
0047
面试突击78：@Autowired 和 @Resource 有什么区别？

@Autowired 和 @Resource 都是 Spring/Spring Boot 项目中，用来进行依赖注入的注解。它们都提供了将依赖对象注入到当前对象的功能，但二者却有众多…

Python 2023年10月23日
0065
showtext | R语言绘图字体设置——针对Windows系统

R语言绘图的字体设置是个老大难的问题，它默认情况下只提供三种字体。本篇推文介绍两种字体设置方法（针对Windows系统），一种是R语言本身的字体设置方法，另一种是 showtext…

Python 2023年8月2日
0044
数仓Hive和分布式计算引擎Spark多整合方式实战和调优方向

@ 概述 Spark on Hive Hive on Spark 概述编译Spark源码配置调优思路编程方向分组聚合优化 join优化数据倾斜任务并行度小文件合并 …

Python 2023年10月22日
0057
深度网络架构的设计技巧(三)之ConvNeXt：打破Transformer垄断的纯CNN架构

单位：FAIR (DenseNet共同一作，曾获CVPR2017 best paper)，UC伯克利ArXiv：https://arxiv.org/abs/2201.03545Gi…

Python 2023年10月7日
0042
【JS 逆向百例】网洛者反爬练习平台第五题：控制台反调试

关注微信公众号：K哥爬虫，持续分享爬虫进阶、JS/安卓逆向等技术干货！声明本文章中所有内容仅供学习交流，抓包内容、敏感网址、数据接口均已做脱敏处理，严禁用于商业用途和非法用途，…

Python 2023年5月24日
0055
【网络安全】——sql注入之云锁bypass

作者名：Demo不是emo主页面链接：主页传送门创作初心：一切为了她座右铭：不要让时代的悲哀成为你的悲哀专研方向：网络安全，数据结构每日emo：你生活在光亮里，就觉得全世…

Python 2023年9月26日
0031
python-pandas 数据提取笔记

数据抽取以列名(columns）和行名(index)作为参数.当只有一个参数时，默认是行名,即抽取整行数据,包括所有列。以行和列位置索引(即:0,1,2…）作为参数…

Python 2023年8月7日
0056
pygame 移开的矩形留痕迹_Pygame矩形碰撞

I am creating a game of Pong in Pygame with Python (obviously) and am new to Pygame so wou…

Python 2023年9月25日
0026
两个月速成Python——初学者必读书籍

前言想学Python的你是不是一直被它生涩难懂的劝退？作为一个自学入门的程序员，依靠这样几本书和一套视频，两个月就学会了python。不卖关子，我学的就是”pytho…

Python 2023年9月25日
0054
Python关于去除字符串中空格的方法

需要将字符串中的空格去掉的情况,可以使用下面几种解决方法： s=’ This is a demo ‘ print(s.strip()) 结果：”This is a de…

Python 2023年10月27日
0051
Python基础学习之pygam初始化图像绘制&游戏循环&监听事件

01.使用pygame创建图形窗口 1.1 游戏的初始化和退出要使用 pygame 提供的所有功能之前，需要调用 init 方法在游戏结束前需要调用一下 quit 方法方法说…

Python 2023年9月23日
0066
pandas的简单操作

目录 Series DataFrame DataFrame常用的方法 loc：可以通过行索引查看一行数据读取文件(.csv)的方法删除一行或者一列的数据查看dataframe…

Python 2023年8月7日
0076
pytest-allure报告

pytest-allure报告 1、安装allure1.下载 allure.zip下载地址：allure-github：https://github.com/allure-fram…

Python 2023年9月13日
0037
numpy.reshape(-1,1)用法

刚接触python和DL，看到工程里有这句： train_set_y_orig = train_set_y_orig.reshape((1, train_set_y_orig.sh…

Python 2023年8月26日
0071
什么是注意力机制及其应用（self attention）？

一、引言注意力机制是自深度学习快速发展后广泛应用于自然语言处理、统计学习、图像检测、语音识别等领域的核心技术，例如将注意力机制与RNN结合进行图像分类，将注意力机制运用在自然语言…

Python 2023年10月9日
0037

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

scrapy框架分析ajax请求爬取图片并同时存到mongodb和mysql数据库中把照片存到本地

大家都在看