scrapy面试个人总结问题

2023年10月1日下午9:40 • Python • 阅读 37

简单爬虫：
使用Python内置的urlib 库获取网页的Html信息
用的方法的 request
使用Request可以添加请求头参数，模拟浏览器发送请求

scrapy爬虫：
爬虫原理
1）Scrapy Engine引擎
负责控制数据流在系统组件的流动，当特定动作发生时触发事件
2）Scheduler调度器
从引擎中接收request并且将他们入队
3）Downloader下载器
负责获取页面数据并且提供给引擎，之后提供给spider
4）Spiders爬虫
它是Scrapy用户编写用于分析response并且获取item或者额外的数据
5）ItemPiPeline管道
负责将Spider爬虫提取出来的数据进行持久化保存
6）Downloader Middleware下载器中间件
是引擎和下载器之间特定组件，拥有㔘Downloader传递给引擎response
7）Spider Middleware Spider中间件
处理spider输入response与输出items和requests

爬虫流程：
首先加入浏览器代理配置、数据库配置、数据传输配置，
配置 pipelines.py 让数据实现持久化存储，
编写爬虫文件，
配置下载相关数据管道，
过程中可以对数据进行去重处理。
使用异步方式把数据存入数据库/ /使用pymysql库把数据存入数据库，/

浏览器爬虫原理：
首先

Original: https://blog.csdn.net/az123qq_/article/details/124875514
Author: 阿泽Az
Title: scrapy面试个人总结问题

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/789027/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

MySQL存储引擎详解(一)-InnoDB架构

目录前言一、支持的存储引擎二、InnoDB引擎 1.Buffer Pool 传统LUR算法预读预读失效 2.Log Buffer 3.Adaptive Hash Inde…

Python 2023年8月26日
0072
【BitTorrent】以问答形式向ChatGPT学习BitTorrent原理

when I use a magnet link to download file, where am I actually download it from ChatGPT Wh…

Python 2023年11月4日
0049
深度学习与CV教程(13) | 目标检测 (SSD,YOLO系列)

作者：韩信子@ShowMeAI 教程地址：https://www.showmeai.tech/tutorials/37 本文地址：https://www.showmeai.tech…

Python 2023年10月25日
0051
conda 教程

对于一个做python开发的人员来说相信conda都是比较了解。由于python 是一个非常依赖环境的编程语言。这些环境包括 python 版本，以及开源模块。为了方便管理pyth…

Python 2023年9月8日
0041
在Mac上用conda安装python库（jieba为例）

1.安装Anaconda； jieba · PyPI 下载jieba的压缩包； 3.解压到Anaconda的 pkgs文件夹中； 4，现在pycharm中创建一个项目，打开终端； …

Python 2023年9月7日
00123
python简易贪吃蛇

python简易贪吃蛇前言开始 * – 献上代码代码剖析项目github + * – 作者前言开始献上代码 from tkinter.mess…

Python 2023年9月25日
0034
从入门到一位合格的爬虫师，这几点很重要

Original: https://www.cnblogs.com/zichengPython/p/16709407.htmlAuthor: 爱学习的小刘Title: 从入门到一位…

Python 2023年10月31日
0053
一维卷积神经网络理解（torch.nn.Conv1d）

参数介绍 torch.nn.Conv1d(in_channels, out_channels, kernel_size, stride, padding, padding_mode…

Python 2023年10月27日
0045
Python numpy使用记录4.逻辑运算，与或非，异或

最近写码碰到一个问题，有a,mask_1,mask_2,mask_3四个同shape的array，其中a是待索引的目标数组，mask123中的元素则是bool值，表示该位置是否满足…

Python 2023年8月24日
0055
三次样条(Cubic Spline)的C++实现以及可视化

无论是曲线拟合，能量优化还是分段函数模拟的应用中，通过一组离散点拟合出一条完整的曲线，都是不可避免的工作。一般来说，像贝塞尔曲线，b样条等曲线拟合方法，是通过控制点来生成曲线，控制…

Python 2023年8月31日
0062
Python进阶——网课不愁系列AI换脸技术

俗话说的好：网络一线牵，珍惜这段缘！网络的水很深，年轻人你把握不住，众所周知照片是可以P的，但是”视频”是”P”不了的（狗头保命）…

Python 2023年8月1日
0053
python_DataFrame的loc和iloc取数据基本方法总结

文章目录 1.准备一组DataFrame数据 2.loc 标签索引 * 2.1 loc 获取行 – 2.1.1 loc 获取一行 2.1.2 loc 获取多行 2.1….

Python 2023年8月15日
00100
Django 4.0

Web 后端开发后端程序主要工作就是数据管理。通常包括数据的 存储 （包括增加、删除、修改）和 查&a…

Python 2023年8月3日
0046
matpotlib之折线图

文章目录折线图： plot函数示例说明：扩展应用 * 1、线条风格 – 线条颜色线条样式线条粗细 2、数据点标记marker 2、多组数据总结： ; 折线…

Python 2023年8月30日
0060
python使用flask框架操作mongodb基本使用

系统 vm虚拟机 + ubuntu18.04 python版本3.6.9 Flask版本2.0.3 上一节 mongodb基本使用（python）转自清夢懮本节简单讲一下如…

Python 2023年8月9日
0070
不用再找了，这就是全网最全的异常检测方法总结

大家好，今天正好趁着周末，收集整理全网最常使用的异常检测方法（附资料来源和代码），喜欢记得收藏、点赞、关注。注：技术交流文末获取一、基于分布的方法 1. 3sigma 基于正…

Python 2023年9月29日
0043

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

scrapy面试个人总结问题

大家都在看