scrapy项目>代理>验证码问题

一,项目问题:

1、你写爬虫的时候都遇到过什么反爬虫措施,你最终是怎样解决的
1,通过headers反爬虫:
解决策略,伪造headers
2,基于用户行为反爬虫:
动态变化去爬取数据,模拟普通用户的行为, 使用IP代理池爬取或者降低抓取频率,或 通过动态更改代理ip来反爬虫
3,基于动态页面的反爬虫:
跟踪服务器发送的ajax请求,模拟ajax请求,selnium和phtamjs
或使用selenium + phantomjs 进行抓取抓取动态数据,或者找到动态数据加载的json页面。

4,验证码 :
使用打码平台识别验证码

5,数据加密:
对部分数据进行加密的,可以使用selenium进行截图,
使用python自带的pytesseract库进行识别,但是比较慢最直接的方法是找到加密的方法进行逆向推理,

2.你写爬虫的时候 使用的什么框架 选择这个框架的原因是什么?
scrapy
优势:
可以实现高并发的爬取数据, 注意使用代理;
提供了一个爬虫任务管理界面, 可以实现爬虫的停止,启动,调试,支持定时爬取任务;
代码简洁

劣势:
1.可扩展性不强。
2.整体上来说:

Original: https://blog.csdn.net/az123qq_/article/details/124875518
Author: 阿泽Az
Title: scrapy项目>代理>验证码问题

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/789632/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • 【ONE·C || 数据存储】

    总言 C语言:数据存储相关介绍。 文章目录 总言 1、基本数据类型介绍 * 1.1、整体介绍 1.2、各数据类型分别说明(整型、浮点型、构造、指针、空) 2、整型在内存中的存储 *…

    Python 2023年11月6日
    033
  • python flask搭建高可用的MVC框架

    众所周知,Python的两大web框架为Django和Flask框架。Django框架大而全,而Flask是轻量级的框架,很多扩展功能需要自己写。 在开始之前,先了解一下flask…

    Python 2023年8月13日
    046
  • flask后台开发之数据库交互

    目录 一、前言 二、环境安装 * 1、安装Python与SQL进行交互的库 2、使用docker搭建mysql服务 三、用Python连接mysql 四、与数据库的交互 * 1.创…

    Python 2023年8月13日
    039
  • Python中的scrapy下载并保存图片

    在日常爬虫练习中,我们爬取到的数据需要进行保存操作,在scrapy中我们可以使用ImagesPipeline这个类来进行相关操作,这个类是scrapy已经封装好的了,我们直接拿来用…

    Python 2023年10月1日
    045
  • Pandas库常用命令汇总——自用备查(挖坑,持续更新)

    目录 引入库(数据分析常用三件套) 读取文件(excel、csv) 查看数据集 填充缺失值 查看,截取(切片)数据集 分组:groupby命令 聚合:agg命令 聚合:transf…

    Python 2023年8月22日
    049
  • kali中间人攻击

    部分数据来源:ChatGPT 一、中间人攻击原理 1. 利用的ARP协议的漏洞 2. ARP 协议原理: 1)发送ARP广播请求目标MAC地址 2)目标主机发送ARP单播应答,响应…

    Python 2023年10月24日
    049
  • python球_python 小白之路(跳动的球)

    –– coding: utf-8 –– “””Spyder Editor Thisisa tem…

    Python 2023年9月24日
    024
  • Python 函数进阶-迭代器

    能被 next 指针调用,并不断返回下一个值的对象,叫做迭代器。表示为Iterator,迭代器是一个对象类型数据。 迭代器指的是迭代取值的工具,迭代是一个重复的过程,每次重复都是基…

    Python 2023年11月3日
    045
  • 【广播机制】Numpy,Pytorch,Tensorflow

    广播机制 广播机制是为了解决两个不同尺寸之间的数组(张量)之间的计算问题而设计的一种算法机制,在numpy中就存在这种机制,而Pytorch和Tensorflow为了减少学习成本,…

    Python 2023年8月25日
    035
  • Python 报错 ValueError list.remove(x) x not in list 解决办法

    平时开发 Python 代码过程中,经常会遇到这个报错: ValueError: list.remove(x): x not in list 错误消息也很清楚,删除的元素不在列表中…

    Python 2023年5月24日
    089
  • Python flask框架入门

    一、Flask 简介 Flask:Flask是一个用Python编写的Web应用程序框架。Flask基于Werkzeug(WSGI工具包)和Jinja2模板引擎。 Web Fram…

    Python 2023年8月9日
    053
  • CSS页面布局方式

    404. 抱歉,您访问的资源不存在。 可能是网址有误,或者对应的内容被删除,或者处于私有状态。 代码改变世界,联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

    Python 2023年6月12日
    061
  • WARNING: Do not use the development server in a production environment. Use a production WSGI server

    开发了一个 Python Flask Web 项目: from flask import Flask import waitress app = Flask(__name__) @…

    Python 2023年8月13日
    049
  • scrapy

    scrapy scrapy官方文档 https://scrapy-chs.readthedocs.io/zh_CN/0.24/index.html scrapy的概念 Scrapy…

    Python 2023年10月5日
    037
  • 11、Jupyter notebook matplotlib绘图

    11 、Jupyter notebook matplotlib绘图 1、绘图 要使用matplotlib绘图,首先需要你的机器上已经安装了matplotlib,进入python环境…

    Python 2023年8月31日
    049
  • flask的g

    使用案例 from flask import Flask, request, g app = Flask(__name__) @app.route(‘/youhui’) def y…

    Python 2023年8月9日
    038
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球