selenium被识别如何反屏蔽

2023年6月10日下午5:27 • Python • 阅读 74

反屏蔽

现在很多网站都加上了对 Selenium 的检测，来防止一些爬虫的恶意爬取。即如果检测到有人在使用 Selenium 打开浏览器，那就直接屏蔽。

其大多数情况下，检测基本原理是检测当前浏览器窗口下的 window.navigator 对象是否包含 webdriver 这个属性。因为在正常使用浏览器的情况下，这个属性是 undefined，然而一旦我们使用了 Selenium，Selenium 会给 window.navigator 设置 webdriver 属性。很多网站就通过 JavaScript 判断如果 webdriver 属性存在，那就直接屏蔽。

这边有一个典型的案例网站：
Scrape | Movie antispider1.scrape.cuiqingcai.com/

这个网站就是使用了上述原理实现了 WebDriver 的检测，如果使用 Selenium 直接爬取的话，那就会返回如下页面：

这时候我们可能想到直接使用 JavaScript 直接把这个 webdriver 属性置空，比如通过调用 execute_script 方法来执行如下代码：

Object.defineProperty(navigator, "webdriver", {get: () => undefined})

这行 JavaScript 的确是可以把 webdriver 属性置空，但是 execute_script 调用这行 JavaScript 语句实际上是在页面加载完毕之后才执行的，执行太晚了，网站早在最初页面渲染之前就已经对 webdriver 属性进行了检测，所以用上述方法并不能达到效果。

在 Selenium 中，我们可以使用 CDP（即 Chrome Devtools-Protocol，Chrome 开发工具协议）来解决这个问题，通过 CDP 我们可以实现在每个页面刚加载的时候执行 JavaScript 代码，执行的 CDP 方法叫作 Page.addScriptToEvaluateOnNewDocument，然后传入上文的 JavaScript 代码即可，这样我们就可以在每次页面加载之前将 webdriver 属性置空了。另外我们还可以加入几个选项来隐藏 WebDriver 提示条和自动化扩展信息，代码实现如下：

from selenium import webdriver
from selenium.webdriver import ChromeOptions

option = ChromeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation'])
option.add_experimental_option('useAutomationExtension', False)
browser = webdriver.Chrome(options=option)
browser.execute_cdp_cmd('Page.addScriptToEvaluateOnNewDocument', {
   'source': 'Object.defineProperty(navigator, "webdriver", {get: () => undefined})'
})
browser.get('https://antispider1.scrape.cuiqingcai.com/')

这样整个页面就能被加载出来了：

对于大多数的情况，以上的方法均可以实现 Selenium 反屏蔽。但对于一些特殊的网站，如果其有更多的 WebDriver 特征检测，可能需要具体排查。

Original: https://www.cnblogs.com/lvye001/p/16053580.html
Author: lvye001
Title: selenium被识别如何反屏蔽

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/597010/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Flask实现后台管理系统（功能全面）

Flask牦牛管理系统功能点以上大体功能全部实现，存在小bug，会继续完善! 前台功能 1、普通用户注册（QQ邮箱注册）用户需输入QQ邮箱格式的用户名进行邮件发送，接收验证码。2…

Python 2023年8月12日
00134
python中@详解

通常我们所见的@符号是用于邮箱中，而在python中@符号也有着重要的作用：一个是表示修饰符，另一个则是表示矩阵乘法(不常用)。表示修饰符时，可以在模块或者类的定义层内对函数进…

Python 2023年8月1日
0057
Python数据分析【第10天】| DataFrame的排序、排名和索引重置（sort，rank，index）

系列文章目录第1天：读入数据第2天：read()、readline()与readlines()第3天：进度条（tqdm模块）第4天：命令行传参（argparse模块）第5天：读、…

Python 2023年8月15日
0046
df pd 属性_pd.DataFrame()函数解析

DataFrame是Python中Pandas库中的一种数据结构，它类似excel，是一种二维表。== DataFrame的单元格可以存放数值、字符串等，这和excel表很像，同时…

Python 2023年8月18日
0050
django2.2-form表单详解

通常情况下，我们需要自己手动在HTML页面中，编写form标签和其内的其它元素。但这费时费力，而且容易出错，数据验证也比较麻烦。因此，Django在内部集成了一个表单模块，专门用…

Python 2023年8月5日
0048
C++ 初识函数模板

1. 前言什么是函数模板？理解什么是函数模板，须先搞清楚为什么需要函数模板。如果现在有一个需求，要求编写一个求 2 个数字中最小数字的函数，这 2 个数字可以是 int类型，…

Python 2023年10月22日
0061
命令注入与dvwa中的Command Injection

一、什么是命令注入？即 Command Injection，是指通过提交恶意构造的参数破坏命令语句结构，从而达到执行恶意命令的目的。此攻击与代码注入不同，因为代码注入允许攻击者…

Python 2023年11月5日
0043
Python字符串格式化输出语法汇总

1. 引言在程序设计中，对于字符串的处理是个免不了的工作。对于字符串的常见操作，Python内置了各种不同的工具，本篇要讨论的是关于Python中字串格式化输出的各种语法。 2….

Python 2023年5月25日
0073
Python Matplotlib 折线图线条颜色和样式

Python Matplotlib 折线图线条颜色和样式折线颜色折线形状数据点（节点）形状坐标示例折线颜色 ; 折线形状 ‘-‘ ：实线&#8…

Python 2023年8月1日
00108
【目标检测】目标检测界的扛把子YOLOv5（原理详解+修炼指南）

文章目录 1.YOLO输入端 * 1.1 Mosaic数据增强 1.2 自适应锚框计算 1.3 自适应图片缩放 2.YOLO总体架构图 * 2.1 BackBone –…

Python 2023年9月27日
0061
【Django | 安全防护】CSRF跨站伪请求和SQL注入攻击

🤵‍♂️ 个人主页: @计算机魔术师👨‍💻 作者简介：CSDN内容合伙人，全栈领域优质创作者。 🌐 推荐一款找工作神器网站: 牛客网🎉🎉|笔试题库|面试经验|实习招聘内推还没账户的…

Python 2023年8月6日
0083
Scrapy 实践指南1——常用配置

本文基于scrapy 2.6版本说明前言经历了半个月的调参，整理了一些Scrapy中常用的配置和实践方式(都是血和泪的教训TAT) 配置说明 settings.py 常用配置 …

Python 2023年10月4日
0048
Flask入门（二）模板

在一般的 Web 程序里，访问一个地址通常会返回一个包含各类信息的 HTML 页面。因为我们的程序是动态的，页面中的某些信息需要根据不同的情况来进行调整，比如对登录和未登录用户显示…

Python 2023年8月15日
0043
在图片不被裁剪时opencv绕图片中任意点旋转任意角度

opencv绕图片中任意角度旋转任意角度最近在做项目需要把把图片绕图片中任意点旋转任意角度，考虑到自己旋转需要编写插值算法，所以想到了用opencv，但是网上都是围绕图片中点旋转…

Python 2023年10月20日
0051
2.04_python+Django+mysql实现pdf转word项目_项目开发-创建项目首页

目录 2.04_python+Django+mysql实现pdf转word项目_项目开发-创建项目首页一、在templates 中创建首页，index.html Original…

Python 2023年8月4日
0060
锂离子电池健康状态估计简介（一）：基于Python的数据处理计算SOH,RUL,CCCT,CVCT

锂离子电池无论是在军用还是民用领域都得到了广泛的应用，在锂离子电池健康评估中主要关注的参数有SOH和RUL。准确对其进行健康状态(Stateof Health, SOH)评估及剩余…

Python 2023年8月2日
0069

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

selenium被识别如何反屏蔽

大家都在看