selenium+python爬虫全流程教程

2023年7月4日下午4:50 • 人工智能 • 阅读 68

python+selenium爬虫全流程详解

selenium+python爬虫简介
*
selenium测试脚本
python+selenium
模拟浏览器—-以chrome为例
*
浏览器驱动安装
浏览器模拟基本操作
爬取数据–web定位
*
案例–b站排行榜
–
- 定位方法以及实操
部分可能会用到的方法（辅助爬虫/降低反爬）
*
加快网页加载速度（不加载js，images等）
异常捕捉
网页等待加载
在输入框中输入数据
网页点击（如点击下一页，或者点击搜索）
打印网页信息
切换iframe
网页滚动（更像真人）
随机等待几秒再操作（更像真人）
讲在最后

selenium+python爬虫简介

该教程许多内容基于个人经验，部分内容有些口语化
如有错误的地方麻烦及时指正（可评论或者私信）

selenium测试脚本

selenium实际上是web自动化测试工具，能够通过代码完全模拟人使用浏览器自动访问目标站点并操作来进行web测试。

python+selenium

通过python+selenium结合来实现爬虫十分巧妙。

由于是模拟人的点击来操作，所以实际上被反爬的概率将大大降低。
selenium能够执行页面上的js，对于js渲染的数据和模拟登陆处理起来非常容易。
该技术也可以和其它技术结合如正则表达式，bs4，request，ip池等。

当然由于在获取页面的过程中会发送很多请求，所以效率较低，爬取速度会相对慢，建议用于小规模数据爬取。

selenium安装，直接通过pip安装即可

pip3 install selenium

导入包

from selenium import webdriver

模拟浏览器—-以chrome为例

浏览器驱动安装

链接: https://registry.npmmirror.com/binary.html?path=chromedriver/
我们只需要在上面链接内下载对应版本的驱动器，并放到python安装路径的scripts目录中即可。

浏览器版本可在设置–关于Chrome中看到

; 浏览器模拟基本操作

browser = webdriver.Chrome()
driver.maximize_window()
browser.minimize_window()
url='https://www.bilibili.com/v/popular/rank/all'
browser.get(url)
browser.close

爬取数据–web定位

以下知识需要一些web相关知识为前提

案例–b站排行榜

假设我们需要爬取上图红圈中的文本数据，那么我们需要定位到该地方的点位

; 定位方法以及实操

定位方法的选择主要根据目标网页的情况来定


browser.find_element_by_id('')

browser.find_element_by_name("")

browser.find_elements_by_class_name("")

browser.find_element_by_tag_name("")

browser.find_element_by_css_selector('')

browser.find_element_by_xpath('')

browser.find_element_by_link_text("")

browser.find_element_by_partial_link_text("")

在案例网站中我们根据class名称来爬取，标签内class=”info”

from selenium import webdriver
browser = webdriver.Chrome()

url='https://www.bilibili.com/v/popular/rank/all'
browser.get(url)
info=browser.find_elements_by_class_name('info')

for i in info:
    print(i.text)

结果

部分可能会用到的方法（辅助爬虫/降低反爬）

加快网页加载速度（不加载js，images等）

options = webdriver.ChromeOptions()
prefs = {
        'profile.default_content_setting_values': {
            'images': 2,
            'permissions.default.stylesheet':2,
            'javascript': 2
        }
    }
options.add_experimental_option('prefs', prefs)
browser = webdriver.Chrome(executable_path='chromedriver.exe', chrome_options=options)

异常捕捉

from selenium.common.exceptions import NoSuchElementException

网页等待加载

由于网速的问题等，进入该网址后页面还没加载出来需要等待

selenium自带的加载方式

from selenium.webdriver.support.wait import WebDriverWait
wait=WebDriverWait(browser,10)
wait1=browser.implicitly_wait(10)
wait.until(EC.presence_of_element_located((By.CLASS_NAME,'tH0')))

用time等待时间

import time
time.sleep(2)

在输入框中输入数据

ele = driver.find_element_by_id("kw")
ele.send_keys("名称")

网页点击（如点击下一页，或者点击搜索）

ele = driver.find_element_by_id("kw")
ele.send_keys("数学")
ele = driver.find_element_by_id('su')
ele.click()

打印网页信息

print(driver.page_source)
print(driver.get_cookies())
print(driver.current_url)

切换iframe

有时候会碰到网页用iframe来作为文档框架

driver.switch_to.frame("iframe的id")

网页滚动（更像真人）


js = "document.documentElement.scrollTop=800"

driver.execute_script(js)

js = "document.documentElement.scrollTop=0"
driver.execute_script(js)

随机等待几秒再操作（更像真人）

import time
import random
time.sleep(random.randint(0,2))

讲在最后

python+selenium爬虫技术仍还有很多可以写，该教程仅仅涉及一大部分，大家应该根据实际需求进行调整，进行搜索。

多进行实践，多百度，总结面对不同网页情况或者不同反爬情况的经验，这样我们才能不断成长。

实践是检验真理的唯一标准。

多谢各位阅读，也希望各位能有所收获。

Original: https://blog.csdn.net/sgld995/article/details/123451146
Author: 苏格拉没有鞋底
Title: selenium+python爬虫全流程教程

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/670061/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

小白学习pytorch源码（二）：setup.py最详细解读

从pytorch源码整体学习的角度看，有两个文件最为关键，分别为pytorch源码总目录下的setup.py和torch包中的_init_.py。其中_init_.py已经在我的上…

人工智能 2023年7月23日
0054
yolov4训练测试自己的数据集关键点总结

在实习中，有一个任务是训练出一个车辆检测的yolov4模型。感觉yolov4的功能好强大啊！特此记录一下自己在使用过程中的一些改动。 yolov4论文， yolov4源码首先肯定…

人工智能 2023年7月10日
0067
DDPM代码详细解读(2)：Unet结构、正向和逆向过程、IS和FID测试、EMA优化

以下是将 Unet_和门 _结构_结合的 _PyTorch 代码： import torch import torch.nn as nn import torch.nn.funct…

人工智能 2023年6月24日
00242
Opencv 4.2 Cudnn 8.2 Could NOT find CUDNN: Found unsuitable version “..“

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月20日
0078
功能对等四个原则_“功能对等”翻译理论——–奈达翻译理论体系的核心

翻译方法相关论文只围绕直译与意译之争，而奈达从《圣经》翻译提出功能对等即读者同等反应。 “功能对等”翻译理论是奈达翻译理论体系的核心是从新的视角提出的…

人工智能 2023年6月1日
0097
各种说明方法的例句_句子的说明方法有哪些（说明方法的句子大全集）

资料：关于说明文的说明方法打比方：天上的星星像一颗颗宝石。作比较：春天的雨细腻柔媚，夏天的雨粗犷热烈。举例子：晕能预示天气。比如，在新疆地区，出现晕。映入眼帘的是一个晶莹的…

人工智能 2023年6月1日
0060
99分位、95分位计算实时分位数的统计方法

之前做的一个项目上线有一段时间了，但一直也没有来得及做统计分析（峰值、平均QPS、……）。最近刚好又被问到了这个事情，所以抽空学习了解一下部分监控指标的概念…

人工智能 2023年5月31日
00119
【PyTorch】从头搭建并训练一个神经网络模型（图像分类、CNN）

目录 0. 前言 1. 使用torchvision加载数据集并做预处理 2. 定义（搭建）自己的神经网络 3. 定义损失函数（Loss Function）和优化器（Optimize…

人工智能 2023年7月12日
0072
opencv-python计算最小外接矩形minAreaRect

需求描述最近遇到一个需求，通过minAreaRect得到最小外接矩阵后，还需要判断该矩形中的文字是横向排列还是纵向排列。网上查找很多教程，他们对minAreaRect函数以及其返…

人工智能 2023年7月19日
0048
YOLOv7论文部分解读【含自己的理解】

yolo终于又更新了！！看了一下yolov7的论文，然后把论文翻译以及自己的一些思考写了进去，这里还包含了我对论文中粗label和细label的详细解释【自己的理解】，其实就是借鉴…

人工智能 2023年6月24日
00119
文本的向量表示

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月31日
0087
R语言caret包构建机器学习回归模型（regression model）、使用DALEX包进行模型解释分析、特征重要度、偏依赖分析等

好的，以下是一个简单的环境数据集的建模、验证、评估、优化和预测的步骤： 1. 数据集导入和探索性分析首先，我们需要导入数据集，并通过查看数据的统计摘要和可视化图表来了解数据的 …

人工智能 2023年6月17日
0088
利用自己构建的网络进行鼾声识别

1 目前的工作 5692条3s且采集率为8000hz的鼾声与6824条3s且采集率为8000hz的其他类音频。通过FFT频谱转换为300个(30,513,1)的矩阵。训练集与测试集…

人工智能 2023年5月25日
0079
CT3D：Improving 3D Object Detection with Channel-wise Transformer 论文阅读

Abstract 现在点云的两阶段3D物体检测灵活性和高性能的建议修正工作都不是很好。以前的refining 3D proposals 都依赖人工设计，比如关键点采样，set st…

人工智能 2023年7月12日
0081
Python 命令行参数详解

Python 命令行参数详解 * – 0. 命令行参数 – 1. sys.argv – 2. getopt – + 2.1 geto…

人工智能 2023年7月4日
0096
网络分析软件_Vol.163丨ROST CM文本挖掘软件/教育技术学：从循证走向智慧教育

2020年10月22日晚7：00，乜勇教授团队于田家炳教育书院408会议室顺利召开本学期第六次正式学术沙龙。本次会议使用腾讯会议系统，参与人员有：乜勇老师、李秀明、马建军、高红英…

人工智能 2023年6月10日
0082

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31