简单动态页面的爬取

2023年6月7日上午1:11 • Linux • 阅读 105

ch6&7 动态渲染页面的爬取

ajax数据爬取
动态渲染页面的爬取
selenium的使用
splash的使用

1. ajax数据爬取

ajax数据的爬取主要依靠分析XHR请求，利用resquests库构造响应来完成。

2. 动态渲染页面的爬取

0. intro

动态渲染页面技术不止XHR一种，而在一些情况下利用AJAX的爬取是十分困难的。而模拟浏览器运行的方式就可以很好地解决这一问题。

模拟浏览器的运行方式下，模拟出的浏览器中看到的是什么样，代码爬取的就是什么样，做到了可见即可爬。这样一来便不用管ajax的实现到底有哪些参数。

1. selenium

1. 基本使用方法

br = webdriver.browser(): 申明了一个浏览器对象，其中 browser字段是下列中的一个，表示选择相对应的浏览器
Chrome
Firefox
Edge
Safari
PhantomJS该函数完成了浏览器对象的初始化，并将之赋值给变量br
br.get(URLlink): 用于请求网页，URLlink即为需要访问的页面
br.close(): 关闭浏览器

2. 对节点进行的操作

a. 查找结点对于节点的查找可以按照查到结果的个数分为: 对单个节点的查找, 对多个节点的查找
对单节点的查找
- br.find_element(By.con, val): 其中 con为选择字段，可以为 id, name, xpath, link_text, partial_link_text, tag_name, class_name, css_selector。 val为要传入的参数值。
对多个节点的查找
- br.find_elements(By.con, val): 参数与单节点的查找一致
单节点查找方法返回值为 WebElement, 多节点查找方法返回值为列表，列表中的元素类型为 WebElement*查找示例

from selenium import webdriver
from selenium.webdriver.common.by import By

br = webdriver.Firefox()
br.get('https://www.baidu.com')
ele = br.find_element(By.ID, 'q')
print(res)
br.close()

按照 ID 属性，找到了ID为 q 的节点并输出。结果如下：

b. 操作节点在对结点的操作前，需要先通过查找结点来选定操作的对象。常见的操作有：
ele.send_keys('content'): 表示向该节点输入文字
ele.clear(): 表示清空输入的文字
ele.click(): 表示点击节点
c. 动作链动作链与对结点的操作类似，但它不需要选择节点。常见的动作链操作有：鼠标拖拽、键盘按键等。

from selenium import webdriver
from selenium.webdriver imposr ActionChains

br = webdriver.Firefox()
url = 'https://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'
br.get(url)
br.switch_to.frame('iframeResult')
sou = br.find_element_by_css_selector('#draggable')
tar = br.find_element_by_css_selector('#droppable')
act = ActionChains(br)
act.drag_and_drop(sou, tar)
act.perform()

该url是一个用于测试拖拽测试的页面
用 find_element()方法选择了拖拽的目的地和终点，但是动作链对象本身并没有需要选择节点对象
d. 获取节点信息获取节点信息同样也需要首先选中需要操作的节点
ele.get_attribute('content'): 获取节点的属性，content为要获取的节点的属性，如 class
ele.text: 获取节点的文本内容
ele.id: 获取id
ele.location: 获取该节点在网页中的相对位置
ele.tag_name: 获取该节点的标签名称
ele.size: 获取该节点的宽和高
e. 对于子页面iframe特殊结点的处理iframe节点是一种特殊的节点，相当于页面的子页面。在父页面中查询节点时，是无法查找到子节点中节点的信息的。这时就需要使用切换父子页面的方法
br.switch_to.frame('name'): 切换至该页面的子页面，且子页面的名称为 name
br.switch_to.parent_frame(): 切换至该页面的父页面

3. 其他操作

a. 延时等待selenium中的get方法会在网页框架加载完毕后就执行，如果此时就获取源代码可能会找不到需要的节点，所以需要等待一段时间后再获取代码。
隐式等待
- br.implicitly_wait(num): 在查找节点而没有找到时等待 num秒。与 br.get()方法搭配使用，且在该方法之前使用。
显式等待
b. 前进与后退
br.back()
br.forward()
c. cookies
br.get_cookies(): 获取所有cookies
br.add_cooke({dic}): 添加一个cookies，传入内容为字典
br.delete_all_cookies(): 删除所有cookies
d. 异常处理常用的异常及其处理如下

try:
    br.get('http://www.baidu.com')
except TimeoutException:
    print('time out')
try:
    br.find_element_by_id('hello')
except NoSuchElementException:
    print('no such element found')
finally:
    br.close()

2. splash

尚未用到，待补充

Original: https://www.cnblogs.com/dysonxxxxx/p/16582049.html
Author: dysonkkk
Title: 简单动态页面的爬取

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/578852/

转载文章受原作者版权保护。转载请注明原作者出处！

Linux

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

springBoot2.*使用redis集群/单机方法

Lettuce 和 Jedis 的定位都是Redis的client，所以他们当然可以直接连接redis server。 Jedis在实现上是直接连接的redis server，如果…

Linux 2023年5月28日
00119
【Docker搭建】3. 在Docker中搭建Zookeeper集群

docker pull zookeeper docker run –name zk1 -d zookeeper apt-get update apt-get install vi…

Linux 2023年6月13日
0096
大天使之剑H5游戏超详细图文架设教程

引言想体验传奇游戏霸服的快乐吗？想体验满级VIP的尊贵吗？想体验一刀99999的爽快吗？各种极品装备、翅膀、宠物通通给你，就在大天使之剑！本文讲解大天使之剑H5游戏的架设教程，…

Linux 2023年6月7日
00119
redis的另一个分支 keydb

今天无意间发现了redis还有一个分支keydb 是多线程的,貌似在机器内核多的情况下效果比redis效果好执行这些命令在这之前先把redis关掉 sudo systemctl…

Linux 2023年5月28日
0084
[SSM架构]springboot笔记

框架基础介绍框架概念框架(Framework)是一个半成品软件,将所有的、公共的、重复的功能解决掉，帮助程序快速高效的进行开发，他是可重复的，可拓展的。常见的框架&#8211…

Linux 2023年6月13日
0091
关于网络安全防护架构中的DMZ区

公司有一个网站群的业务，应用规模比较大，目前计划是从传统的虚拟机部署方式迁移到内部的私有云。这种迁移的动作是一个很好的学习机会。在交流的时候的时候，领导有提到现有的架构基本上是参…

Linux 2023年6月14日
00105
Flask聚合函数(基本聚合函数、分组聚合函数、去重聚合函数)）

1.基本聚合函数（sun/count/max/min/avg）语法注意：使用db.session.query()括号内必须要写东西，不能空着，不然都不知道从哪张表中查询数据代…

Linux 2023年6月8日
0096
PMP 考试常见工具与技术点总结

转载请注明出处：网络图：项目进度活动之间的逻辑关系，用来推算关键路径，最大浮动时间等；横道图（甘特图）：以图示的方式，通过活动列表和时间刻度，来展示项目获得那个顺序和持续时间 …

Linux 2023年6月14日
0093
Spring5 学习笔记

学习地址: B站-动力节点个人代码: GitHub Spring 概述 1.1 Spring 简介 Spring Framework 是一个使用Java开发的、轻量级的、开源框架…

Linux 2023年6月14日
0095
第二周作业

第二周作业一、显示在/etc目录下，以非字母开头，后面跟了一个字母以及其它任意长度任意字符的文件或者目录 [root@CentOS8 / ]#!mkdir mkdir /etc/…

Linux 2023年6月13日
0096
SQLI-LABS(Less-8)

Less-8(GET-Blind-Boolean Based-Single Quotes) 打开 Less-8页面，可以看到页面中间有一句 Please input the ID …

Linux 2023年6月6日
0093
jarwarSpringBoot加载包内外资源的方式，告别FileNotFoundException吧

工作中常常会用到文件加载，然后又经常忘记，印象不深，没有系统性研究过，从最初的war包项目到现在的springboot项目，从加载外部文件到加载自身jar包内文件，也发生了许多变化…

Linux 2023年6月6日
00112
SpringBoot-Mybatis

SpringBoot 整合 Mybatis SpringBoot-Mybatis 10.1 导入 MyBatis 所需要的依赖 org.mybatis.spring.boot my…

Linux 2023年6月14日
0093
Kasini3000 batch modify the password for windows node

https://gitee.com/chuanjiao10/kasini3000 win,linux devops automation batch script framewor…

Linux 2023年6月13日
00105
Centos8安装docker报错（错误提示：All mirrors were tried）

Centos8从零安装Docker-ce 背景：我把服务器整个yum源的配置文件里的内容全删了。因为我一直碰到”All mirrors were tried&#8221…

Linux 2023年5月27日
00157
Question07-查询学过”张三”老师授课的同学的信息

* SELECT DISTINCT Student.* FROM Student , SC , Course , Teacher WHERE Student.SID = SC.SI…

Linux 2023年6月7日
00114

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

简单动态页面的爬取

1. ajax数据爬取

ajax数据的爬取主要依靠分析XHR请求，利用resquests库构造响应来完成。

2. 动态渲染页面的爬取

0. intro

动态渲染页面技术不止XHR一种，而在一些情况下利用AJAX的爬取是十分困难的。而模拟浏览器运行的方式就可以很好地解决这一问题。

模拟浏览器的运行方式下，模拟出的浏览器中看到的是什么样，代码爬取的就是什么样，做到了可见即可爬。这样一来便不用管ajax的实现到底有哪些参数。

1. selenium

1. 基本使用方法

2. 对节点进行的操作

3. 其他操作

2. splash

大家都在看