python+selenium爬虫全流程详解
- selenium+python爬虫简介
* - selenium测试脚本
- python+selenium
- 模拟浏览器—-以chrome为例
* - 浏览器驱动安装
- 浏览器模拟基本操作
- 爬取数据–web定位
* - 案例–b站排行榜
– - 部分可能会用到的方法(辅助爬虫/降低反爬)
* - 加快网页加载速度(不加载js,images等)
- 异常捕捉
- 网页等待加载
- 在输入框中输入数据
- 网页点击(如点击下一页,或者点击搜索)
- 打印网页信息
- 切换iframe
- 网页滚动(更像真人)
- 随机等待几秒再操作(更像真人)
- 讲在最后
selenium+python爬虫简介
该教程许多内容基于个人经验,部分内容有些口语化
如有错误的地方麻烦及时指正(可评论或者私信)
selenium测试脚本
selenium实际上是web自动化测试工具,能够通过代码完全模拟人使用浏览器自动访问目标站点并操作来进行web测试。
python+selenium
通过python+selenium结合来实现爬虫十分巧妙。
由于是模拟人的点击来操作,所以实际上被反爬的概率将大大降低。
selenium能够执行页面上的js,对于js渲染的数据和模拟登陆处理起来非常容易。
该技术也可以和其它技术结合如正则表达式,bs4,request,ip池等。
当然由于在获取页面的过程中会发送很多请求,所以效率较低,爬取速度会相对慢,建议用于小规模数据爬取。
selenium安装,直接通过pip安装即可
pip3 install selenium
导入包
from selenium import webdriver
模拟浏览器—-以chrome为例
浏览器驱动安装
链接: https://registry.npmmirror.com/binary.html?path=chromedriver/
我们只需要在上面链接内下载对应版本的驱动器,并放到python安装路径的scripts目录中即可。
浏览器版本可在设置–关于Chrome中看到
; 浏览器模拟基本操作
browser = webdriver.Chrome()
driver.maximize_window()
browser.minimize_window()
url='https://www.bilibili.com/v/popular/rank/all'
browser.get(url)
browser.close
爬取数据–web定位
以下知识需要一些web相关知识为前提
案例–b站排行榜
假设我们需要爬取上图红圈中的文本数据,那么我们需要定位到该地方的点位
; 定位方法以及实操
定位方法的选择主要根据目标网页的情况来定
browser.find_element_by_id('')
browser.find_element_by_name("")
browser.find_elements_by_class_name("")
browser.find_element_by_tag_name("")
browser.find_element_by_css_selector('')
browser.find_element_by_xpath('')
browser.find_element_by_link_text("")
browser.find_element_by_partial_link_text("")
在案例网站中我们根据class名称来爬取,标签内class=”info”
from selenium import webdriver
browser = webdriver.Chrome()
url='https://www.bilibili.com/v/popular/rank/all'
browser.get(url)
info=browser.find_elements_by_class_name('info')
for i in info:
print(i.text)
结果
部分可能会用到的方法(辅助爬虫/降低反爬)
加快网页加载速度(不加载js,images等)
options = webdriver.ChromeOptions()
prefs = {
'profile.default_content_setting_values': {
'images': 2,
'permissions.default.stylesheet':2,
'javascript': 2
}
}
options.add_experimental_option('prefs', prefs)
browser = webdriver.Chrome(executable_path='chromedriver.exe', chrome_options=options)
异常捕捉
from selenium.common.exceptions import NoSuchElementException
网页等待加载
由于网速的问题等,进入该网址后页面还没加载出来需要等待
selenium自带的加载方式
from selenium.webdriver.support.wait import WebDriverWait
wait=WebDriverWait(browser,10)
wait1=browser.implicitly_wait(10)
wait.until(EC.presence_of_element_located((By.CLASS_NAME,'tH0')))
用time等待时间
import time
time.sleep(2)
在输入框中输入数据
ele = driver.find_element_by_id("kw")
ele.send_keys("名称")
网页点击(如点击下一页,或者点击搜索)
ele = driver.find_element_by_id("kw")
ele.send_keys("数学")
ele = driver.find_element_by_id('su')
ele.click()
打印网页信息
print(driver.page_source)
print(driver.get_cookies())
print(driver.current_url)
切换iframe
有时候会碰到网页用iframe来作为文档框架
driver.switch_to.frame("iframe的id")
网页滚动(更像真人)
js = "document.documentElement.scrollTop=800"
driver.execute_script(js)
js = "document.documentElement.scrollTop=0"
driver.execute_script(js)
随机等待几秒再操作(更像真人)
import time
import random
time.sleep(random.randint(0,2))
讲在最后
python+selenium爬虫技术仍还有很多可以写,该教程仅仅涉及一大部分,大家应该根据实际需求进行调整,进行搜索。
多进行实践,多百度,总结面对不同网页情况或者不同反爬情况的经验,这样我们才能不断成长。
实践是检验真理的唯一标准。
多谢各位阅读,也希望各位能有所收获。
Original: https://blog.csdn.net/sgld995/article/details/123451146
Author: 苏格拉没有鞋底
Title: selenium+python爬虫全流程教程
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/670061/
转载文章受原作者版权保护。转载请注明原作者出处!