【整理】爬取网页数据的方法汇总

2023年8月1日下午5:21 • Python • 阅读 77

网页爬取方法汇总：

浏览器console
浏览器插件
*
· Web Scraper
在线网页爬取工具
八爪鱼软件
Python

案例：爬取豆瓣电影Top 250的列表（电影名称、导演、主演、星级等信息）

浏览器console

操作：浏览器内鼠标右键 —> “检查”（不同的浏览器名称可能不一样，此处使用了Google）—> Elements ：查看网页结构 —> Console ：输入指令

var i = 0;
var hd = document.querySelectorAll("div.hd > a");
var bd = document.querySelectorAll("div.bd > p");
var star = document.querySelectorAll("div.bd > div.star > span.rating_num");
var quote = document.querySelectorAll("div.bd > p.quote > span.inq");
for(var t of document.querySelectorAll("ol.grid_view > li > div.item > div.info"))
    {
        console.log(hd[i].href);
        console.log(hd[i].text);
        console.log(bd[i].innerHTML);
        console.log(star[i].innerHTML);
        console.log(quote[i].innerHTML);
        i=i+1;
    }

常用命令（点击链接查看示例）：

方法描述
getElementsByClassName()

返回文档中所有指定类名 ” class= ” 的元素集合
document.getElementById()

返回对拥有指定 id 的第一个对象 ” id= ” 的引用
document.getElementsByName()

返回带有指定名称 ” name= ” 的对象集合
getElementsByTagName()

返回带有指定标签名的所有对象集合，如”div”、”p”，无法指定类名id等
document.querySelectorAll()

返回文档中匹配的CSS选择器的所有元素节点列表，可以获取指定类名、属性的元素

评价：
优点：有浏览器就可以操作，不需要下载软件，不需要部署环境，学习成本不算很高
缺点：当采集任务复杂时，需要增加学习成本的投入；采集数据的格式可能不规整需要进一步处理

参考资料：
HTML DOM Document 对象
 怎么批量提取一个网页里面的链接？ – 喂鸭梨的回答 – 知乎

浏览器插件

推荐几个安装浏览器插件的网站：（懒得把网址从吃灰的收藏夹翻出来了，再说吧 = V =）

· Web Scraper

操作：
（1）将浏览器”检查”窗口调整为”位于底部”的布局，创建一个新的Web Scraper项目

（2）填写爬虫项目信息

（3）建立选择器，选择需要采集的网页元素

; 在线网页爬取工具

目前几款在线网页爬取工具使用的不是很多，后续再补充使用体验

八爪鱼软件

当页面较 整齐有规律时，八爪鱼是个相当不错的选择！只需要输入网址，软件就可以自动识别网页（还提供了翻页），选择需要采集的元素进行采集即可，具体操作见官网教程八爪鱼采集器官网。

但是如果网页布局较复杂，或是有特别的采集需求时，就需要投入一定的学习成本才能完成采集任务。

; Python

（1）构建UA代理，发送请求，获得响应并解码HTML页面

from urllib import request
from lxml import etree

url = 'https://movie.douban.com/top250'
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'}

req = request.Request(url = url , headers = headers)

response = request.urlopen(req)

html = response.read().decode('utf-8')

（2）确定要采集的网页元素，获取各元素的xpath

page = etree.HTML(html)
movie_list = page.xpath('//*[@id="content"]/div/div[1]/ol/li')
file = pd.DataFrame(columns = ['title','detail','type','star','quote'])
i = 0

for m in movie_list:
    title_list = m.xpath('//li/div/div[2]/div[1]/a/span[1]/text()')
    file.loc[i,'title']=title_list[i].replace("\xa0", "").replace('\n','') if title_list else None

    detail_list = m.xpath('//li/div/div[2]/div[2]/p[1]/text()')
    file.loc[i,'detail']=detail_list[i].replace("\xa0", "").replace('\n','') if detail_list else None

    type_list = m.xpath('//li/div/div[2]/div[2]/p[1]/text()[2]')
    file.loc[i,'type']=type_list[i].replace("\xa0", "").replace('\n','') if type_list else None

    star_list = m.xpath('//li/div/div[2]/div[2]/div/span[2]/text()')
    file.loc[i,'star']=star_list[i] if star_list else None

    quote_list = m.xpath('//li/div/div[2]/div[2]/p[2]/span/text()')
    file.loc[i,'quote']=quote_list[i] if quote_list else None

    i = i+1

file

输出结果：

参考资料：
C语言中文网 – Python爬虫教程

Original: https://blog.csdn.net/qq_37785938/article/details/125534124
Author: 渫渫不在乎
Title: 【整理】爬取网页数据的方法汇总

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/728662/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【技术流吃瓜】python可视化大屏舆情分析“张天爱“事件微博评论

一、事件背景二、微热点分析二、自开发Python舆情分析 2.1 Python爬虫 2.2 可视化大屏 2.2.1 大标题 2.2.2 词云图 2.2.3 条形图 2.2.4 …

Python 2023年11月1日
0052
许愿神器来了，30行Python打造了一款许愿墙，希望能追到女神！

公众号 “菜鸟学Python”, 设为 “星标” 第 447篇原创，和30w+一起学Python！不知道大家有没有这样的想法，自己…

Python 2023年8月15日
0065
数据分析工具Pandas基础–运算与对齐

知识要点 Series 的运算：对齐操作发生在索引上 DataFrame 的运算：对齐操作会同时发生在行和列上，注意：Series和DataFrame操作时，Series被看作…

Python 2023年8月22日
0050
实训books，检查版

一创建 1，创建Django项目 – books 创建Django项目，设置项目位置与项目名在这里插入图片描述 ; 二创建并注册应用 – index 1…

Python 2023年8月4日
0059
Java中的正则表达式匹配过程

正则表达式：定义字符串的模式，用来对字符串进行搜索、编辑或处理文本。目前的正则表达式引擎大体上可分为不同的两类：DFA和NFA，而NFA又基本上可以分为传统型NFA和POSIX …

Python 2023年11月8日
0032
pygame学习

pygame创建窗口后窗口未响应，或pygame 窗口每次无法正常关闭https://blog.csdn.net/zsc201825/article/details/8108217…

Python 2023年9月21日
00183
Unity架构之详解域重新加载和场景重新加载

一、unity进入运行模式包括以下主要阶段备份当前场景：这仅在场景被修改后发生。这样当退出运行模式时，Unity 将场景恢复为运行模式开始前的状态。 Domain Reload：…

Python 2023年10月8日
0029
flask-sqlalchemy 解决 with_for_update() 行锁不生效、数据滞后问题

解决方案我先把解决方案放在前面，后面慢慢阐明拖了我三天的研究过程和原因：若出现带锁的查询修改前，先行commit一次。 model.db.session.commit() use…

Python 2023年8月13日
0093
conda问题汇总

conda config –add channels http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge…

Python 2023年9月9日
0078
np.linalg.norm()用法总结

前言 np.linalg.norm()用于求范数，linalg本意为linear(线性) + algebra(代数)，norm则表示范数。用法 np.linalg.norm(x,…

Python 2023年8月23日
0061
【人工智能】期末复习重点知识点总结

试卷共有15道题，四种题型： 1、名词解释题（不超过五个字的概念） 2、简答题（包涵计算）鲁滨逊归结原理、wuzi？置换？倒推值计算方法、代价树每个结点的代价的算法：最大代价…

Python 2023年9月29日
0053
python将一组数据排序_Python 数据处理（十一）—— 排序

11 排序 pandas 支持三种排序方式：按索引排序按指定列的值排序按索引和列排序 11.1 按索引排序 Series.sort_index() 和 DataFrame.s…

Python 2023年8月19日
0040
防抖和节流

使用场景：防抖在连续的事件，只需触发一次回调的场景有：搜索框搜索输入。只需用户最后一次输入完，再发送请求。窗口大小resize。只需窗口调整完成后，计算窗口大小。防止重复渲染。登…

Python 2023年9月29日
0042
python处理csv_to_excel

提取各csv文件不同频率的S参数tx import os.pathimport pandas as pdimport openpyxlimport globfrom os.path…

Python 2023年8月8日
0045
.net 温故知新：【10】.NET ORM框架EFCore使用入门之CodeFirs、DBFirst

前言：本系列是我自己学习.net相关知识，以便跟上.net跨平台的步伐，目前工作原因基本在.net Framework4.7以下，所以才有了这一系列的学习总结，但是并不是从基本的C…

Python 2023年10月13日
0042
Python+大数据-数据分析与处理(六)-综合案例

Python+大数据-数据分析与处理(六)-综合案例案例一：Appstore数据分析学习目标掌握描述性数据分析流程能够使用pandas、seaborn进行数据分析和可视化 …

Python 2023年8月1日
0053

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【整理】爬取网页数据的方法汇总

网页爬取方法汇总：

· Web Scraper

大家都在看