BeautifulSoup4的使用

2023年6月9日上午8:42 • 数据库 • 阅读 95

Beautiful Soup 主要是用来解析提取 HTML 和 XML 文件中的数据。

现在官网推荐使用 Beautiful Soup 4 ，已经被移植到了BS4中。

安装 Beautiful Soup： pip instal beautifulsoup4

使用格式：

实例化 Beautifulsoup 传入被解析的 HTML 文档内容和解析器，得到一个对象。

from bs4 import Beautifulsoup

soup = Beautifulsoup(html_doc, 'html.parser')

参数：
    -html_doc：被解析的html文档内容
    -html.parser：解析器

解析器：

解析器使用方法优势劣势 Python标准库

Python的内置标准库执行速度适中文档容错能力强 Python 2.7.3 or 3.2.2)前的版本中文档容错能力差 lxml HTML 解析器

速度快文档容错能力强需要安装C语言库 lxml XML 解析器

速度快唯一支持XML的解析器需要安装C语言库 html5lib

最好的容错性以浏览器的方式解析文档生成HTML5格式的文档速度慢不依赖外部扩展

遍历文档树就是直接通过标签名字选择，特点是选择速度快，但如果存在多个相同的标签则只能返回第一个。

用法：

from bs4 import Beautifulsoup

soup = Beautifulsoup(html_doc, 'html.parser')
对象 = soup.body.a        # 查找最开始第一个body标签下的第一个a标签

对象.name           # 获取标签的名字
对象.attrs          # 获取标签的所有属性
对象.get(属性名)     # 获取标签指定属性
对象.text           # 获取标签的文本内容（子子孙孙都拼接在一起的）
对象.get_text()     # 和上面一样
对象.string         # 当前标签下有文本才取出来，否则全是None
对象.strings        # 子子孙孙的内容都放大生成器中

搜索文档树是通过主要的两个方法 find() 和 find_all() 去文档中查找指定标签。

五种过滤器

1、字符串：

from bs4 import Beautifulsoup
soup = Beautifulsoup(html_doc, 'html.parser')

soup.find_all('a')  # 查找所有的a标签

2、正则表达式

import re

soup.find_all(re.compile('^b'))     # 查找出所有以b开头的标签

3、列表

soup.find_all(['a', 'b'])   # 找到所有的a标签和b标签

4、True/False

soup.find_all(name=True)        # 匹配有name属性的标签

5、方法

如果没有合适的过滤器，就可以定义一个方法只接收一个元素参数，返回 True 表示匹配到并找到，否则 False

查找有类属性，没有id属性的标签
def fun(tag):
    return tag.has_attr('class') and not tag.has_attr('id')

soup.find_all(fun)

CSS选择器

使用方法和CSS选择器一样，用css选择器的格式去找标签

格式：

soup.select('css选择器')   # 返回列表

'''
#id
.class
#id a ——>匹配对应id下的所有a标签（子子孙孙）
#id>a ——>匹配对应id下的直接子节点，子标签
'''

Original: https://www.cnblogs.com/XiaoYang-sir/p/15173127.html
Author: Mr-Yang`
Title: BeautifulSoup4的使用

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/591844/

转载文章受原作者版权保护。转载请注明原作者出处！

数据库

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

MySQL实战45讲 12

12 | 为什么我的MySQL会”抖”一下？一条 SQL 语句，正常执行的时候特别快，但是有时也不知道怎么回事，它就会变得特别慢，并且这样的场景很难复现…

数据库 2023年6月16日
0090
Java学习-第一部分-第二阶段-第三节：异常

异常笔记目录：(https://www.cnblogs.com/wenjie2000/p/16378441.html) 运行下面的代码，看看有什么问题->引出异常和异常处理…

数据库 2023年6月11日
00117
通过VS下载的NuGet包，如何修改其下载存放路径？

我们通过NuGet包管理器下载的引用包，默认是存放在C盘的，存储路径一般是： C:\Users\{系统用&…

数据库 2023年6月14日
00187
idea tags

总结IDEA开发的26个常用设置https://zhuanlan.zhihu.com/p/108172369idea跳转到指定行列快捷键https://blog.51cto.com…

数据库 2023年6月11日
0077
MySql 事务隔离级别简述，以及为什么互联网项目用：读已提交(Read Commited)这个隔离级别

MySql 事务隔离级别事务隔离级别脏读不可重复读幻读读未提交（read-uncommitted）是是是读已提交（read-committed）否是是可重…

数据库 2023年6月16日
0088
回溯问题学习总结

回溯问题三种情况每种情况都有子集，组合，排列三种题型无重复元素不可复选 //子集问题 …

数据库 2023年6月16日
0081
Mybatis缓存机制

MyBatis是常见的 Java数据库访问层框架。在日常工作中，多数情况下是使用 MyBatis的默认缓存配置减轻数据库压力，提高数据库性能，但是 MyBatis缓存机制有一些不足…

数据库 2023年6月11日
00118
Java学习-第一部分-第三阶段-第三节：MySQL基础

零基础学MySQL 笔记目录：(https://www.cnblogs.com/wenjie2000/p/16378441.html) 一个问题淘宝网，京东、微信，抖音都有各自的…

数据库 2023年6月11日
0090
Redis SCAN命令

获取指定前缀的key 需求描述： Redis中有大量以xxx开头的key，在不使用keys命令的情况下，如何快速获取这些前缀的key 解决方案： redis自带的scan命令可以解…

数据库 2023年6月14日
0076
QT槽函数获取信号发送对象

Qt 在槽函数中获取信号发送对象 Qt中提供了一个函数 qobject_cast(QObject *object),可以通过这个函数判断信号发出对象 Qt 帮助文档的解释：Retu…

数据库 2023年6月16日
00130
mysql中all用法和any的用法和内连接和外连接,全外连接,联合查询,自连接

与子查询配合使用在all的用法中,有三种语法:select 列名 from 表名 where 列名 <> all(select 列名 from 表名 where 条…

数据库 2023年6月16日
0076
JavaWeb过滤器Filter（附tomcat部分源码分析）

过滤器Filter 过滤器通常对一些web资源进行拦截，做完一些处理器再交给下一个过滤器处理，直到所有的过滤器处理器，再调用servlet实例的service方法进行处理。过滤器可…

数据库 2023年6月16日
00118
垃圾回收算法的原理及应用

概述有java开发经历的小伙伴必然对 垃圾回收不陌生。垃圾回收简单来说就是一种自动的内存管…

数据库 2023年6月11日
0095
运行jar包使用外部依赖

nohup java -Dloader.path=”lib/” -Dfile.encoding=utf-8 -jar test.jar > test….

数据库 2023年6月9日
0055
Mysql学习

显示字符集编码 mysql架构逻辑架构 Client : 提供连接MySQL服务器功能的常用工具集 Server : MySQL实例，真正提供数据存储和数据处理功能的MySQL服…

数据库 2023年6月16日
0062
SpringBoot下使用AOP做日志

AOP实现接口执行时间的计算： SpringBoot项目导入spring-boot-starter-aop依赖编写切面类类上加@Aspect注解，表明这是一个切面类类上加@C…

数据库 2023年6月14日
00116

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

BeautifulSoup4的使用

五种过滤器

CSS选择器

大家都在看