XPath语法和lxml模块

2023年6月21日下午6:22 • 技术杂谈 • 阅读 90

XPath语法和lxml模块

什么是XPath？

xpath（XML Path Language）是一门在XML和HTML文档中查找信息的语言，可用来在XML和HTML文档中对元素和属性进行遍历。

XPath开发工具

Chrome插件XPath Helper。

安装方法：

打开插件伴侣，选择插件
选择提取插件内容到桌面，桌面上会多一个文件夹
把文件夹放入想要放的路径下
打开谷歌浏览器，选择扩展程序，开发者模式打开，选择加载已解压的扩展程序，选择路径打开即可

Firefox插件Try XPath。

XPath节点

在 XPath 中，有七种类型的节点： 元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。

XPath语法

使用方式：

使用//获取整个页面当中的元素，然后写标签名，然后在写谓语进行提取，比如：

//title[@lang='en']
//标签[@属性名='属性值']

如果想获取html标签下的body标签
html/body

谓语：谓语用来查找某个特定的节点或者包含某个指定的值的节点，被嵌在方括号中。在下面的表格中，列出了带有谓语的一些路径表达式

通配符

只要book标签带有属性都可以通过 //book[@*] 匹配到

选取多个路径

通过在路径表达式中使用 | 运算符，可以选取若干个路径

选取所有book元素以及book元素下所有的title元素
//bookstore/book|//book/title

运算符

需要注意的知识点：

/和//的区别：/代表只获取子节点，//获取子孙节点，一般//用的比较多，当然也要视情况而定
contains：有时候某个属性中包含了多个值，那么可以使用contains函数，示例如下：

//title[contains(@lang,'en')]

谓词中下标是从1开始的，不是从0开始的

lxml库

lxml 是一个HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 数据。
lxml和正则一样，也是用 C 实现的，是一款高性能的 Python HTML/XML 解析器，我们可以利用之前学习的XPath语法，来快速的定位特定元素以及节点信息。

👉lxml python 官方文档：http://lxml.de/index.html

👉需要安装C语言库，可使用 pip 安装： pip install lxml

基本使用：

我们可以利用他来解析HTML代码，并且在解析HTML代码的时候，如果HTML代码不规范，他会自动的进行补全

from lxml import etree

text = '''

         first item
         second item
         third item
         fourth item
         fifth item

'''
将字符串解析为html文档
html = etree.HTML(text)
print(html)
按字符串序列化html
result = etree.tostring(html).decode('utf-8')
print(result)

从文件中读取html代码：

#读取
html = etree.parse('hello.html')

result = etree.tostring(html).decode('utf-8')
print(result)

在lxml中使用xpath语法


         first item
         second item
         third item
         fourth item
         fifth item

语法练习

from lxml import etree
html = etree.parse('hello.html')
获取所有li标签：
result = html.xpath('//li')
print(result)
for i in result:
    print(etree.tostring(i))
获取所有li元素下的所有class属性的值：
result = html.xpath('//li/@class')
print(result)
获取li标签下href为www.baidu.com的a标签：
result = html.xpath('//li/a[@href="www.baidu.com"]')
print(result)
获取li标签下所有span标签：
result = html.xpath('//li//span')
print(result)
获取li标签下的a标签里的所有class：
result = html.xpath('//li/a//@class')
print(result)
获取最后一个li的a的href属性对应的值：
result = html.xpath('//li[last()]/a/@href')
print(result)
获取倒数第二个li元素的内容：
result = html.xpath('//li[last()-1]/a')
print(result)
print(result[0].text)
获取倒数第二个li元素的内容的第二种方式：
result = html.xpath('//li[last()-1]/a/text()')
print(result)

Original: https://www.cnblogs.com/48xz/p/16227487.html
Author: HammerZe
Title: XPath语法和lxml模块

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/643937/

转载文章受原作者版权保护。转载请注明原作者出处！

技术杂谈

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Azure Service Fabric 踩坑日志

近期项目上面用到了Azure Service Fabric这个服务，它是用来做微服务架构的，由于这套代码和架构都是以前同学留下来的，缺少文档，项目组在折腾时也曾遇到几个问题，这里整…

技术杂谈 2023年5月31日
00108
vnpy源码阅读学习(6)：事件引擎

看完了 MainEngine的代码，大概有一个了解以后。我们在初始化 MainEngine的时候，要传入或者实例化一个事件引擎对象。代码基本结构按照惯例，我把所有的方法体折叠，…

技术杂谈 2023年7月11日
0075
Chrome Service Model

John Abd-El-Malek February 2016 Objective Move Chrome codebase towards a service-oriented …

技术杂谈 2023年5月31日
00120
JSON_语法_值得获取

JSON_语法_值得获取 json对象.键名 json对象[“键名”] 数据对象[索引] 获取值： Title //定义基本格式 var person = …

技术杂谈 2023年6月21日
0081
python xlwings chart模块各种问题今天都遇到了

问题1、增加图表，按网上搜索的设置图表标题一直报错（pywintypes.com_error: (-2147352567, ‘发生意外。’, (0, &#8…

技术杂谈 2023年7月11日
00102
idea 中下载、安装、运行 Antlr4

posted @2022-11-02 18:42 学而不思则罔！阅读(12 ) 评论() 编辑 Original: https://www.cnblogs.com/bajiaot…

技术杂谈 2023年7月11日
0071
Linux（CentOS）安装Redis保姆级教程

Linux（CentOs）安装Redis教程一，下载Redis（两种方式） 1，找到redis官网（https://redis.io/download ）如果想下载指定版本就去…

技术杂谈 2023年7月11日
00140
Spring事务（二）-@Transactional注解

上一节说了Spring的事务配置，其中，声明式事务配置里有5种配置方式， @Transactional注解应该是最为常用的一种方式了。这一节就说说 @Transactional注解…

技术杂谈 2023年7月11日
0092
页面性能分析：利用chrome做web性能分析

在上一篇文章中，我们通过开发者工具中的网络面板，介绍了网络请求过程的几种性能指标以及对页面加载的影响。而在渲染流水线中，后面的步骤都直接或者间接地依赖于 DOM 结构，所以本文我…

技术杂谈 2023年5月31日
0083
21级三翼技术部复试(前端)参考资料

21级三翼技术部复试(前端)参考资料一个目的是复习巩固一下，因为军训时发现脑中突然回忆不起来盒子模型了，感觉还是稍微敲一下会有印象，二是和大家一起分享交流一下，因为不保证每个答案…

技术杂谈 2023年7月10日
0093
Visio对齐如何用例图等的属性

博客园：当前访问的博文已被密码保护请输入阅读密码: Original: https://www.cnblogs.com/hxsyl/p/6575706.htmlAuthor: …

技术杂谈 2023年5月31日
00111
【前端技术】从零开始在github创建个人主页或技术博客

@ 1、注册github账号 2、创建个人主页专属仓库 3、了解主页框架css代码并下载 3、修改index.html文件 4、把修改好的index.html文件连同css文件夹上…

技术杂谈 2023年7月24日
00116
AIX下安装bash

在AIX系统下，默认是没有安装bash环境的，对于经常操作的维护人员来说，非常不方便，所以下面我们来动手安装bash。 1、确认系统是否已安装bash 方法1：之间敲bash命令，…

技术杂谈 2023年7月10日
0081
在windows下使用s3cmd和s3browser来管理amazon s3的笔记

S3是Amazon S3的简称，s3cmd是一款命令行工具用来管理s3，同时还有一款图形化的管理工具：s3 browser。因为绝大多数用户都是在linux下管理s3，而我们的打…

技术杂谈 2023年6月1日
00127
ifmodule

<ifmodule test>…</ifmodule test>配置段用于封装根据指定的模块是否启用而决定是否生效的指令。在 <ifmodule&…

技术杂谈 2023年5月31日
00101
Netty源码分析之自定义编解码器

在日常的网络开发当中，协议解析都是必须的工作内容，Netty中虽然内置了基于长度、分隔符的编解码器，但在大部分场景中我们使用的都是自定义协议，所以Netty提供了 MessageT…

技术杂谈 2023年7月25日
00109

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

XPath语法和lxml模块

什么是XPath？

XPath开发工具

XPath节点

XPath语法

使用方式：

谓语：谓语用来查找某个特定的节点或者包含某个指定的值的节点，被嵌在方括号中。在下面的表格中，列出了带有谓语的一些路径表达式

通配符

选取多个路径

运算符

需要注意的知识点：

lxml库

基本使用：

从文件中读取html代码：

在lxml中使用xpath语法

大家都在看