python使用xpath提取数据_Python：通过xpath获取html表数据

2023年8月8日下午9:39 • Python • 阅读 50

有一个相当通用的模式可以用来解析许多

所有的，桌子。import lxml.html as LH

import requests

import pandas as pd

def text(elt):

return elt.text_content().replace(u’\xa0′, u’ ‘)

url = ‘http://www.fdmbenzinpriser.dk/searchprices/5/’

r = requests.get(url)

root = LH.fromstring(r.content)

for table in root.xpath(‘//table[@id=”sortabletable”]’):

header = [text(th) for th in table.xpath(‘//th’)] # 1

data = [[text(td) for td in tr.xpath(‘td’)]

for tr in table.xpath(‘//tr’)] # 2

data = [row for row in data if len(row)==len(header)] # 3

data = pd.DataFrame(data, columns=header) # 4

print(data)可以使用table.xpath(‘//th’)查找列名。

table.xpath(‘//tr’)返回行，对于每一行，tr.xpath(‘td’)

返回表示表的一个”单元格”的元素。

有时可能需要筛选出某些行，例如在本例中，行

值小于头。

如何处理数据(列表列表)取决于您。在这里，我只用熊猫做演示：Pris Adresse Tidspunkt

0 8.04 Brovejen 18 5500 Middelfart 3 min 38 sek

1 7.88 Hovedvejen 11 5500 Middelfart 4 min 52 sek

2 7.88 Assensvej 105 5500 Middelfart 5 min 56 sek

3 8.23 Ejby Industrivej 111 2600 Glostrup 6 min 28 sek

4 8.15 Park Alle 125 2605 Brøndby 25 min 21 sek

5 8.09 Sletvej 36 8310 Tranbjerg J 25 min 34 sek

6 8.24 Vindinggård Center 29 7100 Vejle 27 min 6 sek

7 7.99 * Søndergade 116 8620 Kjellerup 31 min 27 sek

8 7.99 * Gertrud Rasks Vej 1 9210 Aalborg SØ 31 min 27 sek

9 7.99 * Sorøvej 13 4200 Slagelse 31 min 27 sek

Original: https://blog.csdn.net/weixin_31560425/article/details/113969767
Author: 设计师猫姐
Title: python使用xpath提取数据_Python：通过xpath获取html表数据

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/743212/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

import 导入模块或包

文件就是一个模块,文件夹就是一个包文件夹里面可以有很多文件,就相当于包中有好多的模块. import 模块或者包(包是文件夹,模块是文件)模块不会被重复导入，引入一次终生受益 &…

Python 2023年11月9日
0037
绘制柱状图(四子图) 实验十六 matplotlib数据可视化第5关

目录本关任务所需知识：我的代码答案代码实现：本关任务：根据excel文件”类别销售”工作簿（tbsc/step2/类别销售.xlsx)的烟、零食、…

Python 2023年9月4日
0050
十分钟利用python_pygame做个小游戏_01

Pygame 在做这个游戏教程之前，我想了许久，觉得到底应该怎么做这个教程，是把每一个代码给大家讲清楚，还是直接讲如何去使用，后来我想了想，我自己也学习过许多的教程，给我最大的感受…

Python 2023年9月19日
0039
DBPack SQL Tracing 功能及数据加密功能详解

上周，我们正式发布了 DBPack SQL Tracing 功能和数据加密功能，现对这两个功能做如下说明。 SQL Tracing 通过 DBPack 代理开启的全局事务，会自动在…

Python 2023年6月12日
0086
YOLO系列算法

目录 YOLO系列算法 * yolo算法 – Yolo算法思想 Yolo的网络结构 + 网络输入网络输出 * 7X7网格 30维向量 Yolo模型的训练 + 训练样本…

Python 2023年9月17日
0030
用Python从文件中读取学生成绩，并计算最高分/最低分/平均分

兄弟们，今天咱们试试用Python从文件中读取学生成绩，并计算最高分/最低分/平均分。涉及知识点文件读写基础语法字符串处理循环遍历代码展示模块 import plat…

Python 2023年5月23日
00124
#Linux Ubuntu（乌班图），在python3中安装pip3和pygame

1.如果python2和python3并存先查看python的版本：python –version2.调整默认版本为python3：sudo update-altern…

Python 2023年9月24日
0058
Django-Vue3-Lyadmin后台管理系统

Django-Vue3-Lyadmin ; slogon 前端frontend：做一个专业前端能用的框架，后台人员也能面向配置的、能改得动的CRUD后端backend ：强大的功能…

Python 2023年8月3日
0073
python读取can_Python 数据处理实例练习1：Pandas与数据可视化入门

数据收集、清洗、整理与数据可视化是Python数据处理的第一步，本练习通过一个实际的数据集(加拿大移民人口数据)，对Pandas，Matplotlib库进行基本讲解。主要的数据可视…

Python 2023年8月21日
0070
Pytest问题笔记

收集测试用例命令linux:pytest –collect-only|grep collectedwindows:pytest –collect-only|…

Python 2023年9月12日
0045
pandas计算某列每行带有分隔符的数据中包含特定值的次数

某次做一个数据的处理，要计算用户的粉丝数量，数据集大概是这样的：传播节点微博用户id关注用户idsae26e5e3db7626dcaf6819ce5492d534″0…

Python 2023年8月7日
0060
联邦学习：多任务思想与聚类联邦学习

1 导引计算机科学一大定律：许多看似过时的东西可能过一段时间又会以新的形式再次回归。在联邦学习领域，许多传统机器学习已经讨论过的问题（甚至一些90年代和00年代的论文）都可以被…

Python 2023年10月26日
0040
爬取多页资讯到mysql_利用Scrapy框架爬取博客信息并存到mysql数据库

一、所需要的库 (1)Scrapy (2)pymysql 二、创建数据库和表 Create database hexun; Use hexun; Create table myh…

Python 2023年10月5日
0036
dataframe在特定列插入_DataFrame在任意处添加一列或者多列的方法

很多时候我们需要在任意处添加一列，而非末尾添加一列，下面就介绍一下几种方法 1.df.insert但是这个允许插入一列 DataFrame.insert(loc，column，va…

Python 2023年8月7日
0065
学习笔记——Django项目中的请求与响应

2022-10-01 ALLOWED_HOSTS “ALLOWED_HOSTS”的含义：它是指允许放在”ALLOWED_HOSTS&#8221…

Python 2023年10月31日
0036
django学习小笔记

import jsonfrom django.shortcuts import HttpResponsefrom django.http import JsonResponsefr…

Python 2023年8月5日
0055

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python使用xpath提取数据_Python：通过xpath获取html表数据

大家都在看