# yyds干货盘点 # 盘点一个正则表达式在Python网络爬虫中的应用案例

大家好,我是皮皮。

一、前言

前几天在Python钻石交流群【海南菜同学】问了一个​ ​Python​​网络爬虫的问题,后来【瑜亮老师】在解答过程中给了一个代码,代码如下:

url = "http://zw.hainan.gov.cn/wssc/ec/jlyhnkj.html"resp = requests.get(url)text = resp.textparse = etree.HTML(text)price = parse.xpath("//div[@class='productlist']/ul/li/div[4]/text()")# 直接使用列表推导式,去掉冗余数据price = [i.strip() for i in price if i.strip()]print(price)# 为了方便统计,再去掉¥符号,再转换成数字# price = [int(float(i.replace('¥', '').replace(',', ''))) for i in price]# 或者用re.sub去掉多余符号,再转换成数字,上下两种方法,选一个就行# 需要import re# price = [int(float(re.sub(r'[¥,]', '', i))) for i in price]print(price)

对于这段代码,您提出了一个正则表达式处理问题,在此与您分享。

[En]

For this code, you put forward a regular expression processing problem, here to share with you.

# yyds干货盘点 # 盘点一个正则表达式在Python网络爬虫中的应用案例

二、实现过程

这里【瑜亮老师】写了一个例子,比如”身高180.3cm”这种,取180.3?如下所示:

# yyds干货盘点 # 盘点一个正则表达式在Python网络爬虫中的应用案例

这里[🌑China Small Miners]给出了一个正则表达式代码,如下所示:

[En]

Here [🌑 Chinese small miners] gives a regular expression code, as follows:

\d+\.\d+

# yyds干货盘点 # 盘点一个正则表达式在Python网络爬虫中的应用案例

后来,[於亮先生]对上述代码进行了优化,具体如下:

[En]

Later, [Mr. Yu Liang] made an optimization for the above code, which is as follows:

d = ["身高180.3cm", "身高180.3", "身高180.3厘米", "higt180.3cm", "higt180.3厘米", "身高180.3cm", "higt180cm"]for s in d:    r = re.findall(r'\d+\.\d+|\d+', s)    print(r)

稍加修改,它既可以应用于浮点数,也可以应用于整数。

[En]

With a little modification, it can be applied to both floating-point numbers and integers.

# yyds干货盘点 # 盘点一个正则表达式在Python网络爬虫中的应用案例

完美解决了风扇问题:

[En]

Solved the fan problem perfectly:

# yyds干货盘点 # 盘点一个正则表达式在Python网络爬虫中的应用案例

方法多多!

三、总结

大家好,我是皮皮。这篇文章主要盘点了一个​ ​Python​​网络爬虫的问题,文中针对该问题给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。

最后感谢粉丝【心田有垢生荒草】提问,感谢【瑜亮老师】、【🌑中华小矿工】给出的思路和代码解析,感谢【Engineer】、【Jason】、【海南菜同学】、【dcpeng】等人参与学习交流。

Original: https://blog.51cto.com/u_13389043/5635901
Author: Python进阶者
Title: # yyds干货盘点 # 盘点一个正则表达式在Python网络爬虫中的应用案例

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/500234/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球