2022年最新大众点评的字体反爬,落地技术也是绝了,Python实现

📢📢📢📢📢📢
💗 你正在阅读 【梦想橡皮擦】 的博客
👍 阅读完毕,可以点点小手赞一下
🌻 发现错误,直接评论区中指正吧
📆 橡皮擦的第 621 篇原创博客

从订购之日起,案例5年内保证更新

⛳️ 大众 实战场景 点评

本次要用来学习的站点也是比较大众的站点,这个站点中碰到了【套娃】字体加密。

[En]

This time to be used to learn the site is also a more popular site, this site encountered [doll] font encryption.

2022年最新大众点评的字体反爬,落地技术也是绝了,Python实现
打开开发者工具刷新站点,可以得到如下字体文件请求,打开开发者工具碰到无限 debugger,取消掉即可。

2022年最新大众点评的字体反爬,落地技术也是绝了,Python实现
文字所在标签添加的样式如下所示。
2022年最新大众点评的字体反爬,落地技术也是绝了,Python实现
然后顺着这个思路进行下去,得到了4层字体套娃。
2022年最新大众点评的字体反爬,落地技术也是绝了,Python实现
而该CSS文件,在页面中竟然每次刷新也发生变化。
2022年最新大众点评的字体反爬,落地技术也是绝了,Python实现

⛳️ 大众 实战场景 点评

编写页面获取代码,得到【图文混排CSS】文件。

import requests
from lxml import etree
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36",
    "HOST": "www.dianping.com"
}

res = requests.get('http://www.dianping.com/shijiazhuang/ch10',headers=headers)
tree = etree.HTML(res.text)
print(tree.xpath('//link/@href')[8])

得到 CSS 文件之后,在截取其中的字体文件。

这里不在过多解析,查阅一下字体文件每次刷新,是否发生编码变化。

[En]

Instead of parsing too much here, check to see if there is a coding change each time the font file is refreshed.

第一次获取的字体文件,随意选择一份

多次测试之后,发现CSS文件和字体文件并未切换名称和修改顺序。

获取字体文件编码,与浏览器字符对应关系

2022年最新大众点评的字体反爬,落地技术也是绝了,Python实现
2022年最新大众点评的字体反爬,落地技术也是绝了,Python实现
检索源码得到如下内容:
  • :对应 7;
  • :对应 5。

2022年最新大众点评的字体反爬,落地技术也是绝了,Python实现
再次回到字体文件中找到7和5对应的编码。

2022年最新大众点评的字体反爬,落地技术也是绝了,Python实现
本案例结束~ 🤪🤪🤪🤪

📣📣📣📣📣📣
右下角有个大拇指,点赞的漂亮加倍

欢迎大家订阅专栏:

Original: https://www.cnblogs.com/happymeng/p/16329341.html
Author: 梦想橡皮擦
Title: 2022年最新大众点评的字体反爬,落地技术也是绝了,Python实现

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/116678/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

免费咨询
免费咨询
扫码关注
扫码关注
联系站长

站长Johngo!

大数据和算法重度研究者!

持续产出大数据、算法、LeetCode干货,以及业界好资源!

2022012703491714

微信来撩,免费咨询:xiaozhu_tec

分享本页
返回顶部