熟人必看，Python爬取黄页88企业公开信息，字体反爬实战

2023年6月3日上午11:30 • Python • 阅读 69

⛳️ 黄页字体反爬实战场景
⛳️ 实战编码

⛳️ 黄页字体反爬实战场景

本次采集的目标站点为 https://huangye88.com ，首页截图如下所示。

在官网找到【企业黄页】选项卡，然后得到如下界面，其中涉及的信息如下，随机找到一个企业公开数据。

在公司黄页详情页可以查看到联系人和联系号码。

这里明显看到手机字体与其它字体有所差异，通过开发者工具进行验证之后，确定存在字体反爬。

保存字体文件，得到下述字体矢量图。

结果字体的编码是固定的英文，那这字体反爬的难度就变的极低了。

⛳️ 实战编码

通过开发者工具可以找到字体文件在网页源码中，所以我们编写一下相关提取代码。

import re

import requests
import base64
from fontTools.ttLib import TTFont

url = 'https://b2b.huangye88.com/qiye1edkfp0964c7/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.67 Safari/537.36'
}

res_text = requests.get(url=url, headers=headers).text
ba64 = re.findall('base64,(.*?)\"\)', res_text)[0]
print(ba64)

data = base64.b64decode(ba64)
with open('./fonts/519.woff', 'wb') as f:
    f.write(data)
font = TTFont('./fonts/519.woff')
font.saveXML('./fonts/519.xml')

得到字体之后，保存的 XML 文档如下所示。

本案例已经结束。

📢📢📢📢📢📢
💗 你正在阅读 【梦想橡皮擦】 的博客
👍 阅读完毕，可以点点小手赞一下
🌻 发现错误，直接评论区中指正吧
📆 橡皮擦的第 677 篇原创博客

从订购之日起，案例 5 年内保证更新

Original: https://www.cnblogs.com/happymeng/p/16377436.html
Author: 梦想橡皮擦
Title: 熟人必看，Python爬取黄页88企业公开信息，字体反爬实战

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/564759/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

MASA Framework — EventBus入门与设计

概述事件总线是一种事件发布/订阅结构，通过发布订阅模式可以解耦不同架构层级，同样它也可以来解决业务之间的耦合，它有以下优点松耦合横切关注点可测试性事件驱动发布订阅模式 …

Python 2023年10月15日
0053
使用Django搭建博客网站（一）（超全超细）

可以分为以下几个步骤： 1. 安装首先需要安装，可以通过 pip 命令进行安装： pip install</p> <p> 2. 创建项目在命令行中进…

Python 2023年8月6日
0034
.NET周报【11月第2期 2022-11-15】

国内文章统一的开发平台.NET 7正式发布 https://www.cnblogs.com/shanyou/archive/2022/11/09/16871945.html 在 …

Python 2023年10月15日
0061
ROS学习（八）launch启动文件的使用方法

前言使用命令行输入代码需要不断打开终端比较繁琐，而且容易输入错误，那么有没有什么方法可以快速启动所需节点呢？一、launch文件介绍 Launch文件：通过XML文件实现多节点…

Python 2023年9月28日
0079
如何用Python matplotlib 绘制提琴图，你get到了吗

Hello，大家好，我是程序汪小陈~ 今天向大家分享的是如何用Python matplotlib 绘制提琴图表示数据分布情况首先，我们学习matplotlib.pyplot.vi…

Python 2023年9月1日
0068
DATA-OBJECT-PROP (DOP)

dop参考：https://zhuanlan.zhihu.com/p/61579911 Original: https://www.cnblogs.com/Flashcc/p/16…

Python 2023年6月12日
0064
小白易懂的遗传算法（Python代码实现）

无约束的遗传算法（最简单的）最开始真正理解遗传算法，是通过这个博主的讲解，安利给小白们看一看，遗传算法的Python实现（通俗易懂），我觉得博主写的让人特别容易理解，关键是代码也…

Python 2023年8月23日
0066
当 SQL DELETE 邂逅 Table aliases，会擦出怎样的火花

开心一刻晚上，女儿眼噙泪水躺在床上女儿：你口口声声说爱我，说陪我，却天天想着骗我零花钱，你是我亲爹吗？我：你想知道真相？女儿：想！我：那你先给爸爸两百块钱！环境准备 M…

Python 2023年10月22日
0031
yolov7 PyTorch模型转TensorRT

文章目录 yolov7 PyTorch模型转TensorRT * 1. github开源代码 2. PyTorch模型转ONNX模型 3. ONNX模型转TensorRT模型 &#…

Python 2023年10月27日
0031
成功解决TypeError: ‘float‘ object cannot be interpreted as an integer

问题描述：在使用Python的 for w in range(0.0, 4.1, 0.1):时遇到报错： TypeError: ‘float’ object cannot be …

Python 2023年8月22日
0058
图神经网络（二）—GCN-pytorch版本代码详解

GCN代码详解-pytorch版本 1 GCN基本介绍 2 代码解析 * 2.1 导入数据 2.2 GCN模型框架 2.3 评估与训练参考资料写在前面… 在研究生的…

Python 2023年8月2日
0083
Python 能写游戏吗？有没有什么开源项目？

python可以制作所有的2D游戏，所有的2D游戏，所有的2D游戏对了以下游戏皆是小学六年级的代码水平如有不适，赶快学习 1、小鸟管道使用模块：pygame代码长度：139行…

Python 2023年9月19日
0040
Python Matplotlib 与 Latex的联用（附带TeXLive安装过程)

Python Matplotlib 与 Latex的联用（附带TeXLive安装过程）问题描述 * 解决例子问题描述当使用Matplotlib 进行科研画图的时候，通常与L…

Python 2023年9月2日
0097
win10 cuda11.0 conda内安装mmcv mmdetection记录

1、nvcc检查cuda版本 nvidia-smi +—————————…

Python 2023年9月8日
0031
python数据拼接的要求_python – 按复杂条件合并/加入2个DataFrame

我有2个大型数据集(每个70K到110K大).我想关联/比较两者,并根据某些条件/标准找到set1中的哪些项目可以在set1中找到. 我当前的策略是按公共字段对两个列表进行排序,然…

Python 2023年8月19日
0038
TreeUtils工具类一行代码实现列表转树【第三版优化】三级菜单三级分类附视频

在日常一线开发过程中，总有 列表转树的需求，几乎是项目的标配，比方说做多级菜单、多级目录、多…

Python 2023年10月14日
0053

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

熟人必看，Python爬取黄页88企业公开信息，字体反爬实战

⛳️ 黄页 字体反爬 实战场景

⛳️ 实战编码

大家都在看

⛳️ 黄页字体反爬实战场景