在座的Python爬虫工程师，你敢爬律师事务所站点吗？

2023年5月24日上午8:36 • Python • 阅读 122

⛳️ 实战场景

本次要分析的站点是 credit.acla.org.cn/，一个律师群体常去的站点，作为一个爬虫工程师，这简直是送自己去喝茶。

⛳️ 反爬实战

打开开发者工具，无限 debugger

(function anonymous() {
  debugger;
});

直接行号处右键 一律不在此处暂停

// 取消清空方法
console._c = console.clear;
console.clear = function () {
  return;
};

console._l = console.log;
console.log = function () {
  return;
};

类 JSFUCK 加密反爬

简单的反爬行方法已经解决，让我们尝试获取网页数据，如下面的测试代码所示。

[En]

The simple anti-crawling method has been solved, so let’s try to get the web page data, as shown in the test code below.


import requests

headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)",
    "referer": "https://credit.acla.org.cn/"
}

res = requests.get('https://credit.acla.org.cn/credit/lawFirm?picCaptchaVerification=&keyWords=',headers=headers)
print(res.text)

注意不要在 Pycharm 等工具的控制台直接复制代码去开发者工具中运行，要写入文件，然后复制整行内容。

在打开一个站点的控制台，例如百度，然后唤醒控制台，删除 $=~[]……() 代码段最后的 ()，然后执行。

PyMiniRacer 是适用于 Python 的最小的现代嵌入式 V8。PyMiniRacer 支持最新的 ECMAScript 标准，支持 Assembly，并提供可重用的上下文。

本部分代码如下所示。


import requests
import re
from py_mini_racer import MiniRacer

import execjs
headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.67 Safari/537.36",
    "referer": "https://credit.acla.org.cn/credit/lawFirm?picCaptchaVerification=&keyWords="
}

res = requests.get('https://credit.acla.org.cn/credit/lawFirm?picCaptchaVerification=&keyWords=',headers=headers)
with open('aaa.html', 'w') as f:
    f.write(res.text)

pattern = re.compile('(\$\=\~\[\];.*?[\s\S]*)')
data = pattern.findall(res.text)[0]
print(data[0])
script_str = data[:-1].strip()
script_str = script_str.replace('();','')
"""
删除最终的自执行代码
script_str = script_str.replace(')();','')
删除包裹函数
script_str = script_str.replace(';$.$(',';')
"""

ctx = MiniRacer()
print(script_str)
print(ctx.eval（script_str))

删除最终的自执行代码
script_str = script_str.replace(')();','')
删除包裹函数
script_str = script_str.replace(';$.$(',';')

function decryptByDES(ciphertext, key) {
  var keyHex = CryptoJS.enc.Utf8.parse(key);
  var decrypted = CryptoJS.DES.decrypt(
    {
      ciphertext: CryptoJS.enc.Base64.parse(ciphertext),
    },
    keyHex,
    {
      mode: CryptoJS.mode.ECB,
      padding: CryptoJS.pad.Pkcs7,
    }
  );
  return decrypted.toString(CryptoJS.enc.Utf8);
}

剩下的事情就是秘钥 keyHex 的获取，这部分稍加调试即可实现。

⛳️ 反爬总结

真没想到，一个网站的搜索页面上有这么多防爬行手段，看来律师事务所的数据不好收集，拜托，版权问题，不能发布完整的代码，如果需要获取，请点击卡。

[En]

Really did not expect that there are so many anti-crawling means on the search page of a site, it seems that the data of the law firm is not easy to collect, come on, copyright issues, can not release the complete code, if you need to get, please click on the card.

📢📢📢📢📢📢 💗 你正在阅读 【梦想橡皮擦】 的博客 👍 阅读完毕，可以点点小手赞一下 🌻 发现错误，直接评论区中指正吧 📆 橡皮擦的第篇原创博客

Original: https://blog.51cto.com/cnca/5546530
Author: 梦想橡皮擦
Title: 在座的Python爬虫工程师，你敢爬律师事务所站点吗？

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/504461/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

钻石价格预测的ML全流程！从模型构建调优道部署应用！⛵

💡 作者：韩信子@ShowMeAI📘 数据分析 ◉ 技能提升系列：http://www.showmeai.tech/tutorials/33📘 AI 面试题库系列：http://w…

Python 2023年10月25日
0044
ZZA的项目学习开发文档和算法学习笔记5/2

先复习一下数据结构考察T r i e Trie T r i e算法的题目通常会限制：字符串只有小写英文字母或者大写英文字母，且字母通常为26 26 2 6或52 52 5 2个 …

Python 2023年9月25日
0060
重命名和合并（renaming and combining）

通常情况下，数据会带有列名、索引名或其他我们不满意的命名约定。在这种情况下，您将学习如何使用 pandas 函数将违规条目的名称更改为更好的名称。您还将探索如何组合来自多个 Dat…

Python 2023年8月21日
0042
细数实现全景图VR的几种方式（panorama/cubemap/eac）

Three.js系列: 在元宇宙看电影，享受 VR 视觉盛宴 Three.js系列: 造个海洋球池来学习物理引擎 Three.js系列: 游戏中的第一、三人称视角 Three.js…

Python 2023年10月23日
0086
尚硅谷Promise笔记

文章目录一、Promise介绍与基本使用 * 1-1.初体验之promise封装ajax请求 1-2.Promise对象状态属性PromiseState的值有三个 1-3.Pro…

Python 2023年9月17日
0051
windows10配备vscode爬虫环境，选用bs4和conda

参考的是这位用linux的大神https://www.youtube.com/watch?v=RrQQEhlFt5E&t=665s；首先是第一步创建你自己的文件夹，这里…

Python 2023年9月8日
0085
人工智能历史上的重要一步：ChatGPT影响到谷歌地位？

AI神器 ChatGPT火了。能直接生成代码、会自动修复bug、在线问诊、模仿莎士比亚风格写作……各种话题都能hold住，它就是OpenAI刚刚推出的——…

Python 2023年11月3日
0061
Pygame实战：前方高燃，外星人基地又双叒叕“空降”了。

导语 “宇宙比任何人所能想像的大得多，如果只有我们，那不是太浪费空间了吗？” 忘了到底是从哪搞来的，可能是隔壁班借的，也可能是亲戚朋友给买的。总之，打着手…

Python 2023年9月21日
0053
30天Python入门（第二十五天：深入了解Python中的pandas）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月21日
0064
Django模型的元数据Meta

模型的元数据，指的是”除了字段外的所有内容”，例如排序方式、数据库表名、人类可读的单数或者复数名等等。所有的这些都是非必须的，甚至元数据本身对模型也是非必须…

Python 2023年6月3日
0085
python 基准测试（cProfile kcachegrind line_profiler memory_profiler）

learn from 《Python高性能（第2版）》类似工具：pycharm profile对函数调用效率进行测试 1. 例子一个圆周运动的动画 from matplotli…

Python 2023年9月11日
0059
python大作业：基于pygame的坦克大战小游戏，完成菜单、多种模式、多种关卡等扩展

背景介绍：临近期末python大作业要求用python写一个程序，因为小游戏比较简单并且对它比较感兴趣，所以开始在GitHub上找寻小游戏，在看了众多游戏最终选择了坦克大战。坦克…

Python 2023年9月17日
0054
Tensorflow on multiple GPUs with FastAPI

Tensorflow on multiple GPUs with FastAPI tab of content Tensorflow on multiple GPUs with F…

Python 2023年8月10日
0076
2.1 飞机游戏

本节将利用函数封装重构飞机游戏，并实现新式子弹、敌机移动和更好的清屏功能。 2.1.1 代码重构没有函数，我们所有的代码都要写在主函数中，这样看着杂乱也不利于更行和添加功能。我们…

Python 2023年9月24日
0083
cannot import name ‘x‘ from partially initialized module ‘x‘ (most likely due to a circular import)

问题在使用flask+celery+blueprint时，总是报重复引入circular importcannot import name ‘create_app&#…

Python 2023年8月9日
0069
DRF–模型序列化器,字段修改

模型序列化器: 有时候我们根据模型类的字段一个个去定义序列化器类中的字段,可能模型类有百个字段,这样一个个定义就显得非常繁琐,所以我们可以使用drf中自带的模型序列化器,即seri…

Python 2023年8月6日
0057

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

在座的Python爬虫工程师，你敢爬律师事务所站点吗？

⛳️ 实战场景

⛳️ 反爬实战

⛳️ 反爬总结

大家都在看