JS逆向爬虫案例分享（RSA非对称加密）

2023年10月1日下午3:37 • Python • 阅读 28

网站百科数据爬取之反爬策略JS逆向分析（二）

本次分享解析某域网站数据的反爬机制。

此次只做技术分享，如有侵权，请联系删除。

1、分析网站

需求目的：工业品网站百科数据信息。

如下图：

明显可以看出三个参数，knowledgeId详情Id、sign加密字段、timestamp时间戳。重点在sign的获取。那就开始sign参数的解密过程吧。
首先找到生成sign的相关js代码。如图所示：
JS逆向爬虫案例分享（RSA非对称加密）

; 2、JS文件解密分析

可以看出跟函数getByCodeKnows有关，分析代码。先放出JS结果代码如下：

var NodeRSA = require('node-rsa')

var privateKeyStr = "MIICXQIBAAKBgQDlOJu6TyygqxfWT7eLtGDwajtNFOb9I5XRb6khyfD1Yt3YiCgQWMNW649887VGJiGr/L5i2osbl8C9+WJTeucF+S76xFxdU6jE0NQ+Z+zEdhUTooNRaY5nZiu5PgDB0ED/ZKBUSLKL7eibMxZtMlUDHjm4gwQco1KRMDSmXSMkDwIDAQABAoGAfY9LpnuWK5Bs50UVep5c93SJdUi82u7yMx4iHFMc/Z2hfenfYEzu+57fI4fvxTQ//5DbzRR/XKb8ulNv6+CHyPF31xk7YOBfkGI8qjLoq06V+FyBfDSwL8KbLyeHm7KUZnLNQbk8yGLzB3iYKkRHlmUanQGaNMIJziWOkN+N9dECQQD0ONYRNZeuM8zd8XJTSdcIX4a3gy3GGCJxOzv16XHxD03GW6UNLmfPwenKu+cdrQeaqEixrCejXdAFz/7+BSMpAkEA8EaSOeP5Xr3ZrbiKzi6TGMwHMvC7HdJxaBJbVRfApFrE0/mPwmP5rN7QwjrMY+0+AbXcm8mRQyQ1+IGEembsdwJBAN6az8Rv7QnD/YBvi52POIlRSSIMV7SwWvSK4WSMnGb1ZBbhgdg57DXaspcwHsFV7hByQ5BvMtIduHcT14ECfcECQATeaTgjFnqE/lQ22Rk0eGaYO80cc643BXVGafNfd9fcvwBMnk0iGX0XRsOozVt5AzilpsLBYuApa66NcVHJpCECQQDTjI2AQhFc1yRnCU/YgDnSpJVm1nASoRUnU8Jfm3Ozuku7JUXcVpt08DFSceCEX9unCuMcT72rAQlLpdZir876";
var pri = "-----*********-----".concat(privateKeyStr, "-----END RSA PRIVATE KEY-----");
var privateKey = new NodeRSA(pri);
function getByCodeKnows() {
    var timestamp = new Date().getTime();
    var sign = privateKey.sign(timestamp, "base64", "utf8");
    item = {"timestamp": timestamp, "sign": sign}
    return item
}
console.log(getByCodeKnows())

由代码可以看出JS加密涉及到RSA加密算法,首先就要去下载node-rsa模块，导入模块，变量privateKeyStr从JS文件中得知是个常量，变量pri由privateKeyStr与”—–**—–“和”—–END RSA PRIVATE KEY—–“拼接而来。接着就是对常量pri进行RSA加密生成密钥,前面已经导入了node-rsa模块，直接运用NodeRSA()方法，得到privateKey值。下面就很简单了，一个是获得时间戳、然后就是编码转换获得sign值。这里简单介绍一下RSA算法。

RSA

非对称加密，一般由发送方（客户端）和接收方（服务端）各持有一对公钥和私钥。

私钥可以推出公钥，公钥不能推出私钥。

数据交换的过程中，双方交换自己的公钥。各自私钥不公开。

发送时使用对方的公钥进行加密。接收对方发来的密文时，使用自己私钥进行解密。

发送方使用私钥将信息进行加签（签名），将密文与签名作为参数发起请求。

接收方用自己私钥解密得到的明文，请求方公钥，接收的签名，进行验签（签名验证）。

RSA签名和验签的作用

为了增强数据交换的安全性。

假设不进行签名和验签：
发送方（客户端）的请求，可能被第三方拦截（中间人攻击）。中间人在拦截发送方请求（不知道拦截的请求参数明文）由于接收方（服务端）的公钥是公开的，中间人可以使用公钥对参数加密，替换拦截到的参数密文，发送给原接收方（服务端）。（当然这个发送的参数格式是什么，中间人知道不知道就另寻它路了）这导致接收方（服务端）无法判断得到的请求是否是可信的客户端发送的。（因为请求头什么的都是对的，参数被中间人替换了）发送方如果增加签名可以不用加密请求参数，但第三方拦截后能看到请求参数的明文（参数格式和内容被公开）。
安全性的前提是私钥没有泄露，私钥若被攻击者获取了，那么签名也可以伪造了。

结果展示

运行js代码，查看结果。如下图：

可以看到返回的字典中包括了时间戳以及sign的值，那么接下来就很简单了，可以通过postman模拟接口请求或者直接编写爬虫代码验证，我直接编写爬虫代码实现验证。

; 3.、爬取数据

在得到sign字段的值后，编写爬取代码就简单了，观察得到是POST请求，form表单提交请求数据，编写headers请求头，需要pyexecjs模块是python爬虫库里关于javaScript的一套程序，它能帮你解析python代码的js代码。有经验的爬虫程序员应该知道，在你的请求头中有一部分是被js代码加密的，而这一套js加密程序就保存在你当前访问的网站中（事实上就是存在本地），每一次访问都需要调用js做加密再请求。这个机制可以抵挡大部分的爬虫程序，除非你模仿js加密程序之后再做请求。你可以模拟js程序写一段python程序，也可以直接把网页里的js代码复制下来，使用pyexecjs模块来运用。其最终实现部分爬虫代码如下：

    def get_detail_request(self,knowledgeId,title):
        with open(r'js文件路径', 'r',encoding='utf-8') as r:
            js = r.read()
        jsdm = execjs.compile(js)
        result = jsdm.call('getByCodeKnows')
        timestamp=result.get("timestamp")
        sign=result.get("sign")
        start_url="请求的网站链接"
        headers = {
            "Accept": " application/json, text/plain, */*",
            'accept-encoding': 'gzip, deflate, br',
            'accept-language': 'zh-CN,zh;q=0.9',
            'Content-Type': ' application/json',
            'Origin': ' **********',
            'Referer':' **********',
            'User-Agent':' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36'
        }
        meta={
            "knowledgeId":knowledgeId,
            "title":title,
        }
        params: dict = {"sign":sign,"timestamp":timestamp,"knowledgeId": knowledgeId}

        return scrapy.Request( url=start_url,
                               method="POST",
                              callback=self.detail_parse,
                              headers=headers,
                               meta=meta,
                               body=json.dumps(params),
                               dont_filter=True)

    def detail_parse(self, response):
        title=response.meta["title"]
        MongoHelpS = MongoHelp("localhost", "GuAnJie", "baike_category_deatil")
        data_text=response.text
        data_json=json.loads(data_text)
        data=data_json["data"]["categoryKnow"]
        knowledge=data["knowledge"]
        item={"title":title,"knowledge":knowledge}
        MongoHelpS.insert(item)

最终实现爬取数据如图：

Original: https://blog.csdn.net/weixin_36723038/article/details/127111965
Author: 欧菲斯集团
Title: JS逆向爬虫案例分享（RSA非对称加密）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/788851/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python设计模式-创建型：单例模式和工厂模式家族

Python设计模式-创建型：单例模式和工厂模式家族知识点：单例模式概念及一般实现单例模式的装饰器实现简单工厂模式抽象工厂模式所谓单例模式，也就是说不管什么时候我们要确…

Python 2023年11月2日
0034
机器学习实验：主成分分析PCA

介绍（Introduction）在本次实验中，将实现主成分分析方法，并使用它获得人脸图像的低维表示。本次实验需要用到的数据集包括： ex4data1.mat -2D 仿真数据集…

Python 2023年8月29日
0048
[HFCTF 2021 Final]easyflask

任意文件读取，根据提示读取源码 import os import pickle from base64 import b64decode from flask import Fla…

Python 2023年8月14日
0051
pipelines mysql_scrapy基础知识之将item 通过pipeline保存数据到mysql mongoDB：

pipelines.py class xxPipeline(object): def process_item(self, item, spider): con=pymysql.c…

Python 2023年10月5日
0033
Pandas 数据结构之 DataFrame使用教程

Pandas 数据结构 DataFrame 简介 DataFrame 实例化行数据的选择 * 1.按位置选择行数据（单行选择） 2.按位置选择行数据（多行选择：类似于切片） 3….

Python 2023年8月7日
0047
Multipass，多平台本地轻量级Linux体验！

本文更新于2022年11月，内容可能过时，请评论区指正！ Multipass 是由Ubuntu官方提供，在Linux，MacOS和Windows上快速生成 Ubuntu虚拟机的工…

Python 2023年10月14日
0038
Python图像处理【1】图像与视频处理基础

图像与视频处理基础 * – 0. 前言 – 1. 在 3D 空间中显示 RGB 图像颜色通道 – + 1.1 图像表示 + 1.2 在 3D 空…

Python 2023年8月3日
0048
Pandas第二部分Day4练习题

第四次课作业（1）读取上次作业保存的数据，酒店数据1.xlsx （2）查看”评分”的格式，并分别进行升序和降序排序（3）对酒店按照价格进行排名，计算&#…

Python 2023年8月8日
0050
SSTI基础学习

一、什么是SSTISSTI就是服务器端模板注入(Server-Side Template Injection)，也给出了一个注入的概念。常见的注入有：SQL 注入，XSS 注入，…

Python 2023年8月14日
0034
python中matplotlib：updated matplotlibrc file、查看库的版本和位置、EnvironmentError: [WinError 5]

目录 1、遇到的问题： 2、原因： 3、解决办法： 4、执行pip install遇到 Could not install packages due to an Environme…

Python 2023年8月31日
0055
Python图书管理系统（终章）

文章目录前言总的项目布局效果展示全部代码总结前言上次写了用MySQL完成数据存储的图书管理系统，这次我将把各个模块划分为系统的各个功能，通过flask框架与前端进行数…

Python 2023年8月15日
0033
Klarf 文件可视化工具

1.技术框架 1.1 前端： Vue3 网页版 Electron + Quasar 可生成 EXE、 APK 等客户端 Element-Plus 控件 axios 跨域 1.2 后…

Python 2023年8月14日
0045
【机器学习】李宏毅——何为反向传播

回顾一下梯度下降的过程：假设当前神经网络有以下参数(\theta = {\omega_1,\omega_2,…,b_1,b_2,…})，那么梯度下降就是 …

Python 2023年10月28日
0030
18-DataFrame数据对象使用方法概述

; 0.本集概览 1.DataFrame是若干有序排列的Series对象2.DataFrame可以看作含有行索引和列索引的二维数组结构3.DataFrame可以看作是特殊字典，反应…

Python 2023年8月18日
0045
pymysql保存数组_pymysql返回数据的处理

pymysql可以使用fetchall返回元组型数据，也可以直接使用pandas获取DataFrame格式数据。具体操作如下。 1、首先，定义连接和查询sql In [1]: im…

Python 2023年8月22日
0062
【深度学习实战】一、Numpy手撸神经网络实现线性回归

目录一、引言二、代码实战 1、Tensor和初始化类 2、全连接层 3、模型组网 4、SGD优化器 5、均方差损失函数 6、Dataset 三、线性回归实战四、实验结果五、…

Python 2023年8月28日
0036

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30