某某网站JS逆向及tls指纹绕过分析

2023年10月2日下午2:29 • Python • 阅读 34

大家好，我是TheWeiJun；光阴似箭、日月如梭，突然发现又有好长时间没有更新了。还好总有粉丝朋友找我提问，今天更新一篇粉丝 Robbers提到的网站问题，主要涉及js逆向和tls指纹绕过。欢迎各位读者朋友多多阅读与交流！

特别声明：本公众号文章只用于学术研究，不作为其它不法用途；如有侵权请联系作者删除。

立即加星标

每天看好文

一、前言介绍

二、参数分析

三、断点调试

四、算法分析

五、指纹绕过

六、学习展望

趣味模块

Robbers是一名spider工程师，最近Robbers遇到了一个棘手的问题：Robbers在访问某某网站时，遇到了JS加密参数。Robbers凭借自己超高的专业技能对该加密参数逆向还原后，用requests、httpx、aiohttp等包去发包，居然认证不通过，提示身份授权失败。这篇文章，我们将和Robbers一起并肩作战，去解决这个问题！

一、前言介绍

我们在以往的文章中都是提到了如何从params、data、headers、cookies、response中去还原加密参数，通过还原加密参数的方式即可实现数据采集。而今天我们要分享的文章中，和提到的这几个类型完全没有任何关联，遇到这样的问题，该如何解决这类型的问题？带着这些疑问耐心看完本篇文章，你就豁然开朗了！

二、参数分析

1、首先打开我们今天要模拟的网站，刷新当前页面，截图如下：

2、打开开发者工具DevTools,选择Network栏目,刷新当前页面，截图如下：

3、经过分析可以确定该接口即为我们要获取数据的地址，接下来我们进行参数分析：

Request参数分析：

总结：该接口都是明文，不需要进行任何还原。

Headers参数分析：

总结：u-sign目测为md5算法加密参数。

通过分析，我们可以确定u-sign参数是被加密处理了。经过重放请求包，不能够缺少u-sign参数，接下来我们需要进入JS段点调试分析加密参数环节一探究竟了。

三、断点调试

1、使用XHR/fetch打上断点，当该请求发包的时候，捕获断点如下：

2、在Call Stack栏目中追溯headers参数堆栈，截图如下所示：

3、在u-sign参数下面一行打上断点，查看u-sign对应的value的值，截图如下：

4、确定加密函数为i后，我们进入该函数，查看加密逻辑，截图如下：

5、确定n(a)为u-sign参数的值后，我们在console输出a参数，copy(a)用前面提到的md5去校验看是否等于该参数的值，截图如下：

总结：确定参数算法及整个流程贯通后，接下来，我们只需要对js代码加密算法进行还原即可。

四、算法还原

1、Python版本算法还原代码如下：

-*- coding: utf-8 -*-

--------------------------------------

@author : &#x9006;&#x5411;&#x4E0E;&#x722C;&#x866B;&#x6545;&#x4E8B;&#x516C;&#x4F17;&#x53F7;

--------------------------------------

import json

import hashlib

def get_sign(data: dict) -> str:

    data_str = json.dumps(data, separators=(',', ':'))

    text = f"{data_str.lower()}&9sasji5owng41irkisvtjhlxhmrysrp1"

    hash_md5 = hashlib.md5()

    hash_md5.update(text.encode())

    sign = hash_md5.hexdigest()

    return sign

if __name__ == '__main__':

    headers = {

        "Accept-Encoding": "gzip, deflate, br",

        "Connection": "keep-alive",

        'Accept': '*/*',

        'Accept-Language': 'zh-CN,zh;q=0.9',

        'Cache-Control': 'no-cache',

        "Content-Length": "132",

        'Pragma': 'no-cache',

        'Sec-Fetch-Dest': 'empty',

        'Sec-Fetch-Mode': 'cors',

        'Sec-Fetch-Site': 'same-site',

        'sec-ch-ua': '"Chromium";v="106", "Google Chrome";v="106", "Not;A=Brand";v="99"',

        'sec-ch-ua-mobile': '?0',

        'sec-ch-ua-platform': '"macOS"',

        'u-sign': '37635b63e0f1973c61b1444983eab1be',

        'u-token': '',

    json_data = {

        'keyword': '',

        'provinceNames': [],

        'natureTypes': [],

        'eduLevel': '',

        'categories': [],

        'features': [],

        'pageIndex': 5,

        'pageSize': 20,

        'sort': 11,

    sign = get_sign(json_data)

    print(sign)

    print(headers['u-sign'])

2、代码运行后， Pycharm打印结果如下：

3、算法还原后，使用Python发送请求包，截图如下：

总结：参数完全一致的情况无法通过认证，接下来我们进入新的环节解决这个问题吧！

五、指纹绕过

1、在我们参数算法完全还原的情况，请求该网站却提示身份认证失败，我们重新梳理下可能存在的情况如下：

cookies
http2.0
tls指纹

总结：经过分析，我们可以确认该网站不需要cookies，故第一种怀疑排除掉；接下来进行http2.0验证。

2、可能比较傻，我确实用httpx验证了下该网站，截图如下：

with httpx.Client(http2=True) as req:

    response = req.post('https://xxxxxxxx.cn/xxxxx.basiclib.api.college.query',

                        headers=headers, json=json_data)

    print(response.text)

Pycharm代码运行后，截图如下：

总结：结局总是那么不理想，此刻怀疑的方案只剩下最后一种：该网站对tls请求指纹进行验证；接下来我们继续分析。

可能到这里会有人问，什么是tls指纹？

TLS指纹，也有人叫JA3指纹。在创建TLS连接时，根据TLS协议在Client Hello阶段发送的数据包就是就是TLS指纹。不同浏览器、不同版本（不同框架）因为对协议的理解和应用不一样，所以发送的数据包内容也就不一样，所以就形成了TLS指纹。

3、使用Postman进行发包测试，不再使用Python第三方包，截图如下所示：

总结：看到此处后一下豁然开朗了，可以肯定对方服务端会对请求指纹进行校验，如果是我们刚刚使用的第三方包，都会被服务端给识别到，最后返回身份授权失败错误。那么我们如何过TLS指纹呢？

怎么过TLS指纹？这是一个黑客大佬总结的几种方法：

代理中转请求
使用Go语言爬虫库
魔改requests
*访问ip指定host绕过waf

4、接下来，我们使用Golang编写代码及还原算法如下：

// Package main -----------------------------

// @author    : &#x9006;&#x5411;&#x4E0E;&#x722C;&#x866B;&#x7684;&#x6545;&#x4E8B;

// -------------------------------------------

package main

import (

  "crypto/md5"

  "fmt"

  "io/ioutil"

  "log"

  "net/http"

  "strings"

  "time"

func main() {

  client := &http.Client{}

  dataStr := {"keyword":"","provinceNames":[],"natureTypes":[],"eduLevel":"","categories":[],"features":[],"pageIndex":2,"pageSize":20,"sort":11}

  var data = strings.NewReader(dataStr)

  req, err := http.NewRequest("POST", "https://xxxxxx/xxxxx.query", data)

  if err != nil {

    log.Fatal(err)

  sign := fmt.Sprintf("%x", md5.Sum([]byte(strings.ToLower(dataStr)+"&9sasji5owng41irkisvtjhlxhmrysrp1")))

  fmt.Println(sign)

  req.Header.Set("Accept", "*/*")

  req.Header.Set("Accept-Language", "zh-CN,zh;q=0.9")

  req.Header.Set("Connection", "keep-alive")

  req.Header.Set("Content-Type", "application/json")

  req.Header.Set("Origin", "https://xxxxx.cn")

  req.Header.Set("Referer", "https://xxxxxx.cn/")

  req.Header.Set("Sec-Fetch-Dest", "empty")

  req.Header.Set("Sec-Fetch-Mode", "cors")

  req.Header.Set("Sec-Fetch-Site", "same-site")

  req.Header.Set("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36")

  req.Header.Set("sec-ch-ua", "Google Chrome";v="107", "Chromium";v="107", "Not=A?Brand";v="24")

  req.Header.Set("sec-ch-ua-mobile", "?0")

  req.Header.Set("sec-ch-ua-platform", "Windows")

  req.Header.Set("u-sign", sign)

  req.Header.Set("u-token", "")

  resp, err := client.Do(req)

  if err != nil {

    log.Fatal(err)

  defer resp.Body.Close()

  bodyText, err := ioutil.ReadAll(resp.Body)

  if err != nil {

    log.Fatal(err)

  fmt.Printf("%s\n", bodyText)

  fmt.Println(string(time.Now().Weekday()))

5、执行编辑好的代码，GoLand打印如下：

总结：到此我们已经能够解决Robbers粉丝遇到的问题了，这也让我意识到随着反爬策略的升级，服务端可能会对爬虫最常用的第三方包进行请求指纹检测。同时也说明了，爬虫除了Python，用Go其实也是一个不错的选择。

六、学习展望

笔者对GoLang、Python代码分别设置代理后，用charles抓包分析如下：

GoLang设置代理发包

Python设置代理发包

我们对GoLang、Python两次发包后的请求参数对比分析，截图如下所示：

*GoLang版本

*Python版本

总结：本来想使用charles拦截请求包查看数据包有哪些区别，但是感觉使用charles查看不够直观，charles应用中我们也得到了一些有用信息(标红部分)，提取服务器的ip+port使用 Wireshark打开查看，看看有没有更直观的信息吧。

使用Wireshark抓包，再次使用go、Python去发包，发包后根据charles获取的ip信息筛选tls指纹相关数据包，截图如下所示：

紧接着我们点击如下按钮进行参数定位：

将鼠标拉到最后，可以看到tls也就是JA3指纹如下所示：

整理go、python发包后的指纹文本对比如下：

总结：从上图可以看出两个请求包的JA3指纹加密算法不一致；如果我们还要继续使用Python requests去实现代码，可以尝试使用魔改requests修改TLS握手特征的代码去实现，也可以去阅读下tls指纹相关的文档。简单的网站是可以通过使用魔改requests修改TLS捂手特征代码通过，难度较大的就不能通过了，还需要新的方案去替代哦。这里突出一点，学无止境啊^_^⛽️

本篇分享到这里就结束了，欢迎大家关注下一期，我们不见不散☀️☀️😊

关注我们获得更多精彩内容

gzh：逆向与爬虫的故事

专注于网络爬虫、JS逆向、APP逆向、安全攻防实战经验分享及总结！

30篇原创内容

我是 TheWeiJun，有着执着的追求，信奉终身成长，不定义自己，热爱技术但不拘泥于技术，爱好分享，喜欢读书和乐于结交朋友，欢迎加我微信与我交朋友。

分享日常学习中关于爬虫、逆向和分析的一些思路，文中若有错误的地方，欢迎大家多多交流指正☀️

Original: https://blog.csdn.net/weixin_43505430/article/details/127979215
Author: 逆向与爬虫的故事
Title: 某某网站JS逆向及tls指纹绕过分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/789520/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

编程初学者应该先学C++、Java还是Python？

语言推荐：第一大类语言包括Java、C、Python和C++. 这类语言都是非常通用的语言,它们并不局限于特定的编程平台或用途。(无疑问，你应该熟悉这四种语言。) 第二大类语言包…

Python 2023年8月1日
0045
【图像插值】基于稀疏拉普拉斯滤波器处理红绿蓝三种像素实现插值效果附matlab代码

Python 2023年5月24日
0090
真正“搞”懂HTTP协议06之body的玩法（理论篇）

本来啊，本来，本来我在准备完善这个鸽了四年的系列的时候，是打算按照时间的顺序来完成的，好吧。我承认那个时候考虑的稍稍稍稍稍微有些不足，就是我忽略了HTTP协议的”模块性…

Python 2023年10月13日
0045
Web3到底是什么？和区块链有啥关系？

今年4、5月的时候， web3在微信指数中的趋势数据，一度超过了区块链。从2021年12月份开始，web3这个词突然出圈，进入传统互联网，然后开始蔓延火爆。从最近互联网圈的融资情…

Python 2023年11月8日
0039
Python中的异常处理

异常处理 Python中常见的异常在Python当中，若一个程序在运行的时候出错，Python解释器会自动的在出错的地方生成一个异常对象，而后Python解释器…

Python 2023年5月25日
0063
基于遗传算法求解TSP问题（旅游路径规划，Python实现，超详细，可视化，结果分析）

ps：作者是很用心写的，如果觉得不错，请给作者一点鼓励噢！（点赞收藏评论噢）基于遗传算法求解TSP问题摘要巡回旅行商问题（TSP）是组合优化中的经典问题。常见的TSP问题求解…

Python 2023年9月26日
0068
电影《海贼王：红发歌姬》观后感

上周，北京已经开始陆续解封了，电影院也可以进入了，只要持有48小时核算就行，于是去看了这部电影《海贼王：红发歌姬》，去看之前，看了预告片，讲述路飞小时候的玩伴乌塔，长大后开办世界级…

Python 2023年9月29日
0036
Bert不完全手册6. Bert在中文领域的尝试 Bert-WWM & MacBert & ChineseBert

这一章我们来聊聊在中文领域都有哪些预训练模型的改良方案。Bert-WWM，MacBert，ChineseBert主要从3个方向在预训练中补充中文文本的信息：词粒度信息，中文笔画信息…

Python 2023年10月25日
0055
Python爬虫——csv数据存取/数据处理

1. Python内置csv模块常用模式含义 rb二进制读rb+二进制读写 w+读写wb二进制写wb+二进制读写 a+读写ab二进制读ab+二进制读写注意：1. 使…

Python 2023年8月19日
0038
EntityFrameworkCore 模型自动更新（上）

嗯，距离上一次写博文已经过去近整整十个月，还是有一些思考，但还是变得懒惰了，心思也不再那么专注，有点耗费时间，学习也有点停滞不前，那就顺其自然，随心所欲吧，等哪天心血来潮，想写了就…

Python 2023年10月22日
0045
如何在产品设计中使用 ChatGPT：8 个实例

使用 ChatGPT 进行产品设计任务的总体印象我对使用 ChatGPT 的总体印象是积极的。该工具可能非常有用，尤其是在产品设计过程的早期阶段，此时团队需要快速行动并探索各种设…

Python 2023年11月4日
0035
【python】pandas库入门

1.Series 1.1 Series 类型的创建 import pandas as pd import numpy as np a=pd.Series(4,index=[&quo…

Python 2023年8月18日
0053
抖音小黄车挂淘宝店相关问题记录

不开淘宝店，但作为技术被客户问起来，总得知道个一二，今天研究了一下，大致情况如下： ; 抖音绑定淘宝推广id 大致流程就是抖音开通橱窗，橱窗和淘宝挂钩，淘宝商品引入橱窗。首先要满…

Python 2023年11月6日
0067
（一）scrapy安装和基本使用

1、Scrapy是什么Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。2、scrapy安装安装…

Python 2023年10月1日
0078
如何在CentOS7上搭建自己的GitLab仓库

序言各位好啊，我是会编程的蜗牛，作为java开发者，在团队开发中，一般都是需要使用git及git仓库来管理我们的代码的，这非常方便。我以前在小公司的时候，基本都是一个人开发一个项…

Python 2023年10月15日
0051
Transformer | DETR目标检测中的位置编码position_encoding代码详解

本文主要描述的是DETR论文中的position_encoding，详细DETR论文解析可参考论文篇 | 2020-Facebook-DETR ：利用Transformers端到…

Python 2023年9月28日
0030

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

某某网站JS逆向及tls指纹绕过分析

大家都在看