python爬虫爬取微信公众号的阅读数、喜爱数、文章标题和链接等信息

2023年7月5日上午10:29 • 人工智能 • 阅读 111

爬虫的步骤：
（1）申请自己的公众号
（2）使用fiddler抓包工具
（3）pycharm
（一）申请公众号
官网：微信公众平台
填入相关信息创建微信公众号
进入公众号界面如下：

找到新的创作-图文信息

在弹出的界面中查找公众号文章-输入公众号名称-确定

点击确认之后，进入公众号，可以查看相应文章。

右键单击空白处，选择检查-网络，显示界面如下：

在请求标头中获取 cookie和 user-agent

同时还需要获取 Fakeid 和 token
fakeid：是公众号独一无二的一个id
token：是自己的公众号独有的id

以上已经获取到了电脑端需要的4个重要参数：
Cookies、user-Agent 、fakeid 、token
爬取点赞数和阅读数：
在之前查找公众号的文章时，可以在相应信息中查找到文章的相关信息：

观察这些信息，可以在信息中找到公众号的文章标题，文章对应的链接

将文章链接复制到浏览器中，可以看到对应的公众号文章：

得到文章的链接之后，需要从链接中找到pass_ticket 、 appmsg_tojen 、 cookies 、user-Agent 、key。
通过fiddler抓包，得到这些参数
打开fiddler，选择过滤器

设置以下参数，点击action，设定只抓取关于微信公众相关的包

之后进入自己的微信客户端-选择公众号-查看历史信息-点开公众号的文章。
这时可以看到fiddler中出现一系列的包，依次点击抓取的包，在inspectors中查看以下信息，获取 pc微信端cookie 和user-agent

切换点击界面，可以看到如下信息：

可以从上面的界面中找到需要保存的参数：

更换公众号爬虫只需要更换PC微信的Key、 pass_ticket、 appmsg_tojen以及公众号的Fakeid。对某一公众号爬虫时，KEY大约20-30分钟会失效。可以再次打开fiddler重新进行获取。

贴一下我的代码：


import requests
import time
import json
from openpyxl import Workbook
import random

url = "https://mp.weixin.qq.com/cgi-bin/appmsg"

Cookie = "自己的cookies"

headers = {
    "Cookie": Cookie,
    "User-Agent": "自己的user-agent",
}

"""
需要提交的data
以下个别字段是否一定需要还未验证。
注意修改yourtoken,number
number表示从第number页开始爬取，为5的倍数，从0开始。如0、5、10......

token可以使用Chrome自带的工具进行获取
fakeid是公众号独一无二的一个id，等同于后面的__biz
"""
token = "自己公众号的token"
fakeid = "Mzk0NzI5NDc5MA%3D%3D"
type = '9'

data1 = {
    "token": token,
    "lang": "zh_CN",
    "f": "json",
    "ajax": "1",
    "action": "list_ex",
    "begin": "0",
    "count": "4",
    "query": "",
    "fakeid": fakeid,
    "type": type,
}

def getMoreInfo(link):

    mid = link.split("&")[1].split("=")[1]
    idx = link.split("&")[2].split("=")[1]
    sn = link.split("&")[3].split("=")[1]
    _biz = link.split("&")[0].split("_biz=")[1]

    pass_ticket = "fiddler中获取"
    appmsg_token = "fiddler中获取"

    url = "http://mp.weixin.qq.com/mp/getappmsgext"

    phoneCookie = "在fiddler中获取"
    headers = {
        "Cookie": phoneCookie,
        "User-Agent": "fiddler中获取"
    }

    data = {
        "is_only_read": "1",
        "is_temp_url": "0",
        "appmsg_type": "9",
        'reward_uin_count': '0'
    }
"""
    添加请求参数
    __biz对应公众号的信息，唯一
    mid、sn、idx分别对应每篇文章的url的信息，需要从url中进行提取
    key、appmsg_token从fiddler上复制即可
    pass_ticket对应的文章的信息，也可以直接从fiddler复制
"""
    params = {
        "__biz": _biz,
        "mid": mid,
        "sn": sn,
        "idx": idx,
        "key": "fiddler中获取",
        "pass_ticket": pass_ticket,
        "appmsg_token": appmsg_token,
        "uin": "MTUyNzExNzYy",
        "wxtoken": "777",
    }

    requests.packages.urllib3.disable_warnings()
    content = requests.post(url, headers=headers, data=data, params=params).json()

    try:
        readNum = content["appmsgstat"]["read_num"]
        print("阅读数:"+str(readNum))
    except:
        readNum = 0
    try:
        likeNum = content["appmsgstat"]["like_num"]
        print("喜爱数:"+str(likeNum))
    except:
        likeNum = 0
    try:
        old_like_num = content["appmsgstat"]["old_like_num"]
        print("在读数:"+str(old_like_num))
    except:
        old_like_num = 0

    time.sleep(3)
    return readNum, likeNum,old_like_num

def getAllInfo(url):

    messageAllInfo = []

    for i in range(33):
        begin = i * 4
        data1["begin"] = begin
        requests.packages.urllib3.disable_warnings()
        content_json = requests.get(url, headers=headers, params=data1, verify=False).json()
        time.sleep(random.randint(1, 10))
        if "app_msg_list" in content_json:
            for item in content_json["app_msg_list"]:
                spider_url = item['link']
                readNum, likeNum,old_like_num = getMoreInfo(spider_url)
                info = {
                    "title": item['title'],
                    "url": item['link'],
                    "readNum": readNum,
                    "likeNum": likeNum,
                    "old_like_num":old_like_num
                }
                messageAllInfo.append(info)
    return messageAllInfo

def main():
    f = Workbook()
    sheet = f.active

    sheet.cell(row=1, column=1).value = 'title'
    sheet.cell(row=1, column=2).value = 'url'
    sheet.cell(row=1, column=3).value = 'readNum(阅读数)'
    sheet.cell(row=1, column=4).value = 'likeNum(喜爱数)'
    sheet.cell(row=1, column=5).value = 'old_like_num(在看数)'
    messageAllInfo = getAllInfo(url)
    print(messageAllInfo)
    print(len(messageAllInfo))

    for i in range(1, len(messageAllInfo)+1):
        sheet.cell(row=i + 1, column=1).value = messageAllInfo[i - 1]['title']
        sheet.cell(row=i + 1, column=2).value = messageAllInfo[i - 1]['url']
        sheet.cell(row=i + 1, column=3).value = messageAllInfo[i - 1]['readNum']
        sheet.cell(row=i + 1, column=4).value = messageAllInfo[i - 1]['likeNum']
        sheet.cell(row=i + 1, column=5).value = messageAllInfo[i - 1]['old_like_num']
    f.save(u'公众号.xls')
if __name__ == '__main__':
    main()

Original: https://blog.csdn.net/weixin_46569877/article/details/126155509
Author: 精分天秤座的mystery
Title: python爬虫爬取微信公众号的阅读数、喜爱数、文章标题和链接等信息

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/671594/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【树莓派入门】从零开始在树莓派上运行YOLOV5项目实战教程

项目进度《树莓派YOLOV5环境搭建点》击跳转到对应章节（上篇）《基于物联网的智能草莓种植系统》点击跳转到对应章节（下篇）简介：本项目是对上篇环境搭建的一个具体实践项目…

人工智能 2023年5月26日
0076
推荐算法介绍

简单对推荐算法进行总结，后期通过学习会进行扩充基于内容的推荐基于协同过滤的推荐（CF）混合的推荐将知识图谱引入推荐系统主要有三个作用缓解冷启动缓解数据稀疏可解释性基…

人工智能 2023年6月5日
00119
K210 Mx-yolov3模型训练和物体识别

一、简介（1）硬件准备: K210开发板：拥有1TOPS算力，可以运行神经网络模型，同时其提供在线模型训练平台（maixhub），支持物体分类和物体识别。（2）软件环境 Mx-…

人工智能 2023年6月15日
0069
Matlab 主成分分析与K均值聚类分析实验报告

Matlab 主成分分析与K均值聚类分析实验报告提示：数据资源在本CSDN号的上传资料中直接领取 1 引言数据：gyzb.mat（按顺序对应每一列）为：31个省市区的国有控股企…

人工智能 2023年7月15日
0077
pandas 如何把时间转成index_Pandas 时间类型转换

Pandas 中文教程修订中，欢迎加微信 sinbam 提供建议、纠错、催更。查看更新日志由于时间格式样式比较多，很多情况下 Padnas 并不能自动识别为时间类型，所以我们在处…

人工智能 2023年7月8日
0068
【计算机视觉】简述对KPConv的理解

之前有篇博客介绍了自己对PointConv的理解，那篇文章虽然在某种程度上实现了高效卷积，并且利用了一种注意力的方法（密度加权），但是其分割的效果并不是特别的理想，miou并不是特…

人工智能 2023年5月26日
0057
【机器学习】day2：回归（李宏毅）

回归 * – 1. 回归定义 – + 应用举例 – 2. 模型步骤 – + Step 1：模型假设 – 线性模型 + S…

人工智能 2023年6月17日
0081
语音识别中强制对齐_AI语音评测技术简述与应用层级

一、前言「AI语音评测」技术，指的是针对口语发音水平和差错，进行自动评价、检错并提供指导纠正的技术。经过几十年的发展，这项技术在中英发音标准、口语表达能力等测评任务上均已超过专…

人工智能 2023年5月25日
0073
Python｜excel表格数据一键转json格式小工具｜支持xlsx、xls格式转json｜【源码+解析】

背景最近在使用 JavaScript编写一些浏览器 RPA脚本，脚本使用过程中遇到一些问题，脚本使用的数据往往存放在 excel表，但运行时只能读取 json数据，导致频繁人工 …

人工智能 2023年7月30日
0048
Livox雷达驱动程序发布点云格式CustomMsg、PointCloud2、pcl::PointXYZI、pcl::PointXYZINormal解析

Livox ROS驱动程序专门&#x75…

人工智能 2023年7月27日
0088
如何将MNIST数据集转化为真实图片集

文章目录操作步骤代码效果 * 1.MNIST_data_folder 文件夹中自动下载保存MNIST数据集 2.提取出的数据自动生成0-9 10个文件夹，每个文件夹中存对应的…

人工智能 2023年5月26日
00123
ROS系列教程一：工作空间及功能包创建

前言分享一下ROS开发的基础教程，全部自己手敲，希望能帮到正在学习的你。ROS在WIKI上也有教程，个人觉得太过臃肿，可以简化点，毕竟大家都赶着投胎，哈哈哈哈哈。一、创建工作空…

人工智能 2023年6月10日
00115
【pandas数据分析】pandas功能和操作简单示例

文章目录导入包创建对象 * Series DataFrame 查看数据选择 * 获取数据按标签选择按位置选择布尔值索引设置值缺失值一些操作 * 数据统计应用（A…

人工智能 2023年7月7日
0081
python时间序列图_python中用matlibplot画时间序列图的案例

python中用matlibplot画时间序列图的案例发布时间：2020-11-10 09:26:59 来源：亿速云阅读：93 作者：小新这篇文章给大家分享的是有关pytho…

人工智能 2023年7月8日
0090
【机器学习】朴素贝叶斯实现垃圾邮件过滤

朴素贝叶斯法概述朴素贝叶斯法是基于贝叶斯定理与特征条件独立性假设的分类方法。对于给定的训练集，首先基于特征条件独立假设学习输入输出的联合概率分布（朴素贝叶斯法这种通过学习得到模型…

人工智能 2023年7月28日
0046
JOINT UNSUPERVISED AND SUPERVISED TRAINING FOR MULTILINGUAL ASR

JOINT UNSUPERVISED AND SUPERVISED TRAINING FOR MULTILINGUAL ASR 研究机构：google 文章来源：[2111.081…

人工智能 2023年5月25日
0085

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python爬虫爬取微信公众号的阅读数、喜爱数、文章标题和链接等信息

大家都在看