mysql建立用户知乎_scrapy框架爬取知乎110w用户信息，并存入mysql数据库和mongoDB数…

2023年10月6日上午3:49 • Python • 阅读 24

scrapy框架爬取知乎110w用户信息，并存入mysql数据库和mongoDB数

scrapy框架爬取知乎110w用户信息，并存入mysql数据库和mongoDB数据库

知乎作为中国高端知识社区，里面各种大牛，本着虚心学习的态度，最近也注册了知乎，听说在知乎如果不是年过百万，或者不是海归博士，那都不好意思说话。由于小哥我学历低，学校名气不大，，一直没敢说过话(233333)。冲着对知乎的好奇，就花点时间借了点知乎的数据进行了学习探讨。这是一个月前做的了，由于这一个月学业繁忙，各种课各种考。昨天才想起了那一堆数据，于是乎对数据清洗了一下，然后做了个前端的数据可视化图表。分享给大家！

先贴上源码地址：https://github.com/hiajianchan/zhihuSpider

前端数据可视化展示：http://blog.csdn.net/chj_orange/article/details/72524460

用到的工具：

python3.6

scrapy

mysql

MongoDB

有一点需要注意的就是scrapy的安装，建议大家使用Anaconda，而不是仅仅下载python，python仅仅是个编译器，Anaconda不仅仅嵌有payhon的编译器，而且还支持了常用的包，这些包通常是以后下载需要包的依赖包。只使用python，下载安装包有时候会出现各种各样的错误。Anaconda往往不会出现错误。

首先爬虫我用的是scrapy框架，当然如果使用Requests，BeautifulSoup等模块也是可以实现的，但是框架有着天然的优势，简洁好用，scrapy底层支持多线程，而且scrapy下的Scheduler(调度器)，Dupe(队列)，

Pipeline(管道)这些方法大大提高了爬取效率，Dupe待爬队列可以存储待爬url，然后Scheduler调度器根据待爬url的优先级进行调度，爬取的数据Pipeline管道进行存储。可以使效率得到很大的提高。

先来分析知乎的页面。

mysql建立用户知乎_scrapy框架爬取知乎110w用户信息，并存入mysql数据库和mongoDB数...

这是杜雨先生的首页，我们可以看到知乎的页面数据加载方式是采用的异步加载方式。所以我们如果爬取这个页面的话是爬取不到我们想要的数据的。我们接着往下看….

点击开发者工具里的XHR，然后刷新，我们看到Name下有个follower开头的url。上图我们可以看到url红色部分很长的一串，当你分析其他页面你就会发现，这一串是不变的。接着往下。。。。

我们看这个url的response，可以看到一串的json数据，当我们打开后会发现这些json数据就是粉丝的简单信息，这只是一页的列表，每页有20个，那该如何找到所有的页的json数据呢？往下走。。。

我们看到有个paging的键，其对用的值就是页面数据，is_end标示是否为最后一页，此处不是即为false，is_start标示是否为第一页此处为true，标示为第一页。next即为下一页的url，随后的代码我们可以使用递归代用的方法开获取所有的数据。。。

我们往下看，粉丝数据包含哪些信息。。。走着——>

我们所需要的就是蓝线标注的url_token，这是每个知乎用户的唯一标识，就是用户的编码ID。接着往下走。。。当我们将鼠标放在列表中的某各粉丝的时候——>

如上图，即是粉丝的url，蓝色圈住的就是其唯一标识ID。我们再来看其response——>

出来啦！！！，这就是用户的数据信息，json格式的数据，，包括了姓名，性别，居住地，工作，关注数，粉丝数，点赞数。。等等。。。这就是我们要的！过程很清晰有木有！！

接下来就是撸代码啦！走着——>

首先我们找个大V作为爬取起始点，这里用雷军雷总的吧，Are you OK? 标识为”mileijun”，开始构建url——>

start_user = ‘mileijun’

他关注的人

follows_url = ‘https://www.zhihu.com/api/v4/members/{user}/followees?include={include}&offset={offset}&limit={limit}’

follows_query = ‘data[*].answer_count,articles_count,gender,follower_count,is_followed,is_following,badge[?(type=best_answerer)].topics’

关注他的人

followers_url = ‘https://www.zhihu.com/api/v4/members/{user}/followers?include={include}&offset={offset}&limit={limit}’

followers_query = ‘data[*].answer_count,articles_count,gender,follower_count,is_followed,is_following,badge[?(type=best_answerer)].topics’

user_url = ‘https://www.zhihu.com/api/v4/members/{user}?include={include}’

user_query = ‘locations,employments,gender,educations,business,voteup_count,thanked_Count,follower_count,following_count,cover_url,following_topic_count,following_question_count,following_favlists_count,following_columns_count,answer_count,articles_count,pins_count,question_count,commercial_question_count,favorite_count,favorited_count,logs_count,marked_answers_count,marked_answers_text,message_thread_token,account_status,is_active,is_force_renamed,is_bind_sina,sina_weibo_url,sina_weibo_name,show_sina_weibo,is_blocking,is_blocked,is_following,is_followed,mutual_followees_count,vote_to_count,vote_from_count,thank_to_count,thank_from_count,thanked_count,description,hosted_live_count,participated_live_count,allow_message,industry_category,org_name,org_homepage,badge[?(type=best_answerer)].topics’*_query 就是url中相同的部分。

爬取过程代码如下：

def start_requests(self):

yield Request(self.user_url.format(user=self.start_user, include=self.user_query), callback=self.parse_user)

url = self.follows_url.format(user=self.start_user, include=self.follows_query, offset=0, limit=20)

yield Request(url, callback=self.parse_follows)

关注他的人

foll_url = self.followers_url.format(user=self.start_user, include=self.followers_query, offset=0, limit=20)

yield Request(foll_url, callback=self.parse_followers)

def parse_user(self, response):

返回的信息是json格式，所以要解析

results = json.loads(response.text)

item = UserItem()

for field in item.fields:

if field in results.keys():

item[field] = results.get(field)

yield item

yield Request(self.follows_url.format(user=results.get(‘url_token’), include=self.follows_query, offset=0, limit=20), self.parse_follows)

yield Request(self.followers_url.format(user=results.get(‘url_token’), include=self.followers_query, offset=0, limit=20), self.parse_followers)

def parse_follows(self, response):

results = json.loads(response.text)

获取到用户的url，然后进行请求

if ‘data’ in results.keys():

for result in results.get(‘data’):

url_token = result.get(‘url_token’)

if url_token != None:

yield Request(self.user_url.format(user=url_token, include=self.user_query), self.parse_user)

判断如果不是最后一页，将获取到下一页的url

if ‘paging’ in results.keys() and results.get(‘paging’).get(‘is_end’) == False:

next_page = results.get(‘paging’).get(‘next’)

yield Request(next_page, self.parse_follows)

parse_followers

def parse_followers(self, response):

results = json.loads(response.text)

获取到用户的url，然后进行请求

if ‘data’ in results.keys():

for result in results.get(‘data’):

url_token = result.get(‘url_token’)

if url_token != None:

yield Request(self.user_url.format(user=url_token, include=self.user_query), self.parse_user)

判断如果不是最后一页，将获取到下一页的url

if ‘paging’ in results.keys() and results.get(‘paging’).get(‘is_end’) == False:

next_page = results.get(‘paging’).get(‘next’)

yield Request(next_page, self.parse_followers)我们构建的item如下，此处就是获取的信息

from scrapy import Item, Field

class UserItem(Item):

define the fields for your item here like:

_id = Field()

name = Field()

gender = Field()

locations = Field()

business = Field()

educations = Field()

description = Field()

employments = Field()

following_count = Field()

follower_count = Field()

voteup_count = Field()

thanked_count = Field()

favorited_count = Field()

following_columns_count = Field()

following_favlists_count = Field()

following_question_count = Field()

following_topic_count = Field()

answer_count = Field()

question_count = Field()

articles_count = Field()

favorite_count = Field()

logs_count = Field()

url_token = Field()在pipelines函数下进行数据的写入数据库操作，在这里推荐MongoDB数据库，因为MongoDB存储的数据为Bson数据(也就是Json)

而我们获取的数据正好是Json数据，当然mysql数据也可以，关系型的一张表看起来比较直观。

class ZhihuuserPipeline(object):

conn = MongoClient(‘mongodb://localhost:27001/’)

db = conn.test

db.authenticate(“你的用户名”, “你的密码”)

def process_item(self, item, spider):

self.db.zhihu.insert(item)

此处展示的是插入MongoDB。

好啦！我科目为看一下我们的成果吧。

在看一下存在sql server中的数据(直观)112W条数据

接下来就是对数据进行分析啦！！

可视化请看：本博客java分类下的可视化分析

注意：数据仅供学习参考，勿使用其他用途！

scrapy框架爬取知乎110w用户信息，并存入mysql数据库和mongoDB数相关教程

Original: https://blog.csdn.net/weixin_42282699/article/details/114848922
Author: 小荧
Title: mysql建立用户知乎_scrapy框架爬取知乎110w用户信息，并存入mysql数据库和mongoDB数…

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/792294/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

np.argmax()函数

函数：numpy.argmax(array, axis)array：代表输入数组；axis：代表对array取行（axis=0）或列（axis=1）的最大值。 x = np.ara…

Python 2023年8月1日
0040
这些Java基础知识，诸佬们都还记得嘛(学习，复习，面试都可)

前言：大家好，我是小威，24届毕业生，最近面了比心，字节，cider等很多公司。本篇将记录几次面试中经常被问到的知识点以及对学习的知识点总结（专栏中有介绍其他面试题，就不重复记录了…

Python 2023年9月27日
0044
Python Flask：安装、使用

正如总所周知的一样，Flask是一个使用 Python 编写的轻量级 Web 应用框架。轻巧页就意味着他比较简洁，不过见到的MTV框架还是有的，（MVC）但是最重要的还是他的可扩展…

Python 2023年8月11日
0044
第三讲 Django数据模型和用户认证

一、选用数据库系统postgresql 安装与使用postgresql apt update apt install postgresql serveice postgresql …

Python 2023年8月6日
0072
python之面向对象的程序开发

oop面向对象的程序开发使用几个功能来表达这种事务称为类，而类更像是一幅图，表达了一个抽象的概念。 [En] Using several features to express …

Python 2023年5月24日
0092
Python基础之reduce函数

哈喽大家好，今天说一下reduce函数的使用方法，以及与for循环的对比。 reduce函数原本在python2中也是个内置函数，不过在python3中被移到functools模块…

Python 2023年5月23日
00120
小戴媒体播放器4 1.37

小戴媒体播放器4 用Python3编写，需要安装TK和Pygame,能显示目录树，并播放mp3文件，在Ubuntu 20.04(22.04)/Linux Mint 20(Pytho…

Python 2023年9月18日
0043
SQLAlchemy Datetime 和 TIMESTAMP

SQLAlchemy 是 python 中常用都ORM的组建，在Flask 中广泛使用。 default 和server_default : default = 默认值只在使用SQ…

Python 2023年8月13日
0061
猜数字小游戏

python猜数字游戏要求：输入指定的范围并猜测该范围内的数字。你可以多次猜测这个数字，直到你猜对为止。 [En] Enter the specified range and …

Python 2023年5月23日
00117
Python数据分析的一些基本知识（二）

提示：总结一些基本知识 pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。 1.Pandas 创建series 和DataFrame 代码如下（示例…

Python 2023年8月8日
0056
scrapy爬虫储存到mysql_详解Python之Scrapy爬虫教程NBA球员数据存放到Mysql数据库

获取要爬取的URL 爬虫前期工作用Pycharm打开项目开始写爬虫文件字段文件items Define here the models for your scraped ite…

Python 2023年10月5日
0057
paddleocr安装与图片识别快速开始

本文首发我的个人博客：paddleocr安装教程快速开始 1. 安装Python环境 wget https://mirrors.huaweicloud.com/python/3.8…

Python 2023年10月21日
0030
[附源码]Node.js计算机毕业设计高校社团管理系统Express

项目运行环境配置： Node.js 最新版+ V s code + Mysql5.7 + HBuilderX+Navicat11+Vue。项目技术： Express 框架+ N…

Python 2023年10月7日
0032
Python Pandas窗口函数

为了能更好地处理数值型数据，Pandas 提供了几种窗口函数，比如移动函数（rolling）、扩展函数（expanding）和指数加权函数（ewm）。窗口函数应用场景非常多。举一…

Python 2023年8月6日
0064
【python画可达鸭】六一儿童节来临，送小朋友大朋友一只可达鸭

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年9月19日
0056
【DL论文精读笔记】Object Detection in 20 Years: A Survey目标检测综述

目标检测20年综述（2019）📚 摘要 Abstract 该综述涵盖了400篇目标检测文章，时间跨度将近四分之一世纪。包括目标检测历史上的里程碑检测器、数据集、衡量指标、基本搭建模…

Python 2023年10月14日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

mysql建立用户知乎_scrapy框架爬取知乎110w用户信息，并存入mysql数据库和mongoDB数…

他关注的人

关注他的人

关注他的人

获取到用户的url，然后进行请求

判断如果不是最后一页，将获取到下一页的url

parse_followers

获取到用户的url，然后进行请求

判断如果不是最后一页，将获取到下一页的url

大家都在看