爬虫框架 Scrapy+MongoDB 爬取 Github 用户信息 | 每日工具推荐

2023年10月1日下午7:50 • Python • 阅读 43

今天给大家带来的是 Python 爬虫框架 Scrapy，因为之前自己爬取数据用过，感觉很不错，所以就分享给大家了。我们先来看下该工具在 Github 上的数据情况，如下图所示，可以看到有 1.8k 个关注，41.5k 个 star，9.3k 个 fork，可以说非常亮眼了。

爬虫框架 Scrapy+MongoDB 爬取 Github 用户信息 | 每日工具推荐

爬完数据，当然还要想着把数据存储在某个地方了，这个地方通常都是指数据库，耳熟能想的有 MySQL、Oracle 等等，不过我采用的是字典型数据库 MongoDB，至于为什么用它？一方面是因为爬取下来的数据，就是字典格式，所以顺手而为，另一方面，这个数据库还是蛮新奇的，对于新兴的事物，我想大家都会有好奇心吧？

同样的，这个数据库的数据也很不错，有 1.2k 个关注，20.4k 个 star，4.9k 个 fork。顺带再教大家一个技巧吧，判断一个项目，第一眼看 star 数，如果这个不是很高，那也不代表这个项目不好，第二眼看项目的 README 写的是否完善，你可以想像，如果一个项目连文档都不全，你还指望有多少人用。。。。。我估计项目作者就是为了自己能看懂而已。

下面我把爬取保存好的数据给大家看一眼，想要数据的来这里下载: https://codechina.csdn.net/csdn_codechina/software/uploads/f2a52c09086ab725ac7fa3f5470acf2b/dataframe.csv。

我通过使用 Scrapy 爬取了 Github 的 33w 条用户数据，不过此处还未进行重复数据去重。

下面我们进行去重操作，首先把 MongoDB 里存储的 Collection 导出成 csv 文件，然后用 Pandas 读取成 Dataframe，再调用去重 API，下面是去重后的结果，可以看到原始数据的 33w，变成了 19w，这里啰嗦一句，用的 IDE 是昨天介绍的 DataSpell，值得说的是，在数据交互上，它做的真的很不错。

这里我觉得有必要放一下用户去重代码:

import asyncio
from motor.motor_asyncio import AsyncIOMotorClient
import pandas as pd
import nest_asyncio

nest_asyncio.apply()

def client_database(address, port, database):
    client = AsyncIOMotorClient(address, port)
    db = client[database]
    return db

async def do_find(db, collection):
    cursor = db[collection].find()
    count = []
    async for document in cursor:
        print(list(document.keys()))
        count.append(document)
    dataframe = pd.DataFrame(count)
    dataframe.set_index('_id', inplace=True)
    dataframe.to_csv('dataframe.csv')  # &#x4FDD;&#x5B58;CSV
    return dataframe

if __name__ == '__main__':
    address = 'localhost'  # &#x5730;&#x5740;
    port = 27017  # &#x7AEF;&#x53E3;
    database = 'github'  # &#x6570;&#x636E;&#x5E93;&#x540D;&#x5B57;
    collection = 'user'  # &#x96C6;&#x5408;&#x540D;&#x5B57;
    db = client_database(address, port, database)
    loop = asyncio.get_event_loop()
    dataframe = loop.run_until_complete(do_find(db, collection))

最后我把爬虫代码放上来:

import scrapy
import sys
import time
import hashlib
import re
import urllib3
from pymongo import MongoClient

client = MongoClient('localhost', 27017)
db = client['github']
collection = db['user']

urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
_version = sys.version_info

is_python3 = (_version[0] == 3)

orderno = "ZF202198xxxxxxx"
secret = "4a1536a5560b44xxxxxxxxxe9928b47"

ip = "forward.xdaili.cn"
port = "80"

ip_port = ip + ":" + port

timestamp = str(int(time.time()))
string = ""
string = "orderno=" + orderno + "," + "secret=" + secret + "," + "timestamp=" + timestamp

if is_python3:
    string = string.encode()

md5_string = hashlib.md5(string).hexdigest()
sign = md5_string.upper()
print(sign)
auth = "sign=" + sign + "&" + "orderno=" + orderno + "&" + "timestamp=" + timestamp

print(auth)
proxy = {"http": "http://" + ip_port, "https": "http://" + ip_port}
headers = {"Proxy-Authorization": auth,
           "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36"}

class QuotesSpider(scrapy.Spider):
    name = "github"
    start_urls = [
        'https://github.com/rajeevsrao?tab=followers',
    ]

    def parse(self, response):
        if float(re.findall(r"\d+\.?\d*", response.css('span.text-bold.color-text-primary')[0].get())[0]) > 0:
            for follower in response.css('a.d-inline-block.no-underline.mb-1::attr(href)'):
                d = {
                    'username': follower.get()[1:],
                    'url': response.urljoin(follower.get()),
                }

                collection.insert(d)

                next_link = "https://github.com/" + follower.get()[1:] + "?tab=followers"
                yield scrapy.Request(next_link, callback=self.parse, meta=proxy, headers=headers)

这里的话，我还是稍微解说下吧，首先我们以 Github 上的 rajeevsrao 为起点，也就是下图显示的这个用户。

可以看到他有 49 个跟随者，那么我们接下来要遍历的是他的 49 个跟随者，以此类推，我们一共爬取到 19 w 个用户的 url。我们可以用这个 url 做什么事情呢？可以爬取这 19 w 个用户下的仓库 url，至于有多少个，我这边还没进行处理，后面可以分享。

这个中间还有个问题需要说明，就是 IP 代理，这个地方我用的是动态 IP 代理，有能力的话，也可以自己搭建 IP 代理池。最后说一句，其实以前我搭建过分布式的爬虫，当时采用的是 Scrapy + Redis + MongoDB，然后也搭建了一个 IP 代理池，代码就不放了，都是 18 年的事情了。

Original: https://blog.csdn.net/csdn_codechina/article/details/120226363
Author: GitCode
Title: 爬虫框架 Scrapy+MongoDB 爬取 Github 用户信息 | 每日工具推荐

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/788974/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

唐宇迪学习笔记3：Python数据可视化库——Matplotlib

目录一、Matplotlib概述最基本的图线条格式线条颜色颜色与格式结合二、子图与标注绘制多个线指定线条的宽度自定义参数子图给图上加上注释三、风格设置四…

Python 2023年9月1日
0059
【双十一特辑】爱心代码（程序员的浪漫）-李峋

前言最近《点燃我温暖你》中李峋的爱心代码超级火，看着特别心动，这不，光棍节快到了，给兄弟们教学一波爱心代码，赶在双十一前表白，让这个双十一不在是孤单一个人！目录前言 C语言简…

Python 2023年9月17日
0055
Oracle 删除大量表记录操作总结

By：授客 QQ：1033553122 删除表数据操作清空所有表记录 TRUNCATE TABLE your_table_name; 或者批量删除满足条件的表记录 BEGIN L…

Python 2023年6月6日
0073
【PyTorch深度学习项目实战100例】—— 使用文心大模型ERNIE-ViLG生成图片 | 第1例

大家好，我是阿光。本专栏整理了《PyTorch深度学习项目实战100例》，内包含了各种不同的深度学习项目，包含项目原理以及源码，每一个项目实例都附带有完整的代码+数据集。正在更…

Python 2023年9月28日
0044
Python 與數據資料分析2.2-Matplotlib.pyplot 之動畫

“Talk is cheap. Show me the code.”― Linus Torvalds 老子第41章上德若谷大白若辱大方無隅大器晚成大音希聲大…

Python 2023年9月2日
0087
图像去雾开源数据集资源汇总

D-HAZY 下载地址：http://m6z.cn/5IBatp D-HAZY，建立在Middelbury 和NYU深度数据集上，这些数据集提供各种场景的图像及其相应的深度图。包含…

Python 2023年9月28日
0057
【深度学习】YOLOv5 工程落地部署过程，MNN转化，使用细节

文章目录概述目标检测模型概述使用COCO2017体验YOLOv5 * 下载项目和权重下载处理COCO2017数据训练YOLOv5 导出模型到其他框架模型推理 * det…

Python 2023年9月28日
00162
python之numpy

numpy中用于生成ndarray的常用方法 1.1 导入numpy模块 import numpy as np 1.2 生成特定ndarray数组的方法 np.ones(shape…

Python 2023年8月30日
0053
Pandas loc与iloc

先来看一下示例： #!/usr/bin/python import pandas as pd 三个字&#x…

Python 2023年8月17日
0042
SpringBoot入门二：与Mybatis整合

1、引入依赖 springboot相关依赖（略）、mybatis-spring-boot-starter、mysql、druid、lombook 2、整合mybatis 1）建表 …

Python 2023年6月10日
00115
Python练习实例024

问题：有一分数序列：2/1, 3/2, 5/3, 8/5, 13/8, 21/13…求出这个数列的前20项之和。 #! /usr/bin/env python3 -*-…

Python 2023年6月11日
0071
python中reset函数_Python pandas.DataFrame.reset_index函数方法的使用

DataFrame.reset_index(level=None, drop=False, inplace=False, col_level=0, col_fill=”…

Python 2023年8月6日
0054
pytest运行报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xad in position 122: illegal multibyte

运行pytest报错： PS E:\code\python-pytest> pytest Traceback (most recent call last):File &#8…

Python 2023年9月9日
0051
Django之VScode工程搭建

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月6日
0047
MXNet的Faster R-CNN(基于区域提议网络的实时目标检测)《1》

原论文：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks开源代码：htt…

Python 2023年10月11日
0058
Python数据分析入门笔记9——数据预处理案例综合练习（男篮女篮运动员）

系列文章目录 Python数据分析入门笔记1——学习前的准备 Python数据分析入门笔记2——pandas数据读取 Python数据分析入门笔记3——数据预处理之缺失值 Pyth…

Python 2023年8月1日
0049

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

爬虫框架 Scrapy+MongoDB 爬取 Github 用户信息 | 每日工具推荐

大家都在看