爬虫数据是如何收集和整理的？

2023年6月10日上午11:18 • Python • 阅读 71

有用户一直好奇爬虫识别网站上的爬虫数据是如何整理的，今天就更大家来揭秘爬虫数据是如何收集整理的。

我们可以通过爬虫的 IP 地址来反向查询 rDNS，例如：我们通过反向 DNS 查找工具查找此 IP: 116.179.32.160 ,rDNS 为：baiduspider-116-179-32-160.crawl.baidu.com

从上面大致可以判断应该是百度搜索引擎蜘蛛。由于 Hostname 可以伪造，所以我们只有反向查找，仍然不准确。我们还需要正向查找，我们通过 ping 命令查找 baiduspider-116-179-32-160.crawl.baidu.com 能否被解析为：116.179.32.160，通过下图可以看出 baiduspider-116-179-32-160.crawl.baidu.com 被解析为 116.179.32.160 的 IP 地址，说明是百度搜索引擎爬虫确信无疑。

通过 ASN 相关信息查找

并不是所有爬虫都遵守上面的规定，大部分爬虫反向查找没有任何结果，我们需要查询 IP 地址的 ASN 信息来判断爬虫信息是不是正确。

例如：这个 IP 是 74.119.118.20，我们通过查询 IP 信息可以看到这个 IP 地址是美国加利福尼亚桑尼维尔的 IP 地址。

通过 ASN 信息我们可以看出来他是 Criteo Corp. 公司的 IP。

上面的截图是通过日志记录查看到 critieo crawler 的记录信息，黄色部分是它的 User-agent ，后面是它的 IP，这条记录也没有什么问题（这个 IP 的确是 CriteoBot 的 IP 地址）。

通过爬虫的官方文档公布的 IP 地址段

有一些爬虫会公布 IP 地址段，我们会将官方公布的爬虫 IP 地址段直接保存到数据库，这是一种既简单又快捷的方法。

通过公开日志

我们经常可以在互联网上查看到公开日志，例如下图就是我找到的公开日志记录：

我们可以对日志记录进行解析，根据 User-agent 来判断那些是爬虫，那些是访客，极大的丰富了我们的爬虫记录数据库。

总结

通过以上四个方式详细说明了爬虫识别网站是如何收集和整理爬虫数据的，同时如何确保爬虫数据的准确可靠，当然在实际操作过程中不仅仅是以上四种方法，不过都使用的比较少，所以在此处也不做介绍。

Original: https://www.cnblogs.com/pdflib/p/16525319.html
Author: 爬虫程序大魔王
Title: 爬虫数据是如何收集和整理的？

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/596230/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【毕业季】这四年一路走来都很值得——老学长の忠告

活动地址：毕业季·进击的技术er 大家好，我是路飞！又是一年毕业季，大学四年还没来得及好好体验校园生活，就匆忙收尾了！这四年时光里，有过目标和追求，也有过遗憾和不舍，从四年前刚踏…

Python 2023年11月5日
0031
谣言检测（GACL）《Rumor Detection on Social Media with Graph Adversarial Contrastive Learning》

论文标题：Rumor Detection on Social Media with Graph AdversarialContrastive Learning论文作者：Tienin…

Python 2023年10月20日
0032
An unexpected error has occurred. Conda has prepared the above report.

An unexpected error has occurred. Conda has prepared the above report. 问题描述是不是忽然报这个错误一脸懵逼…

Python 2023年9月9日
0036
Python列表推导式（更有风格的Python代码写法）

所谓推导式也就是Python中一种更有风格的Python代码的写法。什么样是有风格的呢？假如有个需求，它可能需要三行五行甚至是更多行代码完成，但是如果是同样的需求用推导式来书写的话…

Python 2023年8月2日
0036
使用容联云Celery异步发送短信验证码

celery，分布式异步任务队列eventlet，并发网络库 gevent 协程库ronglian_sms_sdk 容联云封装的方法 pip install celery==4.4…

Python 2023年8月5日
0031
听说某宝抢购脚本大家都会了？那就在来个某东茅台抢购脚本吧。

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年8月1日
0053
高级爬虫面试题测试题 v1.3

Python Web高级爬虫工程师测试题(请本文件发送到: SpiderTestQuestion@163.com 并附带简历) 1、用yield写一个斐波那契数列的生成器函数。 …

Python 2023年5月25日
0060
【Python 04】数据清洗：fillna()处理数据行中的缺失/异常值

图片一图片二对比图片二与图片一目的是：使各个 INDEX 后面6列数据等于其不为空值（not nan）且不为”.”的值。那处理方式就大概就会有几种了，其…

Python 2023年8月6日
0055
pandas之表连接与高级查询

上期内容：python最最最重要的数据分析工具之pandas 其实上一篇我们已经学习了数据筛选与查询，这里会介绍不一样的高级查询方式；还有一个重要的内容就是表连接。学过数据库的都知…

Python 2023年8月8日
0040
一个实用的 vite + vue3 组件库脚手架工具，提升开发效率

无论是 vue2 全家桶还是 vue3 + vite + TypeScript，组件库的使用几乎大家都会，但自己开发一个独立组件库就不是每个人都掌握的，因为搭建组件库的基础开发环境…

Python 2023年10月16日
0036
Crontab Schedule on Mac/Linux for Scrapy

1. Linux Crontab Conmand Linux crontab is a command used to execute programs on a regular …

Python 2023年10月7日
0026
Keras深度学习实战（2）——使用Keras构建神经网络

Keras深度学习实战（2）——使用Keras构建神经网络 * – 0 前言 – 1. Keras 简介与安装 – 2. Keras 构建神经网…

Python 2023年8月2日
0044
pandas处理Excel基本方法

学习总结主要参考了视频内容 https://www.bilibili.com/video/BV1hk4y1C73S?p=2&vd_source=7771577bd8c0c6…

Python 2023年8月16日
0094
Steinberg Nuendo for mac(音频后期制作软件)

Original: https://www.cnblogs.com/aurora-123/p/16561628.htmlAuthor: 佛系女孩Title: Steinberg N…

Python 2023年10月28日
0016
两天时间，用Python重写了我的Markdown-Online系统，主要使用了Flask技术栈的基础知识，这不比游戏有意思？

Markdown-Online 文末附源码之前写的《在线Markdown编辑系统》本来只是自己瞎搞的，没想到用起来真香~~ 而且，还有很多童鞋对之前的叙利亚战损版系统非常感兴趣，…

Python 2023年8月2日
0065
TF-IDF算法(原理+python代码实现）

### 回答1： TF-IDF 算法_是一种常用的文本处理 _算法，可以用于计算文本中每个单词的重要程度。在 Python_中，可以使用scikit-learn库来 _实现 TF-…

Python 2023年11月5日
0041

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

爬虫数据是如何收集和整理的？

通过 ASN 相关信息查找

通过爬虫的官方文档公布的 IP 地址段

通过公开日志

总结

大家都在看