爬虫数据是如何收集和整理的？

2023年6月10日上午11:18 • Python • 阅读 77

有用户一直好奇爬虫识别网站上的爬虫数据是如何整理的，今天就更大家来揭秘爬虫数据是如何收集整理的。

我们可以通过爬虫的 IP 地址来反向查询 rDNS，例如：我们通过反向 DNS 查找工具查找此 IP: 116.179.32.160 ,rDNS 为：baiduspider-116-179-32-160.crawl.baidu.com

从上面大致可以判断应该是百度搜索引擎蜘蛛。由于 Hostname 可以伪造，所以我们只有反向查找，仍然不准确。我们还需要正向查找，我们通过 ping 命令查找 baiduspider-116-179-32-160.crawl.baidu.com 能否被解析为：116.179.32.160，通过下图可以看出 baiduspider-116-179-32-160.crawl.baidu.com 被解析为 116.179.32.160 的 IP 地址，说明是百度搜索引擎爬虫确信无疑。

通过 ASN 相关信息查找

并不是所有爬虫都遵守上面的规定，大部分爬虫反向查找没有任何结果，我们需要查询 IP 地址的 ASN 信息来判断爬虫信息是不是正确。

例如：这个 IP 是 74.119.118.20，我们通过查询 IP 信息可以看到这个 IP 地址是美国加利福尼亚桑尼维尔的 IP 地址。

通过 ASN 信息我们可以看出来他是 Criteo Corp. 公司的 IP。

上面的截图是通过日志记录查看到 critieo crawler 的记录信息，黄色部分是它的 User-agent ，后面是它的 IP，这条记录也没有什么问题（这个 IP 的确是 CriteoBot 的 IP 地址）。

通过爬虫的官方文档公布的 IP 地址段

有一些爬虫会公布 IP 地址段，我们会将官方公布的爬虫 IP 地址段直接保存到数据库，这是一种既简单又快捷的方法。

通过公开日志

我们经常可以在互联网上查看到公开日志，例如下图就是我找到的公开日志记录：

我们可以对日志记录进行解析，根据 User-agent 来判断那些是爬虫，那些是访客，极大的丰富了我们的爬虫记录数据库。

总结

通过以上四个方式详细说明了爬虫识别网站是如何收集和整理爬虫数据的，同时如何确保爬虫数据的准确可靠，当然在实际操作过程中不仅仅是以上四种方法，不过都使用的比较少，所以在此处也不做介绍。

Original: https://www.cnblogs.com/pdflib/p/16525319.html
Author: 爬虫程序大魔王
Title: 爬虫数据是如何收集和整理的？

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/596230/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Unity3D学习笔记12——渲染纹理

🚀 优质资源分享 🚀 学习路线指引（点击解锁）知识定位人群定位🧡 Python实战微信订餐小程序 🧡 进阶级本课程是python flask+微信小程序的完美结合，从项目搭建到腾讯…

Python 2023年8月10日
0076
pandas 基本数据结构：Series 和 DataFrame

pandas主要有两个数据结构： Series 和 DataFrame 维数名称描述1Seriescentered 带标签的一维同构数组2DataFrame带标签的，大小可变的，二…

Python 2023年8月18日
0079
50 行 Python 代码就可以制作一个数据大屏？

今天给大家分享一个制作数据大屏的工具，非常的好用，100行左右的 Python代码就可以制作出来一个完整的数据大屏，并且代码的逻辑非常容易理解。 PywebIO介绍 Python当…

Python 2023年8月4日
0041
pandas ：案例详解 loc函数、iloc函数数据切片

pandas：数据切片 0 创建学习数据 1 直接切片 * 1.1 根据行切片 1.2 根据列切片 1.3 两种方法组合 2 loc切片 * 2.1 按照列提取数据 2.1 提取指…

Python 2023年8月20日
0076
python批量下载modis数据（可筛选日期、范围、数据类型）

找了一圈下modis数据的，有的不能空间筛选有的不能下初级产品（也可能没找到），不甚满意，自己搞了个 23年2月3日更新，原文章里获取所有a标签的地址这一步可以替换为更新章节里直…

Python 2023年11月6日
0062
Python简单数据清洗

我们从网上爬取好的数据，看起来会很乱，我们需要对数据进行再次加工，筛选出我们需要的数据，此时就需要对数据进行清洗。首先我们需要以下从几个方面判断我们需要清洗的数据： 1、数据的完…

Python 2023年8月6日
0059
解决jenkins构建失败，空间不足问题

随着构建次数过多，之后jenkins构建会出现空间不足的问题，解决方式如下：目录 1.配置时，去除旧的构建任务 2.使用脚本，删除历史构建 3.清理磁盘空间 4.重新加载服务器节…

Python 2023年9月17日
0064
对于搞钱我们是认真的

前言大家好，我是xiezhr。一提到搞钱，想必大家都非常非常感兴趣，立马就精神抖擞了。说实话，在这疫情爆发这几年里，赚点钱真不容易。不知道你是不是也跟我一样，一个人在夜深人静的时…

Python 2023年11月4日
0055
下载scikit_learn

下载scikit_learn 先下载numpy、scipy 不能直接用pip install 直接下载，可能会报错在官网:https://www.lfd.uci.edu/~goh…

Python 2023年8月24日
0048
python的 numpy库学习总结和介绍(超详细)模块

目录前言 numpy是什么？一、创建数据容器 1.np.array(),通过传递一个列表，元祖来创建 2.np.zeros(),np.ones(),np.empty(),np….

Python 2023年8月24日
0061
Vue复刻华为官网(三)

文章目录 1 底部列表 * 1.1 思路 1.2 代码 1.3 效果图 – 1.3.1 搜索框 1.3.2 商标 2 公司信息 * 2.1 思路 2.2 代码 2.3 …

Python 2023年10月27日
0054
利用Python爬虫买车比价，自动采集某车之家各车型裸车价

在一位朋友的要求下，帮助收集一家汽车屋的一些汽车品牌销售数据，包括购车时间、车型、经销商、裸车价格等信息。 [En] At the request of a friend, hel…

Python 2023年5月24日
0057
Anaconda在本地创建虚拟环境配置pytorch进行深度学习

本文是笔者前段时间学习经验的汇总，主要内容是深度学习初学者怎么在自己的电脑而非云服务器上配置环境并完成一些小的项目，这次选取的是就目前而言较为主流的pytorch框架，我会展示如何…

Python 2023年9月7日
0051
Python项目实践之二：外星人（2）

接着上篇文章继续写。。。我们创建了飞船和外星人群，但子弹击中外星人时，将穿过外星人，因为我们还没有检查碰撞。在游戏编程中，碰撞指的是游戏元素重叠在一起。要让子弹能够击落外星人，我…

Python 2023年9月24日
0070
Pytest学习

0 自动化测试框架自动化测试框架中的组成部分：单元测试框架 pom设计模式数据驱动关键字驱动全局配置文件的封装日志监控 selenium，requests二次封装断言…

Python 2023年9月10日
0035
SpringBoot(七) – Redis 缓存

1、五大基本数据类型和操作 1.1 字符串-string 命令说明 set key value 如果key还没有，那就可以添加，如果key已经存在了，那会覆盖原有key的值 ge…

Python 2023年10月18日
0042

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

爬虫数据是如何收集和整理的？

通过 ASN 相关信息查找

通过爬虫的官方文档公布的 IP 地址段

通过公开日志

总结

大家都在看