利用Abot 抓取博客园新闻数据

1. 引言

相比于Java而言,基于C#的开源爬虫就少了很多。入行这么多年也从未接触过爬虫。出于兴趣今天给大家介绍一个C# 的爬虫工具Abot. 需要使用可以通过Nuget获取。Abot本身就支持多线程的爬取,

内部使用CsQuery来解析爬取到的Html文档。熟悉jQuery的同学肯定能快速上手CsQuery, 它就是一个C#版本的jQuery。

这里以爬取博客园当天的新闻数据为例,看看如何使用Abot。

2. 博客园新闻页面

由于博客园新闻分页并不是采用Ajax,对于爬虫而言这非常友好

因此我们定义

3. 实现

Abot 其实已经对爬虫内部实现封装的非常精巧,使用者只需要设置一些Config 参数和爬取页面的一些事件即可。

具体调用非常简单:

最主要的是PageCrawlCompletedAsync,可以在该事件下获取需要的页面数据。

最终抓到的数据:

4. 总结

Abot 还是一个非常方便爬虫,如果运用到实际生产环境中,参数配置是首先需要解决的,比如 MaxPagesToCrawl 最大抓取的页面数,还可以设置爬虫内存限制等。

Original: https://www.cnblogs.com/VectorZhang/p/5475663.html
Author: 禅宗花园…迷失的佛
Title: 利用Abot 抓取博客园新闻数据

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/572572/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球