1. 引言
相比于Java而言,基于C#的开源爬虫就少了很多。入行这么多年也从未接触过爬虫。出于兴趣今天给大家介绍一个C# 的爬虫工具Abot. 需要使用可以通过Nuget获取。Abot本身就支持多线程的爬取,
内部使用CsQuery来解析爬取到的Html文档。熟悉jQuery的同学肯定能快速上手CsQuery, 它就是一个C#版本的jQuery。
这里以爬取博客园当天的新闻数据为例,看看如何使用Abot。
2. 博客园新闻页面
由于博客园新闻分页并不是采用Ajax,对于爬虫而言这非常友好
因此我们定义
3. 实现
Abot 其实已经对爬虫内部实现封装的非常精巧,使用者只需要设置一些Config 参数和爬取页面的一些事件即可。
具体调用非常简单:
最主要的是PageCrawlCompletedAsync,可以在该事件下获取需要的页面数据。
最终抓到的数据:
4. 总结
Abot 还是一个非常方便爬虫,如果运用到实际生产环境中,参数配置是首先需要解决的,比如 MaxPagesToCrawl 最大抓取的页面数,还可以设置爬虫内存限制等。
Original: https://www.cnblogs.com/VectorZhang/p/5475663.html
Author: 禅宗花园…迷失的佛
Title: 利用Abot 抓取博客园新闻数据
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/572572/
转载文章受原作者版权保护。转载请注明原作者出处!