利用Abot 抓取博客园新闻数据

2023年6月5日下午9:27 • Java • 阅读 88

1. 引言

相比于Java而言，基于C#的开源爬虫就少了很多。入行这么多年也从未接触过爬虫。出于兴趣今天给大家介绍一个C# 的爬虫工具Abot. 需要使用可以通过Nuget获取。Abot本身就支持多线程的爬取，

内部使用CsQuery来解析爬取到的Html文档。熟悉jQuery的同学肯定能快速上手CsQuery, 它就是一个C#版本的jQuery。

这里以爬取博客园当天的新闻数据为例，看看如何使用Abot。

2. 博客园新闻页面

由于博客园新闻分页并不是采用Ajax，对于爬虫而言这非常友好

因此我们定义

3. 实现

Abot 其实已经对爬虫内部实现封装的非常精巧，使用者只需要设置一些Config 参数和爬取页面的一些事件即可。

具体调用非常简单：

最主要的是PageCrawlCompletedAsync，可以在该事件下获取需要的页面数据。

最终抓到的数据：

4. 总结

Abot 还是一个非常方便爬虫，如果运用到实际生产环境中，参数配置是首先需要解决的，比如 MaxPagesToCrawl 最大抓取的页面数，还可以设置爬虫内存限制等。

Original: https://www.cnblogs.com/VectorZhang/p/5475663.html
Author: 禅宗花园…迷失的佛
Title: 利用Abot 抓取博客园新闻数据

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/572572/

转载文章受原作者版权保护。转载请注明原作者出处！

Java

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

朱晔的互联网架构实践心得S2E5：浅谈四种API设计风格（RPC、REST、GraphQL、服务端驱动）

Web API设计其实是一个挺重要的设计话题，许多公司都会有公司层面的Web API设计规范，几乎所有的项目在详细设计阶段都会进行API设计，项目开发后都会有一份API文档供测试和…

Java 2023年5月30日
0074
Java基础— 小应用：比较两个数值大小

在日常生活中，经常会要求比较两个数的大小。于是就想写个博客稍微总结一下。 package com.basic.day02; public class CompareTwoValue…

Java 2023年6月7日
0066
Mysql异常——com.alibaba.druid.sql.parser.ParserException

今天写业务逻辑时候，写完发现控制台出现报错，但是程序可以正常运行。在控制台报错中发现是因为SQL模糊查询格式问题修改模糊查询写法后成功解决该报错 Original: http…

Java 2023年6月9日
0087
筛选两个集合不同数据

undefined 谁在最外面，最后返回的集合就是谁的数据，例子中返回的集合数据是newSupplierBiznoDetail的不同数据List collect = newSupp…

Java 2023年6月9日
0090
Quartz高可用定时任务快速上手

如果你想做定时任务，有 高可用方面的需求，或者仅仅想 入门&#…

Java 2023年6月6日
0073
SpringCloud Config 配置文件格式

格式必须是 application-profiles ，如 application-dev.yml如果写成 application.yml ，通过 /application.yml…

Java 2023年6月15日
0074
Springboot整合mybatisPlus+Swagger3.0

1. SpringBoot+Mybatis+MybatisPlus com.baomidou mybatis-plus-boot-starter 3.5.1 org.mybatis…

Java 2023年6月8日
0075
MySQL八：读懂MVCC多版本并发控制

转载~ mysql在并发的情况下，会引起脏读，幻读，不可重复读等一系列的问题，为解决这些问题，引入了mvcc的机制。本文就详细看看mvcc是怎么解决脏读，幻读等问题的。 1、数据…

Java 2023年6月8日
0076
Java集合归纳总结

我们讲集合，就是Collection顶级接口下包括的一些常用集合数据结构，大致分为三类：List(可重复元素集)、Map(KV映射集)、Set(不可重复集)、Queue(队列) 总…

Java 2023年6月5日
0067
Java中关键的知识点

JVM，运行是内存模型 Java 反射 Java 注解函数式接口 lambda表达式/流式计算动态代理欢迎大家阅读，有问题和不足的地方欢迎大家指出。作者：永和九年，转载请注明…

Java 2023年6月7日
0080
删除链表中倒数第N个节点_19

/* 1.借助栈实现解题思路： 1.&…

Java 2023年6月5日
0076
plugin.xml 解析说明

plugin.xml文件定义插件所需的结构和设置 plugin主体示例：参数：基础标签示例： Camera Cordova Camera Plugin Apache 2.0…

Java 2023年6月9日
0061
线上Java程序占用 CPU 过高，请说一下排查方法？

我是风筝，公众号「古时的风筝」，一个兼具深度与广度的程序员鼓励师，一个本打算写诗却写起了代码的田园码农！文章会收录在 JavaNewBee 中，更有 Java 后端知识图谱，从小白…

Java 2023年5月29日
0088
MongoDB常用命令（2）

1、创建数据库 use testdb 2、创建集合 db.t_member.insert({name:"zhaomin",age:23}) 3、查询 db.t_…

Java 2023年6月7日
0066
戏说领域驱动设计（十六）——实体概念

现在开始正式的进入战术部分，我看前面发的一些文章，只要有代码的阅读量就高，没代码的就差太多了，难道是因为平台只要看到代码才会加强推荐吗？真要是这样那我是真醉了，其实学习DDD光看代…

Java 2023年6月7日
0072
如何入行软件开发——常见问题及岗位分工

—— 你以为我每天上班就是为了几个臭钱么！？ —— 是的，你说对了…… IT是一个有些让业外同行羡慕嫉妒恨的行业，统计数据来说平均薪资应当是仅次于金融行业的…

Java 2023年6月15日
0071

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

利用Abot 抓取博客园新闻数据

1. 引言

2. 博客园新闻页面

3. 实现

4. 总结

大家都在看