AotucCrawler 快速爬取图片

AotucCrawler 快速爬取图片

今天介绍一款自动化爬取图片项目。

GitHub: https://github.com/YoongiKim/AutoCrawler

Google, Naver multiprocess image web crawler (Selenium)

关键字

  • 爬虫网站:Google、Naver (美、韩两大搜索引擎)
  • 运行方式:Multiprocess(多进程)
  • 爬取格式:image (图片)
  • 基于自动化工具:Selenium (不解释)

如何使用

  1. Git克隆 AutoCrawler项目到本地
  2. 自行安装 Chrome 浏览器
  3. 安装依赖
> pip -r requirements.txt
  • certifi: 包含了很多可信任知名公司的证书/公钥。
  • chardet:提供自动检测字符编码的功能。
  • idna: 提供”对于RFC5891中定义的IDNA协议(Internationalised Domain Names in Applications)的支持”。
  • requests: 依赖于上面三个基础库,他主要用于根据图片链接下载图片。
  • selenium: 用于启动浏览器,爬取图片链接。
  • webdriver-manager: 用来管理selenium浏览器驱动的项目。

仔细分析别人项目,不管是源码还是依赖库都会有收获。 webdriver-manager 就是我发现的一个宝藏项目,它简化的浏览器驱动的管理。

  1. 打开 keywords.txt文件,编写爬取的关键字。
cat
dog
  1. 运行 main.py 文件
> python main.py

参数说明:

--skip true:如果下载的关键字已经存在,是否跳过关键字,重新下载时需要设置。

--threads 4: 下载使用线程数量

--google true: 从 google.com 下载。

--naver true: 从 naver.com 下载。

--full false: 下载全分辨率图像而不是缩略图 (慢)。

--face false: Face search mode。

--no_gui auto: 使用 GUI 模式. (headless模式) 全分辨率模式可以加速, 但是缩略图模式不稳定。 默认 auto模式,如果 full=false 默认使用使用GUI,如果 full=true默认Headless模式。(可用于docker linux系统)。

--limit 0: 设置最大图片下载范围。 (0: 无限制)

--proxy-list: 逗号分隔的代理列表,如: socks://127.0.0.1:1080, http://127.0.0.1:1081,每个线程从列表中随即选择一个。

例如:

> python main.py --threads 2 --google true  --naver false --full false --limit 50

AotucCrawler 快速爬取图片
  1. 爬取的图片保存于 downloads/ 目录。

AotucCrawler 快速爬取图片

小结

  1. 因为使用的是Google网站,没有梯子的同学有点郁闷。项目本身并不复杂,两个python文件加一起不到1000行代码,我们完全可以花点时间替换为国内可访问的搜索引擎。
  2. 下载图片只是为了欣赏猫猫狗狗吗?当然不是,我们可用下载的图片训练 AI。

Original: https://www.cnblogs.com/fnng/p/15605386.html
Author: 虫师
Title: AotucCrawler 快速爬取图片

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/548902/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • django生成迁移文件和执行迁移的命令

    生成迁移文件: python manage.py makemigrations #创建数据库迁移文件 执行迁移: python manage.py migrate # 根据数据库迁…

    技术杂谈 2023年6月21日
    074
  • 【新特性速递】卡片式表格,Yeah~~~

    FineUI 的下个版本(v8.0.0),我们会为表格增加卡片样式,相信这是一个很多网友期待已久的功能。 网友的反馈 很久很久之前,就有网友在最初的 BBS 论坛提到这个事情,由于…

    技术杂谈 2023年6月1日
    0118
  • AOP面向切面编程简单介绍与应用

    AOP面向切面编程 什么是AOP AOP (Aspect Oriented Programming)意为:面向切面编程,通过预编译方式和运行期动态代理实现程序功能的统一维护的一种技…

    技术杂谈 2023年7月10日
    076
  • 在工作中学习看问题的角度

    向架构师学习 修改 A 导致 B 出了问题。 我们: 这里是个坑,下次要小心点 也许我应该写文档记录下这件事 也许我应该告诉下其他同事 …… 架构师:从框架…

    技术杂谈 2023年7月11日
    072
  • 5分钟搞定MongoDB到MongoDB数据迁移和同步-CloudCanal实战

    简述MongoDB 是一种广泛使用的文档型数据库,对于 schema 弱要求、可扩展性强让其在很多场景普遍适用。 本文主要介绍如何使用 CloudCanal 快速构建一条稳定高效运…

    技术杂谈 2023年7月24日
    078
  • 特殊数表

    来自 command_block,为了适应 cnblogs 做了一些改动 . 以下是原文: 包括负数的二项式系数 (杨辉三角) ( \def\tinyS #1#2{\tiny\be…

    技术杂谈 2023年7月23日
    071
  • 利用select/poll监听多个设备详解

    如果一个应用程序去处理多个设备,例如应用程序读取网路数据,按键,串口,一般能想到的有三种方法: 方法1:串行+阻塞的方式读取:while(1) {read(标准输入);read(网…

    技术杂谈 2023年5月31日
    088
  • 【软考】信息系统开发方法

    1.结构化方法 结构是指系统内各个组成要素之间的相互联系、相互作用的框架。架构化方法也称为生命周期法,是一种传统的信息系统开发方法,由结构化分析(Structured Analys…

    技术杂谈 2023年5月31日
    078
  • quartz框架(六)-ThreadPool

    本篇博文,博主将介绍Quartz框架中ThreadPool线程池相关的内容。线程池顾名思义,就是一个可以帮助我们来进行线程资源管理的对象。在web开发中,常见的就有数据库连接池,h…

    技术杂谈 2023年7月24日
    080
  • SpringBoot学习笔记

    前置要求:spring、springMVC、maven spring5升级:响应式编程,基于Java8新特性,如接口默认实现,重新设计内部源码架构 SpringBoot的优点: 创…

    技术杂谈 2023年7月11日
    091
  • jest beforeEach 和beforeAll区别

    写测试的时候,我们经常需要进行测试之前做一些准备工作,和在进行测试后需要进行一些整理工作。Jest提供辅助函数来处理这个问题。 为多次测试重复设置如果你有一些要为多次测试重复设置的…

    技术杂谈 2023年5月30日
    098
  • 打卡汇报

    无意间浏览了liluvu的博客,大概表达了自己意志力不够坚强,想提高自己的身体素质和表达能力,现在坚持做(锻炼、背诵诗词、朗读(朗读唠叨训练)),看到这,觉得和自己有几分相似,正如…

    技术杂谈 2023年5月31日
    087
  • UiAutomator源代码分析之UiAutomatorBridge框架

    上一篇文章《UIAutomator源代码分析之启动和执行》我们描写叙述了uitautomator从命令行执行到载入測试用例执行測试的整个流程。过程中我们也描写叙述了UiAutoma…

    技术杂谈 2023年5月31日
    091
  • VIM快捷键全集

    VIM快捷键大法 vim是我最喜欢的编辑器,也是linux下第二强大的编辑器。 虽然emacs是公认的世界第一,我认为使用emacs并没有使用vi进行编辑来得高效。 如果是初学vi…

    技术杂谈 2023年7月24日
    072
  • 草图?不管黑猫白猫,能快速、有效把你的设计理念讲清楚才行

    我在日常工作中,经常要参加一些技术活动,或被拉去参加一些需求会或运营会,时间比较分散。 上周在参加一个代码评审时,发现程序上该复用的没有复用,却写了两份逻辑几乎相同的代码。另外,还…

    技术杂谈 2023年7月11日
    071
  • Visio对齐如何用例图等的属性

    博客园 :当前访问的博文已被密码保护 请输入阅读密码: Original: https://www.cnblogs.com/hxsyl/p/6575706.htmlAuthor: …

    技术杂谈 2023年5月31日
    0106
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球