2021/5/30爬虫第五次周复盘

一、并发执行和并行执行

二、线程的操作

threading.enumerate()

Thread.setDaemon(true)

三、多线程开发中的BUG

解决1、2:

  • time.sleep
  • t1.join
  • 正确加锁

若线程开的太多:
会造成JSONDecodeError报错
原因是爬的速度太快,页面没有及时返回

四、queue队列

五、线程中主线程与子线程之间的关系

线程的生命周期:创建、执行、结束
守护线程的运用场景:如果希望子线程一直运行(类似于后台运行),可以把子线程的代码写在while True里面一直循环,但同时要设置为守护线程,不然主线程结束了,子线程还一直运行,程序结束不了。

1、最常见的情况,主线程中开启了一个子线程,开启之后,主线程与子线程互不影响各自的生命周期,即主线程结束,子线程还可以继续执行;子线程结束,主线程也能继续执行。
2、主线程开启了子线程,但是主线程结束,子线程也随之结束
这里使用了Thread.setDaemon(true)方法
3、主线程开启了一个子线程,主线程必须要等子线程运行完之后,才能结束主线程
这里使用了join()方法,让主线程等待子线程结束,然后主线程继续执行。这里join()方法必须要在子线程启动之后,再调用。

六、Scrapy框架(让我们的爬虫更快更强大)

回顾之前学的爬虫技术:(快)
requests(html)—>selenium(完全模拟人的行为)—>运用多线程—>Scrapy框架
解析技术:(强)
正则,xpath,bs4,selenium自带的一些解析技术
存储技术:(强)
csv,queue,Scrapy封装的一些存储技术

目标url:https://www.douban.com/
爬取的内容 标题
​
第一步 先创建scrapy项目 (dos命令行 pycharm终端)
首先要cd到目标文件夹下
scrapy startproject mySpider(scrapy项目的名称)
​
第二步 创建爬虫程序
baidu.com  douban.com
scrapy genspider demo "demo.cn" (demo是你爬虫的名字 demo.cn 爬取的范围/域名)
​
第三步 运行scrapy的命令
1 在终端 scrapy crawl 爬虫名字(demo)
2 可以运行py文件
我们先创建一个py文件(在项目下)
from scrapy import cmdline
cmdline.execute('scrapy crawl demo'.split())
cmdline.execute(['scrapy','crawl','demo'])

七、小补充

timeout是一个命令行实用程序,它运行指定的命令,如果在给定的时间段后仍在运行,则终止该命令。

Original: https://blog.csdn.net/httpsssss/article/details/117400363
Author: 笔记本IT
Title: 2021/5/30爬虫第五次周复盘

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/792991/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球