2021/5/30爬虫第五次周复盘

2023年10月7日上午1:11 • Python • 阅读 32

一、并发执行和并行执行

二、线程的操作

threading.enumerate()

Thread.setDaemon(true)

三、多线程开发中的BUG

解决1、2：

time.sleep
t1.join
正确加锁

若线程开的太多：
会造成JSONDecodeError报错
原因是爬的速度太快，页面没有及时返回

四、queue队列

五、线程中主线程与子线程之间的关系

线程的生命周期：创建、执行、结束
守护线程的运用场景：如果希望子线程一直运行（类似于后台运行），可以把子线程的代码写在while True里面一直循环，但同时要设置为守护线程，不然主线程结束了，子线程还一直运行，程序结束不了。

1、最常见的情况，主线程中开启了一个子线程，开启之后，主线程与子线程互不影响各自的生命周期，即主线程结束，子线程还可以继续执行；子线程结束，主线程也能继续执行。
2、主线程开启了子线程，但是主线程结束，子线程也随之结束
这里使用了Thread.setDaemon(true)方法
3、主线程开启了一个子线程，主线程必须要等子线程运行完之后，才能结束主线程
这里使用了join()方法，让主线程等待子线程结束，然后主线程继续执行。这里join()方法必须要在子线程启动之后，再调用。

六、Scrapy框架（让我们的爬虫更快更强大）

回顾之前学的爬虫技术：（快）
requests(html)—>selenium(完全模拟人的行为)—>运用多线程—>Scrapy框架
解析技术：（强）
正则，xpath，bs4，selenium自带的一些解析技术
存储技术：（强）
csv,queue,Scrapy封装的一些存储技术

目标url:https://www.douban.com/
爬取的内容 标题

第一步 先创建scrapy项目 (dos命令行 pycharm终端)
首先要cd到目标文件夹下
scrapy startproject mySpider(scrapy项目的名称)

第二步 创建爬虫程序
baidu.com  douban.com
scrapy genspider demo "demo.cn" (demo是你爬虫的名字 demo.cn 爬取的范围/域名)

第三步 运行scrapy的命令
1 在终端 scrapy crawl 爬虫名字(demo)
2 可以运行py文件
我们先创建一个py文件（在项目下）
from scrapy import cmdline
cmdline.execute('scrapy crawl demo'.split())
cmdline.execute(['scrapy','crawl','demo'])

七、小补充

timeout是一个命令行实用程序，它运行指定的命令，如果在给定的时间段后仍在运行，则终止该命令。

Original: https://blog.csdn.net/httpsssss/article/details/117400363
Author: 笔记本IT
Title: 2021/5/30爬虫第五次周复盘

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/792991/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

04_Linux基础-.&..-cat-tac-重定向-EOF-Shell-more-ps-less-head-tail-sed-grep-which-whereis-PATH-bash-usr-locate-find

04_Linux基础-.&..-cat-tac->&>>-EOF-Shell-more-ps-less-head-tail-sed-grep-wh…

Python 2023年6月15日
0082
python中pygame模块编写音乐播放器

今天下午也是闲来没事听音乐，就突发奇想自己写一个音乐播放器，这里就讲一下写这个播放器时所用到的模块及编写过程。播放器用到了os模块，pygame模块还有sys模块。首先当然是先…

Python 2023年9月17日
0053
100天精通Python（数据分析篇）——第53天：初始pandas模块

### 回答1：这个问题的意思是询问一个学习 Python 数据分析_的100天计划，我的回答如下： _Python 数据分析_是非常重要的技能之一，学习它需要长时间的实践和学习…

Python 2023年8月6日
0032
Django 项目的创建及常见问题

文章目录一、启动前注意事项二、Django 项目创建与启动 * 2.1 命令行方式 – 创建Django项目 + 文件作用介绍启动Django项目创建应用 + …

Python 2023年8月4日
0071
C++学习笔记——类和对象

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年11月6日
0019
测试平台(二)后端开发(1)Flask的简要介绍及使用

前言本章主要讲述Flask的简要介绍及基础使用为什么要先讲一下 flask？，因为我之前也没有写过关于flask的文章，之后我们测试平台的搭建后台框架用的是flask，而不是D…

Python 2023年8月15日
0055
YOLO系列目标检测算法——YOLOR

YOLO系列目标检测算法目录– 文章链接 YOLO系列目标检测算法总结对比–文章链接 YOLOv1–文章链接 YOLOv2–文章链接…

Python 2023年10月7日
0036
Pytest框架 — 10、Pytest的标记(一)（跳过和预期失败）

1、前言引用自官方文档您可以标记无法在某些平台上运行或您预计会失败的测试功能，以便 pytest 可以相应地处理它们并提供测试会话的摘要，同时保持测试套件绿色。跳过（skip）…

Python 2023年11月1日
0032
图像特征提取（VGG和Resnet特征提取卷积过程详解）

图像特征提取（VGG和Resnet算法卷积过程详解）第一章图像特征提取认知 1.1常见算法原理和性能众所周知，计算机不认识图像,只认识数字。为了使计算机能够”理解…

Python 2023年10月9日
0079
python 依赖管理 pipenv

pipenv pipenv是一个python打包工具，它使用pip、virtualenv 和 requirements.txt 解决一些与典型工作流相关的常见问题。 pipenv …

Python 2023年8月15日
0041
python read_csv 分块多线程读_pandas.read_csv——分块读取大文件

read_csv中有个参数chunksize，通过指定一个chunksize分块大小来读取文件，返回的是一个可迭代的对象TextFileReader，IO Tools举例如下： I…

Python 2023年8月8日
0054
pandas 基本数据结构：Series 和 DataFrame

pandas主要有两个数据结构： Series 和 DataFrame 维数名称描述1Seriescentered 带标签的一维同构数组2DataFrame带标签的，大小可变的，二…

Python 2023年8月7日
0054
Linux的OpenLava配置

OpenLava OpenLava是基于LSF早期的开源版本发展而来，其免费、开源、兼容IBM LSF的工作负载调度器。当你需要执行某项业务时候（比如跑渲染之类的），当有服务…

Python 2023年10月23日
0056
pytest 之 allure报告

pytest 之 allure报告 * – + 安装allure + * 1、下载 allure.zip * 2、解压到本地目录后配置环境变量 + 与 pytest 集…

Python 2023年9月12日
0069
anaconda安装opencv（cv2),在jupyter notebook中使用

一、问题描述在需要导入cv2包时，会出现很多错误，我们可以通过导入opencv 即可解决问题。在查资料时，了解到了很多方法。下面介绍两种自己尝试过的方法。二、解决方法 1.在…

Python 2023年8月3日
0069
Python实现秒杀抢购某宝商品，不再害怕双十一抢不到了

前言马上就要双十一咯，给你们展示一下我在618干的大事，直接用Python抢购商品今天就来分享给你们吧这又快要到付尾款的日子咯，有些哥们需要送礼物给对象的，赶紧买这些预售的商…

Python 2023年8月1日
0055

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30