《精通Python爬虫框架Scrapy》附录A 必备软件的安装与故障排除

本书使用了庞大的虚拟服务器系统演示现实中多服务器部署环境下的Scrapy使用。我们使用了行业标准工具——Vagrant和Docker,来搭建该系统。由于本书严重依赖于网站内容和布局,如果我们使用不可控的网站,那么我们的例子将会在几个月的时间之后无法使用。Vagrant和Docker为我们提供了一个独立的环境,在这里我们的示例无论现在还是以后都能正常运行。作为附带的好处,我们不会访问任何远程服务器,因此就不会对任何网站管理者造成不便。即使我们破坏了某些东西,造成示例无法工作,也可以使用两个命令: vagrant destroyvagrant up --no-parallel,销毁并重建系统,继续运行。

在开始之前,我需要说明一下,该基础架构是专门为本书读者的需求定制的。尤其是有关Docker的部分,普遍共识是每个Docker容器应当是只运行单一进程的微服务。我们并没有这么做。我们的很多Docker容器都比较重,我们可以使用 vagrant ssh连接它们并执行各种操作。尤其是我们的开发机看起来一点也不像微服务。这是我们去往该隔离系统的用户友好的网关,我们将其视为功能齐全的Linux机器。如果我们不使用这种方式改变规则,就必须使用大量的Vagrant和Docker命令,更加深入地排查故障,在这种情况下本书将很快变为Vagrant/Docker书籍。我希望Docker爱好者能够原谅我们,并且每位读者能够享受到Vagrant和Docker带给我们的方便和益处。

Original: https://blog.csdn.net/rmyd01/article/details/118604605
Author: 人民邮电出版社有限公司
Title: 《精通Python爬虫框架Scrapy》附录A 必备软件的安装与故障排除

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/792984/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • 记录因Sharding Jdbc批量操作引发的一次fullGC

    周五晚上告警群突然收到了一条告警消息,点开一看,应用 fullGC 了。 于是赶紧联系运维下载堆内存快照,进行分析。 内存分析 使用 MemoryAnalyzer 打开堆文件 ma…

    Python 2023年10月15日
    082
  • scrapy—拉勾网Ajax爬虫

    期末大作业做一个全程数据展示,数据来源就是要用爬虫,想来想去还是用scrapy框架好一点。 上课的时候老师说了句,拉勾网有难度,哎!!这我就不服了,嘎嘎嘎嘎嘎,我就爬它。 首先: …

    Python 2023年10月1日
    055
  • 【Pygame小游戏】Chrome上的小恐龙竟可以用代码玩儿了?它看起来很好玩儿的样子~

    前言 🚀 作者 :”程序员梨子”🚀 文章简介 :本篇文章主要是写了使用 Pygame模块写的小恐龙游戏的小代码啦~🚀 文章源码免费获取 : 为了感谢每一个关…

    Python 2023年9月18日
    046
  • 【推荐】5个超级吃香的Python就业岗位汇总!

    推荐文章 很多小伙伴都发现了,用户自主「申请上首页」的按钮取消了,那博主们写的文章还有上首页曝光的机会吗?我们的回答是”当然有!!!”虽然我们取消了上首页申…

    Python 2023年5月24日
    060
  • scrapy进行分布式爬虫

    抵扣说明: 1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。 Original: https://blo…

    Python 2023年10月4日
    035
  • 小白之Python基础(六)

    函数模块: 1、调用函数和定义: 1)调用函数:通过封装实现代码的重复使用,可以利用函数对程序进行模块化设计; 2)调用内置函数: 常用内置函数:( 在IDLE中按F1,可查看内置…

    Python 2023年6月12日
    064
  • Python报错:ModuleNotFoundError: No module named ‘xxx’

    原文链接 Python运行时报错: ModuleNotFoundError: No module named ‘xxx’ 解决办法 在需要导入的包中新建 _…

    Python 2023年5月24日
    063
  • PictureBox保存图片照片到数据库

    Private Sub PAPHOTO_SAVE()TryIf TxtPictureURL.Text.ToString <> “” ThenDi…

    Python 2023年6月10日
    064
  • 【Linux】gcc/g++编译器、make/Makefile自动化构建工具

    作者:小卢专栏:《Linux》喜欢的话:世间因为少年的挺身而出,而更加瑰丽。 ——《人民日报》目录1.gcc/c++的概念:2.程序编译过程详解:2.1程序编译过程:2.2gcc指…

    Python 2023年11月5日
    031
  • 自动化测试-pytest

    “””author:佳期如梦function:pytestdate:2021-04-06“””第一套方案py…

    Python 2023年9月14日
    049
  • Python 避免字典和元组的多重嵌套

    例 1:记录全班学生的成绩。 分析:定义一个 SimpleGradebook类, 学生名是字典 self._grades的键,成绩是字典 self._grades的值。 class…

    Python 2023年6月9日
    060
  • 归一化处理

    1. 为什么要进行归一化处理? 例:假设放假预测,自变量为面积,房间数两个,因变量为房价。得到等式: 其中代表房间数,代表面积。 在实验中寻找最优解的过程也就是在使得损失函数值最小…

    Python 2023年8月1日
    051
  • Numpy || np.array()函数用法指南

    1、Numpy ndarray对象 numpy ndarray对象是一个n维数组对象,ndarray只能存储一系列相同元素。 [1,2,3,4] [[1,2,3,4]] [[1,2…

    Python 2023年8月22日
    096
  • 数据处理–python

    Pandas series DataFrame 2.1手动创建dataframe 2.2 read_csv方法 2.3 read_excel() 2.4 query() 2.5聚合…

    Python 2023年8月20日
    038
  • 挑灯夜战800个小时,终从外包成功上岸字节!入职那一天我眼眶湿润了

    啊哦~你想找的内容离你而去了哦 内容不存在,可能为如下原因导致: ① 内容还在审核中 ② 内容以前存在,但是由于不符合新 的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。 可…

    Python 2023年9月26日
    052
  • 项目总结

    累了,不想写了,最后做个项目总结 暑假本来想练练手写个小项目,结果没想到,一开始定位没做好,项目越写越大,牵扯到的技术越多。 导致从开始一边学习一边写代码,现在花费了快要两个月了,…

    Python 2023年6月12日
    059
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球