scrapy startproject &#x9879;&#x76EE;&#x540D;

scrapy genspider &#x722C;&#x866B;&#x540D; &#x57DF;&#x540D;

scrapy crawl &#x722C;&#x866B;&#x540D;
&#x590D;&#x5236;&#x4EE3;&#x7801;

示例演示：

scrapy startproject scrapy2209

cd scrapy2209

scrapy genspider baidu www.baidu.com

&#x590D;&#x5236;&#x4EE3;&#x7801;

创建后目录大致页如下

|-ProjectName #项目文件夹

|-ProjectName #项目目录

|-items.py #定义数据结构

|-middlewares.py #中间件

|-pipelines.py #数据处理

|-settings.py #全局配置

|-spiders

|- _init _.py #爬虫文件

|-baidu.py

|-scrapy.cfg #项目基本配置文件

import scrapy

class BaiduSpider(scrapy.Spider):
    name = 'baidu'
    allowed_domains = ['www.baidu.com']
    start_urls = ['http://www.baidu.com/']

    def parse(self, response):
        tile=response.xpath('//html/head/title/text()')
        print(tile)
&#x590D;&#x5236;&#x4EE3;&#x7801;

打开一个终端cmd，输入scrapy crawl baidu(爬虫名），就可以看到一大堆输出信息，而其中就包括我们要的内容

有时候会出现403错误：

[scrapy.spidermiddlewares.httperror] INFO: Ignoring response

那是因为——被屏蔽了，我们来伪装一下，在settings.py文件里加上USER_AGENT：

出来了！！

四、日志等级与日志保存

在setting.py里面可以设置日志的等级与日志存放的路径

相关变量

LOG_LEVEL= “”

LOG_FILE=”日志名.log”

日志等级分为

1.DEBUG 调试信息

2.INFO 一般信息

3.WARNING 警告

4.ERROR 普通错误

5.CRITICAL 严重错误

如果设置

LOG_LEVEL=”WARNING”，就只会WARNING等级之下的ERROR和CRITICAL

默认等级是1

五、导出为json或scv格式

执行爬虫文件时添加-o选项即可

scrapy crawl 项目名 -o *.csv

scrapy crawl 项目名 -o *.json

对于json文件，在setting.js文件里添加，设置编码格式，否则会乱码：

FEED_EXPORT_ENCODING=’utf-8′

示例：

from scrapy import cmdline

cmdline.execute('scrapy crawl baidu -o baidu.csv'.split())
&#x590D;&#x5236;&#x4EE3;&#x7801;

六、参考文献

python scrapy 报错 DEBUG: Ignoring response 403 – 时光不改 – 博客园 (cnblogs.com) Scrapy爬虫框架，入门案例（非常详细）_JJH的创世纪-DevPress官方社区 (csdn.net)

Original: https://blog.csdn.net/m0_57376367/article/details/127003687
Author: SoRA数据家
Title: Scrapy基础入门学习

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/792175/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Django启航（三）Django模型

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年8月6日
0040
记一次 Windows 下 Python 3 的控制台虚拟终端序列（控制台颜色输出， colorama 库）的踩坑经历

修改 2022.7.31 感谢 @DavyZhou 的评论，对文章进行了一次大修改。 2022.8.2 我又踩到了坑上。我会加进去的。 [En] I stepped on the …

Python 2023年5月23日
0063
1.11 命名切片

你的程序有很多硬编码的片段下标，你不能直接看到，然后你想要清理代码。 [En] Your program has a lot of hard-coded slice subscri…

Python 2023年5月24日
0064
TaxiBGC ——分类学指导下的生物合成基因簇鉴定流程

谷禾健康当前合成基因簇预测限制较大微生物基因组中的生物合成基因簇 (BGC) 编码具有生物活性的次级代谢物 (SM)，它可以在微生物-微生物和宿主-微生物相互作用中发挥…

Python 2023年9月17日
0042
stm32h750移植lvgl

README.md里其实就有移植步骤，我这里走个流程。为了方便直接把lvgl-release-v6文件夹复制到你自己的工程目录里，改名为lvgl（一定要改，不然后续头文件会定位…

Python 2023年10月17日
0082
《ASP.NET Core技术内幕与项目实战》精简集-基础组件1.3：配置

本节内容，涉及3.2（P60-P69），7.2（P188-P193），NuGet包 Microsoft.Extensions.Configuration Microsoft.Ext…

Python 2023年10月17日
0055
Pygame入门 2022 （1）

视频链接：www.youtube.com/watch?v=AY9MnQ4x3zk B站搬运地址：www.bilibili.com/video/BV1Vh411q7z1 代码及素材：…

Python 2023年5月24日
0068
昨晚停网后，我写了一段Python代码攻破了隔壁老王家的wifi密码

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年10月10日
0061
python+requests+pytest 接口自动化框架（五）

一、接口自动化统一请求封装 class RequestsUtil: # 通过session会话去关联。session默认的情况下回自动的关联cookie session = req…

Python 2023年9月10日
0042
p-范数（2-范数即欧几里得范数）

规范化矩阵 p-范数定义 vecnorm和norm * vecnorm – 应用废了废了，2016版本用不起vecnorm norm norm规范化矩阵 p-范数定义…

Python 2023年9月30日
0057
python获取坐标颜色_Python matplotlib：数据坐标中的位置颜色条

我想通过指定数据坐标中的位置将颜色条放在散点图中. 以下是指定图形坐标时的工作原理示例： import numpy as np import matplotlib.pyplot a…

Python 2023年9月5日
0040
Ubuntu的Python虚拟环境安装

1 安装Python sudo apt install python3 python3-pip -y 注意：python3 默认已经安装好了 2 安装虚拟环境 sudo apt i…

Python 2023年8月5日
0045
深度学习环境安装配置中各个软件的关系及作用（Anaconda，Pycharm，Python，库，PyTorch, conda）

对应视频教程：https://www.bilibili.com/video/BV1S5411X7FY/ 文章目录 * – 1. 说说 Python – 2….

Python 2023年9月7日
0036
KNN算法原理及python实现

文章目录 1 KNN算法原理 * 1.1 基本概念 1.2 KNN算法原理 1.3 实现步骤 1.3 KNN算法优缺点 2 python手工实现KNN算法 * 2.1 KNN算法预…

Python 2023年8月2日
0052
pyspark–写入数据

pyspark写入数据官网通用的写数据方式如下： DataFrameWriter.save(path=None, format=None, mode=None, partitio…

Python 2023年11月7日
0045
感知器算法解决xor函数

from itertools import count import numpy import random #用到的库。 step_function = lambda x: 1 …

Python 2023年8月27日
0041

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Scrapy基础入门学习

一、Scrapy是什么？

二、Scrapy五大基本构成

三、整体架构图

四、安装步骤

1.下载并安装

2.项目建立&爬虫命令

四、日志等级与日志保存

五、导出为json或scv格式

六、参考文献

大家都在看