9.爬虫:scrapy入门(上)

2023年10月5日下午12:22 • Python • 阅读 29

本章节以博客园-新闻的爬取,来讲解scrapy的入门使用,分成上中下三篇

一.scrapy安装

pip安装的时候是从国外的服务器下载,国内有一个非常常用的镜像,可以提高下载速度

pip install -i https://pypi.douban.com/simple scrapy

有些windows环境下安装scrapy会出错,安装出错则按下面的方式处理

https://www.lfd.uci.edu/~gohlke/pythonlibs/

这个网址可以直接下载会安装出错的包,安装scrapy需要下载下面4个,下载时需要选对应解释器的版本

lxml twisted pywin32 scrapy 进入到下载目录下,按照以下方式安装,如果lxml等包有其依赖的包,也会通过镜像自动下载安装

二.使用scrapy创建一个项目

命令行输入:

scrapy startproject ArticleSpider

大家先不要着急了解每个文件的作用,后期会介绍到,命令行输入:

scrapy genspider cnblogs news.cnblogs.com

scrapy genspider 爬虫名称 抓取的网址

爬虫隶属于项目，一个项目下可以有多个爬虫，这就类似于Django项目和其下app的关系。

三.调试代码

scrapy启动

通过命令行启动的爬虫程序,无法调试

scrapy crawl 爬虫名 带运行日志

scrapy crawl 爬虫名 --nolog 不带运行日志

crawl的英语翻译：爬行

在项目的目录下新建一个main.py(名字自取)内容如下，然后就可以鼠标右键debug这个爬虫

<span class="hljs-keyword">from</span>&#xA0;scrapy.cmdline&#xA0;<span class="hljs-keyword">import</span>&#xA0;execute<br><span class="hljs-keyword">import</span>&#xA0;sys<br><span class="hljs-keyword">import</span>&#xA0;os<br><br>sys.path.append(os.path.dirname(os.path.abspath(__file__)))<br>execute([<span class="hljs-string">"scrapy"</span>,<span class="hljs-string">"crawl"</span>,<span class="hljs-string">"cnblogs"</span>])

四.重点:response

当运行main.py,进入parse方法后, start_url里面的网址已经是被爬取下来的.

response对象可以使用xpath,css选择器来提取元素

title_list&#xA0;=&#xA0;response.css(<span class="hljs-string">'.link-title'</span>)<br>title_list&#xA0;=&#xA0;response.xpath(<span class="hljs-string">'//a[contains(@class,"link-title")]'</span>)

xpath/css可以看这篇

五. 重点:parse()方法

parse()方法的 使命是用来解析起始网址(start_url)中的url,并把这些url交给scrapy去下载;同时,解析下一页的url,交给scrapy去下载

这样,每一页的url,以及每一页中具体内容的url都被一层一层提取出来,交给scrapy下载了.

<span class="hljs-keyword">import</span>&#xA0;scrapy<br><span class="hljs-keyword">from</span>&#xA0;scrapy&#xA0;<span class="hljs-keyword">import</span>&#xA0;Request<br><span class="hljs-keyword">from</span>&#xA0;urllib&#xA0;<span class="hljs-keyword">import</span>&#xA0;parse<br><br><br><span class="hljs-class"><span class="hljs-keyword">class</span>&#xA0;<span class="hljs-title">CnblogsSpider</span><span class="hljs-params">(scrapy.Spider)</span>:</span><br>&#xA0;&#xA0;&#xA0;&#xA0;name&#xA0;=&#xA0;<span class="hljs-string">'cnblogs'</span><br>&#xA0;&#xA0;&#xA0;&#xA0;allowed_domains&#xA0;=&#xA0;[<span class="hljs-string">'news.cnblogs.com'</span>]<br>&#xA0;&#xA0;&#xA0;&#xA0;start_urls&#xA0;=&#xA0;[<span class="hljs-string">'http://news.cnblogs.com/'</span>]<br><br>&#xA0;&#xA0;&#xA0;&#xA0;<span class="hljs-function"><span class="hljs-keyword">def</span>&#xA0;<span class="hljs-title">parse</span><span class="hljs-params">(self,&#xA0;response)</span>:</span><br>&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;<span class="hljs-string">"""<br>&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;1.&#x83B7;&#x53D6;&#x65B0;&#x95FB;&#x5217;&#x8868;&#x9875;&#x4E2D;&#x7684;&#x65B0;&#x95FB;url&#x5E76;&#x4EA4;&#x7ED9;scrapy&#x8FDB;&#x884C;&#x4E0B;&#x8F7D;&#x540E;&#x8C03;&#x7528;&#x76F8;&#x5E94;&#x7684;&#x89E3;&#x6790;&#x65B9;&#x6CD5;<br>&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;2.&#x83B7;&#x53D6;&#x4E0B;&#x4E00;&#x9875;&#x7684;url&#x4EA4;&#x7ED9;scrapy&#x8FDB;&#x884C;&#x4E0B;&#x8F7D;,&#x7136;&#x540E;&#x4EA4;&#x7ED9;parse()&#x65B9;&#x6CD5;&#x8FDB;&#x884C;&#x63D0;&#x53D6;&#x65B0;&#x95FB;url&#x6765;&#x4E0B;&#x8F7D;<br>&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;"""</span><br>&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;post_nodes&#xA0;=&#xA0;response.css(<span class="hljs-string">"#news_list&#xA0;.news_block"</span>)<br>&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;<span class="hljs-keyword">for</span>&#xA0;post_node&#xA0;<span class="hljs-keyword">in</span>&#xA0;post_nodes:<br>&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;image_url&#xA0;=&#xA0;post_node.css(<span class="hljs-string">"div.entry_summary&#xA0;img::attr(src)"</span>).extract_first(<span class="hljs-string">""</span>)<br>&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;post_url&#xA0;=&#xA0;post_node.css(<span class="hljs-string">"div.content&#xA0;h2&#xA0;a::attr(href)"</span>).extract_first(<span class="hljs-string">""</span>)&#xA0;&#xA0;<br>&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;<span class="hljs-keyword">yield</span>&#xA0;Request(url=parse.urljoin(response.url,post_url),&#xA0;&#xA0;<br>&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;meta={<span class="hljs-string">"front_image_url"</span>:image_url},&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;<br>&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;callback=self.parse_detail)&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;<br><br>&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;<br>&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;next_url&#xA0;=&#xA0;response.xpath(<span class="hljs-string">'//div[@class="pager"]//a[contains(text(),"Next&#xA0;>")]/@href'</span>).extract_first(<span class="hljs-string">""</span>)<br>&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;<span class="hljs-keyword">yield</span>&#xA0;Request(url=parse.urljoin(response.url,next_url),callback=self.parse)<br><br><br><br>&#xA0;&#xA0;&#xA0;&#xA0;<span class="hljs-function"><span class="hljs-keyword">def</span>&#xA0;<span class="hljs-title">parse_detail</span><span class="hljs-params">(self,response)</span>:</span>&#xA0;&#xA0;<br>&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;<span class="hljs-keyword">pass</span>

下一节:介绍解析详情页

Original: https://blog.csdn.net/agdzxzfdyw/article/details/126785034
Author: 奇巧小软件
Title: 9.爬虫:scrapy入门(上)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/791779/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Django框架入门（二）

继续上篇的内容，接着通过ORM框架、设计模型来对模型这一知识点有个基本的掌握。 1.ORM框架简要的一个映射关系，如图所示： 2.设计模型案例在上篇的基础上修改数据库为mysq…

Python 2023年8月6日
0053
Python xx直聘 | 数据分析师岗位 | 分析可视化

关注微信公共号：小程在线关注CSDN博客：程志伟的博客 import numpy as npimport pandas as pdfrom pyecharts.charts im…

Python 2023年8月21日
0073
数据分析工具pandas总结

Numpy简介 Numpy：Numerical Python ，即数值Python包，是Python进行科学计算一个基础包。包括：一个具有矢量运算和复杂广播能力的快速且节省空间的…

Python 2023年8月27日
0055
Python logging模块实现同时向控制台和文件打印日志

Python logging模块实现同时向控制台和文件打印日志原创 CorwinPC2022-07-18 17:27:18博主文章分类：Python ©著作权文章标签 pyth…

Python 2023年5月25日
0078
非常详细的Pytest+Allure环境搭建过程–Windows版本

关于selenium搭建，可以参考前一篇文章：selenium环境搭建-Windows版本一、Pytest环境搭建 Pytest 是 python 的第三方单元测试框架，比自带 …

Python 2023年9月9日
0090
matplotlib

import numpy as np import matplotlib.pyplot as plt #准备数据 ypoints=np.array([5,10,15,20,25,3…

Python 2023年9月1日
0045
【cartographer_ros】五：发布和订阅陀螺仪Imu信息

上一节介绍了里程计Odometry传感数据的订阅和发布。本节会介绍陀螺仪Imu数据的发布和订阅。陀螺仪在cartographer中主要用于前端位置预估和后端优化。在终端查看消息…

Python 2023年10月27日
0038
Python实现12种概率分布（附代码）

Original: https://www.cnblogs.com/123456feng/p/16202910.htmlAuthor: 蚂蚁ailingTitle: Python实…

Python 2023年11月3日
0052
4大类11种常见的时间序列预测方法总结和代码示例

本篇文章将总结时间序列预测方法，并将所有方法分类介绍并提供相应的python代码示例，以下是本文将要介绍的方法列表： 1、使用平滑技术进行时间序列预测指数平滑 Holt-Wint…

Python 2023年7月31日
0080
从 Hadoop 到云原生，大数据平台如何做存算分离

Hadoop 的诞生改变了企业对数据的存储、处理和分析的过程，加速了大数据的发展，受到广泛的应用，给整个行业带来了变革意义的改变；随着云计算时代的到来，存算分离的架构受到青睐，企…

Python 2023年10月22日
0032
机器学习之逻辑回归Logistic Regression（python代码实现）

逻辑回归（Logistic Regression）逻辑回归是一个非常经典的算法，用于解决分类问题的机器学习方法，用于估计某种事物的可能性，其有着简单、可并行化、可解释强的特点。逻…

Python 2023年8月1日
0052
numpy中的converters和usecols用法

用Python打开Excel数据，读取时需要将”学号”和”ID”转换成字符，以便后续操作 df = pd.read_excel(pa…

Python 2023年8月25日
0073
手写数字识别-基于卷积神经网络

🍈 一、必备知识（1）手写数字机器识图的过程：机器识别图像并不是一下子将一个复杂的图片完整识别出来，而是将一个完整的图片分割成许多个小部分，把每个小部分里具有的特征提取出来（也…

Python 2023年8月2日
0051
论文阅读：《MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering》

标题：基于知识的视觉问答的多模态知识提取与积累来源：CVPR 2022 https://arxiv.org/abs/2203.09138代码：https://github.com…

Python 2023年10月26日
0052
Nuscenes 数据集浅析

Nuscenes 数据集浅析参考：Nuscenes官网链接注意：文中存在官网还未更新的内容，一般采用 红色部&a…

Python 2023年9月29日
0036
python金融分析小知识(14)——matplotlib多子图绘制(结合股票收盘价数据)

Hello 大家好，我是一名新来的金融领域打工人，日常分享一些python知识，都是自己在学习生活中遇到的一些问题，分享给大家，希望对大家有一定的帮助！今天给大家讲解一下我平时在…

Python 2023年9月5日
0043

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31