项目创建和运行-scrapy框架3-python

2023年10月3日下午8:01 • Python • 阅读 40

1、项目简介

目标：爬取迁木网世界大学排名及大学基本信息，图示

步骤：

获取排名当前页中所有大学的链接
跳转链接，获取表格中大学的基本信息。

; 2、scrapy创建项目

2.1、创建项目

创建项目命令：

scrapy startproject myproject [project_dir]

scrapy startproject qianmu1

myproject谁自定义项目名称，路径若不指定，默认为当前路径。

2.2、创建spider

通过前面知道，spider用于处理响应会的数据，命令如下：

scrapy gensider example example.com

example：为spider名称
example.com: 为要爬取的域名，限定爬取的范围。

创建我们的spider

cd qianmu1
scrapy genspider usinfo www.qianmu.org

2.3、编写逻辑代码

usinfo.py代码如下：

import scrapy

class UsinfoSpider(scrapy.Spider):
    name = 'usinfo'

    allowed_domains = ['www.qianmu.org']

    start_urls = ['http://www.qianmu.org/ranking/1528.htm']

    def parse(self, response):

        links = response.xpath('//div[@class="rankItem"]/table//tr[position()>1]/td[2]/a/@href').getall()

        for link in links:
            yield response.follow(link, self.parse_university)

    def parse_university(self, response):
        """解析大学链接获取详细信息"""

        data = {'name': response.xpath('//div[@id="wikiContent"]/h1/text()').get()}

        table = response.xpath('//div[@id="wikiContent"]/div[@class="infobox"]/table')
        if table:
            table = table[0]
            keys = table.xpath('.//td[1]/p/text()').getall()

            cols = table.xpath('.//td[2]')
            values = [''.join((col.xpath('.//text()').getall())).replace('\t', '') for col in cols]
            if len(keys) == len(values):
                data.update(zip(keys, values))
        yield data

2.4、生成虚拟环境

命令：

virtualenv env

2.3、运行

步骤：

进入虚拟环境

cd env/Scripts
activate

启动项目

scrapy craw usinfo

usinfo：生成spider时的名称

3、项目目录

简单介绍各个目录/文件：

qianmu1：项目根目录
-env：虚拟环境
-qianmu1：创建项目自动生成
–spiders：放置所有的spiders，spider可以创建多个
—usinfo.py：某个具体的spider
–items.py：结构化的数据
–middlewares.py：中间件
–pipelines.py：管道，把解析后的数据放到哪里，比如持久化到数据库或者文件
–settings.py：配置文件
-scrapy.cfg：scrapy配置文件

关于虚拟环境的相关知识，可自行查阅相关文档。

参考视频：https://www.bilibili.com/video/BV1R7411F7JV p557~p558

源代码仓库地址：https://gitee.com/gaogzhen/python-study
QQ群：433529853

Original: https://blog.csdn.net/gaogzhen/article/details/123095659
Author: gaog2zh
Title: 项目创建和运行-scrapy框架3-python

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/790497/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于Django的博客BBS项目

第一部分 bbs是一个前后端不分离的全栈项目,前端和后端都需要我们自己-步步的完成 ●表创建…

Python 2023年8月4日
0037
网页数据的提取（多层静态网页）（extract()与extract_first()两种方法的区别）爬虫框架之–scrapy篇

一: 框架创建三步曲（前题：提前安装了scrapy框架）：scrapy startproject scrapy_name -> (框架名称)cd scrapy_name -&…

Python 2023年10月2日
0046
利用Numpy计算行列式

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月24日
0046
从零开始学python的第19天

今天在写的时候，例如添加一个类别就要重新定义，存储，初始化，重新定义方法，然后根据需求细化程序。例如想让墙壁在被子弹击中几次后消失就需要定义墙壁生命值，然后当生命值为零，那么…

Python 2023年9月24日
0042
把时间沉淀到自己的热爱里 | Kagol 的 2022 年终总结

现代管理学之父德鲁克在其经典著作《卓有成效的管理者》中对时间有一段精妙的论述，其要点如下：时间是一项限制因素，任何生产程序的产出量，都会受到最稀有资源的制约，而时间就是其中 &a…

Python 2023年10月12日
0053
Python程序运行内存的查看

在运行代码时，我们通常希望知道代码在多少内存上运行。在许多情况下，我们想知道我们的一个循环是否太麻烦，或者在哪个步骤我们可以用更少的内存实现它。所以我们需要对程序作为一个整体有一个…

Python 2023年5月23日
0062
二道题：分组顺序向下填充和标注数据整理

分组顺序向下填充需求之前群友分享这样一道Pandas题：应用pandas模块，导入”python_test.xlsx”的excel中的表格数据（2个s…

Python 2023年8月7日
0048
python结合excel进行自动化测试_Python接口自动化测试框架: pytest+allure+jsonpath+requests+excel实现的接口自动化测试框架(学习成果)…

最近在自己学习接口自动化测试，这里也算是完成一个小的成果，欢迎大家交流指出不合适的地方，源码在文末整体代码结构优化未实现，导致最终测试时间变长，其他工具单接口测试只需要39ms,…

Python 2023年9月13日
0051
上班用Python采集热搜榜，堪称摸鱼神器

前言不知道大家在工作无聊的时候会不会有一种冲动：总想拿出手机，看看微博热搜在讨论什么有趣的话题，但直接打开微博不方便。 [En] I don’t know if pe…

Python 2023年5月24日
0073
【Linux】gcc/g++编译器、make/Makefile自动化构建工具

作者：小卢专栏：《Linux》喜欢的话：世间因为少年的挺身而出，而更加瑰丽。 ——《人民日报》目录1.gcc/c++的概念：2.程序编译过程详解：2.1程序编译过程：2.2gcc指…

Python 2023年11月5日
0031
MySQL主从同步

1.什么是MySQL主从同步？ “主”指的是MySQL主服务器（master），负责写请求。”从”指的是MySQL从服务器（slav…

Python 2023年10月13日
0042
Python爬虫+数据分析：爬一下懂车帝，分析一下现阶段哪款车值得我们去冲

一、写在前面兄弟们，你们的热情让我不敢再破了，走吧！ [En] Brothers, your enthusiasm makes me dare not break more, g…

Python 2023年5月24日
0090
拆分 Pandas DataFrame；把dataframe分成若干个小的dataframe，三种方法

1.使用行索引分割 DataFrame2.使用 groupby() 方法拆分 DataFrame3.使用 sample() 方法拆分 DataFrame 我们将使用下面的 appr…

Python 2023年8月22日
0045
GAN(生成对抗网络)Matlab代码详解

这篇博客主要是对GAN网络的代码进行一个详细的讲解：首先是预定义： clear; clc; %%%clc是清除当前command区域的命令,表示清空,看着舒服些。而clear用…

Python 2023年9月15日
0046
【正点原子FPGA连载】第三十三章OV5640摄像头HDMI显示实验摘自【正点原子】DFZU2EG/4EV MPSoC 之FPGA开发指南V1.0

1）实验平台：正点原子MPSoC开发板2）平台购买地址：https://detail.tmall.com/item.htm?id=6924508746703）全套实验源码+手册+视…

Python 2023年10月11日
0059
python下opencv安装

1、查看python版本cmd输入命令行,python。2、根据对应python版本，去https://www.lfd.uci.edu/~gohlke/pythonlibs/，下载…

Python 2023年8月2日
0080

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31