python桌面爬虫_Python3爬虫爬取英雄联盟高清桌面壁纸功能示例【基于Scrapy框架】…

2023年10月5日下午11:56 • Python • 阅读 52

本文实例讲述了Python3爬虫爬取英雄联盟高清桌面壁纸功能。分享给大家供大家参考，具体如下：

使用Scrapy爬虫抓取英雄联盟高清桌面壁纸

源码地址：https://github.com/snowyme/loldesk

开始项目前需要安装python3和Scrapy，不会的自行百度，这里就不具体介绍了

首先，创建项目

scrapy startproject loldesk

生成项目的目录结构

python桌面爬虫_Python3爬虫爬取英雄联盟高清桌面壁纸功能示例【基于Scrapy框架】...

首先需要定义抓取元素，在item.py中，我们这个项目用到了图片名和链接

import scrapy

class LoldeskItem(scrapy.Item):

name = scrapy.Field()

ImgUrl = scrapy.Field()

pass

接下来在爬虫目录创建爬虫文件，并编写主要代码，loldesk.py

import scrapy

from loldesk.items import LoldeskItem

class loldeskpiderSpider(scrapy.Spider):

name = “loldesk”

allowed_domains = [“www.win4000.com”]

抓取链接

start_urls = [

‘http://www.win4000.com/zt/lol.html’

]

def parse(self, response):

list = response.css(“.Left_bar ul li”)

for img in list:

imgurl = img.css(“a::attr(href)”).extract_first()

imgurl2 = str(imgurl)

next_url = response.css(“.next::attr(href)”).extract_first()

if next_url is not None:

yield response.follow(next_url, callback=self.parse)

yield scrapy.Request(imgurl2, callback=self.content)

def content(self, response):

item = LoldeskItem()

item[‘name’] = response.css(“.pic-large::attr(title)”).extract_first()

item[‘ImgUrl’] = response.css(“.pic-large::attr(src)”).extract()

yield item

判断页码

next_url = response.css(“.pic-next-img a::attr(href)”).extract_first()

allnum = response.css(“.ptitle em::text”).extract_first()

thisnum = next_url[-6:-5]

if int(allnum) > int(thisnum):

yield response.follow(next_url, callback=self.content)

图片的链接和名称已经获取到了，接下来需要使用图片通道下载图片并保存到本地，pipelines.py：

from scrapy.pipelines.images import ImagesPipeline

from scrapy.exceptions import DropItem

from scrapy.http import Request

import re

class MyImagesPipeline(ImagesPipeline):

def get_media_requests(self, item, info):

for image_url in item[‘ImgUrl’]:

yield Request(image_url,meta={‘item’:item[‘name’]})

def file_path(self, request, response=None, info=None):

name = request.meta[‘item’]

name = re.sub(r'[？\*|”<>:/()0123456789]’, ”, name)

image_guid = request.url.split(‘/’)[-1]

filename = u’full/{0}/{1}’.format(name, image_guid)

return filename

def item_completed(self, results, item, info):

image_path = [x[‘path’] for ok, x in results if ok]

if not image_path:

raise DropItem(‘Item contains no images’)

item[‘image_paths’] = image_path

return item

最后在settings.py中设置存储目录并开启通道：

设置图片存储路径

IMAGES_STORE = ‘F:/python/loldesk’

启动pipeline中间件

ITEM_PIPELINES = {

‘loldesk.pipelines.MyImagesPipeline’: 300,

}

在根目录下运行程序：

scrapy crawl loldesk

大功告成！！！一共抓取到128个文件夹

希望本文所述对大家Python程序设计有所帮助。

Original: https://blog.csdn.net/weixin_42306055/article/details/113671772
Author: 奔跑的设计师
Title: python桌面爬虫_Python3爬虫爬取英雄联盟高清桌面壁纸功能示例【基于Scrapy框架】…

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/792167/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Linux——系统管理篇

1、、Linux 中的进程和服务计算机中、一个正在执行的程序或命令，叫进程（process）。启动之后一直存在、常驻内存的进程，一般称为”服务”（Ser…

Python 2023年11月5日
0046
Vue+Django 旅游网项目首页前端实现

Vue+Django 旅游网项目首页前端实现结构公共的样式 src/assets/common.less 公共的js（工具函数、接口地址、配置文件）接口地址配置 src/u…

Python 2023年8月5日
0063
Java开发学习(二十九)—-Maven依赖传递、可选依赖、排除依赖解析

现在的项目一般是拆分成一个个独立的模块，当在其他项目中想要使用独立出来的这些模块，只需要在其pom.xml使用标签来进行jar包的引入即可。其实就是依赖，关于依赖管理里面都涉及哪…

Python 2023年10月23日
0059
Python抓取会员电影，会员自由不是梦

Original: https://www.cnblogs.com/123456feng/p/16173934.htmlAuthor: 蚂蚁ailingTitle: Python抓…

Python 2023年5月24日
0060
linux下的opencv-4.5.5 及 opencv_contrib 扩展模块安装

适用于ubuntu(20.04)下安装opencv-4.5.5 以及opencv_contrib 扩展模块一并安装，如果已经安装了opencv-4.5.5，需要安装扩展模块的话，…

Python 2023年10月27日
0045
Python数据分析之pandas

Python Data Analysis Library或 pandas是基于 NumPy的一种工具，该工具是为了解决数据分析任务而创建的 Pandas纳入了大量库和一些标准的数据…

Python 2023年8月8日
0049
【论文导读】- GraphFL: A Federated Learning Framework for Semi-Supervised Node Classiﬁcation on Graphs

文章目录论文信息摘要主要工作 Model-agnostic meta learning (MAML) GraphFL Framework * 1. GraphFL用于联合Gr…

Python 2023年11月5日
0048
pytest 学习记录

安装pytest-sugar插件可以看到进度条 pytest 运行模式， -v 用于显示每个测试函数的执行结果-q 只显示整体测试结果-s 用于显示测试函数中print()函数输出…

Python 2023年9月14日
0036
django-中间件

1.django中间件的5个方法 process_request(self,request)process_view(self, request, callback, callba…

Python 2023年6月11日
0061
除了Matplotlib，Python还有这些可视化工具（一）

; 一、Matplotlib（python原生绘图库）官方网站及文档：https://matplotlib.org/以下是基本示例，官方还有大量的其他示例代码。链接：https…

Python 2023年9月6日
00121
python断点调试不起作用flask_pycharm和flask autoreload和断点不起作用

6 个答案: 答案 0 :(得分：19) 我将从简短的回答开始：不，你想要的任何版本的PyCharm都不能用到4.0.1。问题在于，当您使用重新加载器时，Flask应用程序在子进…

Python 2023年8月14日
0040
RuntimeError: DataLoader worker (pid(s) 8548, 6916) exited unexpectedly

经过了两天的摸索，对于这个问题，终于圆满的解决了，对于一个深度学习的小白来说，面对这样的问题，实在太难受了。在这几天里，不断去找一些博客的经验，很多都说把num_workers设…

Python 2023年10月9日
0035
window系统中 mongodb创建用户名和密码

use admindb.createUser({user:”root”,pwd:”root”,roles:[{“role…

Python 2023年6月16日
0080
JavaScript 入门基础 – 变量 / 数据类型（二）

JavaScript 入门基础 – 变量 / 数据类型（二）文章目录 JavaScript 入门基础 – 变量 / 数据类型（二） 1.变量 * 1.1 …

Python 2023年11月7日
0033
Matplotlib库

Matplotlib库的入门 python优秀的数据可视化第三方库，Matplotlib库由各种可视化类构成，内部结构复杂。Matplotlib提供了一个子库—— matplo…

Python 2023年9月4日
0069
数据分析之实例二：物流行业数据分析

import os import pandas as pd import matplotlib.pyplot as plt import numpy as np plt.rcPar…

Python 2023年8月20日
0055

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python桌面爬虫_Python3爬虫爬取英雄联盟高清桌面壁纸功能示例【基于Scrapy框架】…

启动pipeline中间件

大家都在看