1. Scrapy爬取网站实训图片的链接

2023年7月17日上午8:20 • 人工智能 • 阅读 81

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
1.任务描述
2.相关知识
*
生成Scrapy爬虫
制作Scrapy爬虫
运行Scrapy爬虫
3.编程要求
4.测试说明
5.笔者答案
*
通过截图
总结

前言

Scrapy爬虫之网站图片爬取

Scrapy爬取网站实训图片的链接

提示：以下是本篇文章正文内容，下面案例可供参考

1.任务描述

本关任务：使用Scrapy爬取给定网站的图片链接，并保存到本地。

2.相关知识

为了完成本关任务，你需要掌握：

Scrapy基本操作；
xpath匹配；
文件操作。

生成Scrapy爬虫

新建Scrapy项目——mySpider；在你想放项目文件的目录下，打开cmd命令窗口，输入命令scrapy startproject mySpider，就可以在该目录下成功生成项目文件夹。
生成主爬虫；进入/mySpider/mySpider/spiders目录下，在此处打开cmd命令窗口，输入命令 scrapy genspider eduSpider "127.0.0.1"，eduSpider是爬虫名字，后面接的是爬虫爬取的域的范围。

做完这一步Scrapy爬虫框架就搭建完成，接下来就可以开始代码编写定制你的专属爬虫了。

在目录下，快速打开cmd窗口的小技巧：

按Shift+鼠标右键，点击【在此处打开命令窗口】（或【在此处打开PowerShell窗口】）就可快速打开；
在文件夹最上面的路径中，选中该路径，直接输入cmd即可。

; 制作Scrapy爬虫

文件的读写；

以下代码为Python中最常见的IO操作——读写文件。用w（写）的方式打开文件images.txt（没有就会自动创建），将字符串abc写入了其中。

 with open('images.txt','w') as f:
      img = abc
      f.write("{}\n".format(img))

xpath匹配；

匹配前要对被爬取的网页进行分析，我使用的是360浏览器，在要爬取的图片上右击选择审查元素（其他浏览器都有类似的功能，具体操作可网上搜索），如下图，定位到图片在网页源码的位置。

images = response.xpath("//div[@class='box']/div/a/img/@src")

index.html

DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>花title>
head>
<body>
    <div class="box">

        <div>
            <a href="/static/app1/imgs/1.png" target="_blank">
                <img src="/static/app1/imgs/1.png" alt="未显示">
            a>
        div>

        <div>
            <a href="/static/app1/imgs/10.png" target="_blank">
                <img src="/static/app1/imgs/10.png" alt="未显示">
            a>
        div>

        <div>
            <a href="/static/app1/imgs/11.png" target="_blank">
                <img src="/static/app1/imgs/11.png" alt="未显示">
            a>
        div>

        <div>
            <a href="/static/app1/imgs/12.png" target="_blank">
                <img src="/static/app1/imgs/12.png" alt="未显示">
            a>
        div>

        <div>
            <a href="/static/app1/imgs/13.png" target="_blank">
                <img src="/static/app1/imgs/13.png" alt="未显示">
            a>
        div>

        <div>
            <a href="/static/app1/imgs/14.png" target="_blank">
                <img src="/static/app1/imgs/14.png" alt="未显示">
            a>
        div>

        <div>
            <a href="/static/app1/imgs/15.png" target="_blank">
                <img src="/static/app1/imgs/15.png" alt="未显示">
            a>
        div>

        <div>
            <a href="/static/app1/imgs/16.png" target="_blank">
                <img src="/static/app1/imgs/16.png" alt="未显示">
            a>
        div>

        <div>
            <a href="/static/app1/imgs/17.png" target="_blank">
                <img src="/static/app1/imgs/17.png" alt="未显示">
            a>
        div>

        <div>
            <a href="/static/app1/imgs/18.png" target="_blank">
                <img src="/static/app1/imgs/18.png" alt="未显示">
            a>
        div>

        <div>
            <a href="/static/app1/imgs/19.png" target="_blank">
                <img src="/static/app1/imgs/19.png" alt="未显示">
            a>
        div>

        <div>
            <a href="/static/app1/imgs/2.png" target="_blank">
                <img src="/static/app1/imgs/2.png" alt="未显示">
            a>
        div>

        <div>
            <a href="/static/app1/imgs/20.png" target="_blank">
                <img src="/static/app1/imgs/20.png" alt="未显示">
            a>
        div>

        <div>
            <a href="/static/app1/imgs/21.png" target="_blank">
                <img src="/static/app1/imgs/21.png" alt="未显示">
            a>
        div>

        <div>
            <a href="/static/app1/imgs/22.png" target="_blank">
                <img src="/static/app1/imgs/22.png" alt="未显示">
            a>
        div>

        <div>
            <a href="/static/app1/imgs/23.png" target="_blank">
                <img src="/static/app1/imgs/23.png" alt="未显示">
            a>
        div>

        <div>
            <a href="/static/app1/imgs/24.png" target="_blank">
                <img src="/static/app1/imgs/24.png" alt="未显示">
            a>
        div>

        <div>
            <a href="/static/app1/imgs/25.png" target="_blank">
                <img src="/static/app1/imgs/25.png" alt="未显示">
            a>
        div>

        <div>
            <a href="/static/app1/imgs/3.png" target="_blank">
                <img src="/static/app1/imgs/3.png" alt="未显示">
            a>
        div>

        <div>
            <a href="/static/app1/imgs/4.png" target="_blank">
                <img src="/static/app1/imgs/4.png" alt="未显示">
            a>
        div>

        <div>
            <a href="/static/app1/imgs/5.png" target="_blank">
                <img src="/static/app1/imgs/5.png" alt="未显示">
            a>
        div>

        <div>
            <a href="/static/app1/imgs/6.png" target="_blank">
                <img src="/static/app1/imgs/6.png" alt="未显示">
            a>
        div>

        <div>
            <a href="/static/app1/imgs/7.png" target="_blank">
                <img src="/static/app1/imgs/7.png" alt="未显示">
            a>
        div>

        <div>
            <a href="/static/app1/imgs/8.png" target="_blank">
                <img src="/static/app1/imgs/8.png" alt="未显示">
            a>
        div>

        <div>
            <a href="/static/app1/imgs/9.png" target="_blank">
                <img src="/static/app1/imgs/9.png" alt="未显示">
            a>
        div>

    div>
body>
html>

掌握了以上两点知识，我们就可以开始写我们的主爬虫文件eduSpider.py了，步骤如下：

以写的方式打开文件images.txt（如果目录下没有会自动生成该文件）；
xpath匹配图片链接；
将匹配到的链接写入images.txt中。

运行Scrapy爬虫

在主爬虫文件eduSpider.py中，定义了爬虫的名字，我们运行的时候就需要这个名字。

运行爬虫时，必须进入项目文件/mySpider中，这里有一个生成爬虫时自动生成的scrapy.cfg配置文件，只有在这个文件所在的位置才可以输入命令，启动爬虫。爬虫运行命令： scrapy crawl eduSpider(爬虫名)。

注：爬虫运行命令我已经写到脚本程序里了，你完成代码后只需要点击测评，平台会自动启动爬虫，以下关卡都相同。在这里介绍是为了你课下在Windows平台练习的需求。

; 3.编程要求

首先，通过审查元素，观察图片链接的代码规律；然后，点击代码文件旁边的三角符号，选择文件eduSpider.py，如下图所示。在 Begin-End 区间补充代码，使函数 parse 能够爬取图片链接，并保存到本地文件images.txt中。

4.测试说明

平台会对你编写的代码进行测试（本次测试无输入）：

预期输出：

爬取成功

5.笔者答案


import scrapy

class EduspiderSpider(scrapy.Spider):
   name = 'eduSpider'
   allowed_domains = ['127.0.0.1']
   start_urls = ['http://127.0.0.1:8080/imgs/']

   def parse(self, response):

        with open('images.txt','w') as f:
           img = response.xpath("//div[@class='box']/div/a/img/@src")
           f.write("{}\n".format(img))

通过截图

; 总结

Scrapy爬取网站实训图片的链接

Original: https://blog.csdn.net/qq_42856609/article/details/122746697
Author: Zhang Wenhao
Title: 1. Scrapy爬取网站实训图片的链接

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/698241/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

没有二十年功力，写不出 Thread.sleep(0) 这一行“看似无用”的代码

这篇文章要从一个奇怪的注释说起，就是下面这张图：我们可以不用管具体的代码逻辑，只是单单看这个 for 循环。在循环里面，专门有个变量 j，来记录当前循环次数。第一次循环以及往…

人工智能 2023年7月30日
0054
python 归一化_Python 数据归一化、标准化、正则化（机器学习）

数据归一化、标准化、正则化 1、归一化是将数据放缩到0~1区间，利用公式(x-min)/(max-min) 2、标准化将数据转化为标准的正态分布，均值为0，方差为1 3、正则化…

人工智能 2023年7月8日
0099
Anaconda中安装Pytorch 速度太慢解决办法

本文参考： Anaconda中安装Pytorch 速度太慢解决办法_ 蜗牛在听雨的博客-CSDN博客_conda install pytorch太慢怎么办【陆续排坑】…

人工智能 2023年7月21日
0081
【多目标跟踪学习笔记】基于Transformer的MOT算法对比(TransTrack、TrackFormer、TransCenter、TransMOT、MOTR)

2022.3.20更新了一些内容：由于最近重点研究了TrackFormer，所以更新了TrackFormer的三张流程图和对损失函数的表述（过去的表述不太明确）。其余方法和这个流程…

人工智能 2023年6月16日
0085
PyCharm安装教程（简单又实用）

一、简介 PyCharm是一款Python IDE，其带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具，比如，调试、语法高亮、Project管理、代码跳转、智能…

人工智能 2023年7月3日
00141
【路径规划】基于matlab多种算法无人机路径规划【含Matlab源码 1263期】

⛄一、无人机简介 0 引言随着现代技术的发展，飞行器种类不断变多，应用也日趋专一化、完善化，如专门用作植保的大疆PS-X625无人机，用作街景拍摄与监控巡察的宝鸡行翼航空科技的X8…

人工智能 2023年6月2日
0071
【实例分割yolact++】从头训练自己的yolact++模型

目录 0.前言 1.整个流程 2.具体过程 * 2.1 下载Github上的项目 2.2 使用labelme打标签 – 2.2.1 安装labelme 2.2.2 如何…

人工智能 2023年7月23日
0097
《人工智能原理》读书笔记：第1章绪论

目录第1章绪论 1.1 引言 1.2 关于agent的翻译 1.3 人工智能的定义 1.4 人工智能的基础 1.4.1 数学 1.4.2 经济学 1.4.3 神经科学 1.4….

人工智能 2023年7月17日
0054
泰坦尼克号沉船数据分析与可视化、数据建模与分类预测【Python | 机器学习-Sklearn】

泰坦尼克号沉船数据之美——起于悲剧，止于浪漫前言：泰坦尼克号，不只是卡梅隆导演的经典电影，它是一个真实存在的悲剧，也是电影的故事背景与题材。作为一个IT人，分析事实还得看数据，了…

人工智能 2023年7月3日
0078
Automatically Labeled Data Generation for Large Scale Event Extraction论文笔记

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、当年现状二、数据集三、方法 * 小结总结前言例如：本周阅读了这篇论文，特此记录笔记 …

人工智能 2023年6月1日
0086
Charles抓包微信小程序数据

本文中使用的是mac上的抓包工具charles进行抓包，手机是apple11。 Charles 上的设置：要截取 iPhone 上的网络请求，我们首先需要将 Charles 的代…

人工智能 2023年5月30日
00166
anaconda、tensorflow使用

一、概述 https://tensorflow.google.cn/1、教程简单粗暴tensorflow2 tensorflow c++调用简明tensorflow官方tensor…

人工智能 2023年5月25日
0058
LSTM入门

文章目录 LSTM入门 * LSTM原理与应用及训练方法 – Sequence Prediction Sequence Classification. Sequence…

人工智能 2023年5月25日
0085
最佳回归模型选择指标——马洛斯CP值

本文介绍最佳回归模型选择指标——马洛斯CP指标，并通过示例说明选择过程及如何计算。马洛斯CP(Mallows’Cp) 指标用于在多个不同模型中选择最佳回归模型。其计算…

人工智能 2023年6月18日
00135
计算机相关专业零基础论文画图详细教程（避免掉坑教程）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月25日
0083
如何构建知识图谱和问答系统

问答系统是NLP在业界最为重要的落地场景之一，但由于其全链路比较复杂，学习的时候难以入手。这是一个基础的图谱构建和问答系统的项目，为大家学习问答系统提供一个思路。ps:之前断断续…

人工智能 2023年6月1日
0065

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31