Python批量爬取美女写真集,只需27行代码,实现多页爬取!

伙计们,我们有点不喜欢上一季,所以今天有点不同。

[En]

Guys, we didn’t like the last series a little bit, so it’s a little different today.

Python批量爬取美女写真集,只需27行代码,实现多页爬取!

来吧,直接整活~

; 先准备一下

首先,我们需要安装这两个第三方模块。

[En]

First, we need to install these two third-party modules.

requests >>>

不会安装的小伙伴,键盘按住win+r 在弹出来的运行框 输入cmd 按确定,然后弹出黑色的框框,即命令提示符窗口,输入上面的注释 ,然后按回车即可安装成功。

实现步骤

第一步:查找数据对应的链接地址

[En]

Step 1: find the link address corresponding to the data

第二步:python代码发送指定地址的请求
第三步:数据解析(筛选 过滤咱们需要的数据)

在解析每个专辑地址之后,

[En]

After parsing each album address,

  1. a 创建每一个相册的文件夹
  2. b 请求每一个相册详情页
    (1) 发送请求
    (2) 解析数据 提取图片链接
    (3) 依次请求图片

第四步:保存数据

代码部分

import requests
import parsel   # 解析数据
import os
Python学习交流 1群 815624229 快满了加2裙
Python学习交流 2群 279199867

for page in range(1, 12):
    response = requests.get(f'https://www.jdlingyu.com/tag/%e8%85%bf%e6%8e%a7/page/{page}')
    # : 请求成功
    # 静态页面的网页源代码
    # 把静态页面的 字符串 变成可选的对象
    selector = parsel.Selector(response.text)
    # 3. 数据解析(筛选 过滤咱们需要的数据)
    # re: 可以直接提取网页字符串数据
    # css / xpath: 通过HTML标签进行提取
    lis = selector.xpath("//ul[@class='b2_gap ']/li")
    for li in lis:
        # text(): 提取标签的文本内容
        title = li.xpath('.//h2/a/text()').get()
        print(f'-------------正在爬取{title}-------------')
        # a 如果当前文件夹不存在 那么就新建一个
        if not os.path.exists('./img/'+title):
            os.mkdir('./img/'+title)
        # 每一个相册所在的 网页地址
        # 获取a标签属性内容 /@src
        href = li.xpath('.//h2/a/@href').get()
        # b 请求每一个相册详情页
        data_html = requests.get(href).text
        # 把字符串对象转变为 可选的selector对象
        selector_2 = parsel.Selector(data_html)
        img_p = selector_2.xpath('//div[@class="entry-content"]/p')
        for img in img_p:
            # (2) 解析数据 提取图片链接
            img_list = img_p.xpath('.//img/@src').getall()
            for img_1 in img_list:
                # content: 获取二进制数据 图片 视频 音频
                # 文本: text
                try:
                    img_data = requests.get(img_1).content
                # 图片文件名
                except:
                    continue
                img_name = img_1.split('/')[-1]
                with open(f'img\\{title}\\{img_name}', mode='wb') as f:
                    f.write(img_data)
                    print('下载完成:', img_name)

效果展示

Python批量爬取美女写真集,只需27行代码,实现多页爬取!

Python批量爬取美女写真集,只需27行代码,实现多页爬取!

这个分类总共是12页,我就不全部展示了,大家可以自己去试试!

Original: https://www.cnblogs.com/hahaa/p/16204122.html
Author: 轻松学Python
Title: Python批量爬取美女写真集,只需27行代码,实现多页爬取!

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/499712/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • 基于 Python 的地理空间绘图(附源码)

    前言 大部分情况下,地理绘图可使用 Arcgis 等工具实现。但正版的 Arcgis 并非所有人可以承受。本文基于 Python 的 cartopy 和 matplotlib 等库…

    Python 2023年5月24日
    0137
  • SpringBoot 事务

    本地事务(区别于分布式事务)也叫数据库事务,MySQL的InnoDB存储引擎就已经支持了事务,Spring中的事务是在底层数据库事务的基础上进一步封装,可以在不同的项目、不同的操作…

    Python 2023年6月3日
    0101
  • RC滤波器(高通/低通)

    RC既可以构成低通滤波电路,也可以构成高通滤波电路 1、高通滤波器 如果输入是个直流电压,ui电压的变化率为0,所以RL上没有电流通过,根据欧姆定律,即out=0V,电容完全&#8…

    Python 2023年11月7日
    099
  • 人口增长模型

    1. 指数增长模型 1.1 人口增长模型的建立 1.2 参数估计 1.1.1 线性最小二乘估计 1.1.2 基于数值微分的参数估计 1.3 改进的指数增长模型 2. logisti…

    Python 2023年6月9日
    0151
  • 数据导入与预处理-课程总结-01~03章

    数据导入与预处理-课程总结-01~03章 第1章 数据预处理概述 * 1.1 基本概念 – 1.1.1 大数据项目开发流程 1.1.2 什么是数据预处理 1.1.3 数…

    Python 2023年8月27日
    0166
  • 一看就会的Pandas文本数据处理

    大家好,我是才哥。 日常工作中我们经常接触到一些文本类信息,需要从文本中解析出数据信息,然后再进行数据分析操作。 而对文本类信息进行解析是一件比较头秃的事情,好巧, Pandas刚…

    Python 2023年8月8日
    0112
  • JavaEE 突击 4 – Spring 更简单的读取和存储对象(1)

    Spring 更简单的读取和存储对象 – 1 一 . 前置工作 * 1.1 创建一个 Maven 项目 1.2 添加 Spring 依赖 1.3 创建启动类 1.4 添…

    Python 2023年11月8日
    0102
  • 深度学习中向量(矩阵)微分基本知识

    函数矩阵基本运算 函数矩阵 [ A(x)=\left[ \begin{matrix} a_{11}(x) & a_{12}(x) & \cdots & a_…

    Python 2023年6月6日
    0107
  • Python数据预处理和PCA、ICA、LDA降维的方法(实验代码)

    目录 1.标准差标准化 数据预处理——标准差标准化 数据预处理——离差标准化 数据预处理——非线性转换 数据预处理——归一化 数据预处理——二值化 数据预处理——独热编码 数据预处…

    Python 2023年8月30日
    0115
  • 制作淘宝客微信公众号(一)

    制作淘宝客微信公众号(一) 这篇文章主要是记录开发淘宝客微信公众号机器人的主要准备过程。(作者研究生在读,学业繁忙,所以不考虑帮人做公众号,只提供制作思路) 1.淘宝客介绍 淘宝客…

    Python 2023年8月4日
    092
  • Dataframe-基础

    import numpy as np import pandas as pd from pandas import Series,DataFrame 有两种丢失的数据: None …

    Python 2023年8月22日
    093
  • Django REST framework JWT

    Django REST framework JWT 在用户注册或登录后,我们想记录用户的登录状态,或者为用户创建身份认证的凭证。我们不再使用Session认证机制,而使用Json …

    Python 2023年5月24日
    0108
  • Apple芯片Mac无法安装FastGithub arm64版本

    最近新入手了M1 MacBook Air,想安装FastGithub来解决GitHub无法访问的问题,于是我下载了arm64版本,发现用不了,用sudo也不行,而且无法生成cace…

    Python 2023年6月12日
    0118
  • 《人工智能及其应用》第3章书后题 | 西电《人工智能导论》作业

    教材对应第6版。答案仅供参考,都是我从网上四处搜索和自己编的。 3-1什么是图搜索过程?其中,重排 OPEN 表意味着什么,重排的原则是什么? 3-2试举例比较各种搜索方法的效率。…

    Python 2023年10月27日
    075
  • Flask项目(二)Restful风格、图片、短信验证码、注册登录

    Flask项目 Restful风格 如何设计符合RESTful风格的API * 一、域名: 二、版本: 三、路径: * 四、使用标准的HTTP方法: 五、过滤信息: 六、状态码: …

    Python 2023年8月11日
    081
  • 一篇带你了解如何使用纯前端类Excel表格构建现金流量表

    现金流量表(Cash Flow Statement),是指反映企业在一定会计期间现金和现金等价物流入和流出的报表。现金流量表是企业财务报表的三个基本报告之一(另外两个是资产负债表和…

    Python 2023年10月18日
    074
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球