Python批量爬取美女写真集，只需27行代码，实现多页爬取！

2023年5月24日上午1:17 • Python • 阅读 78

伙计们，我们有点不喜欢上一季，所以今天有点不同。

[En]

Guys, we didn’t like the last series a little bit, so it’s a little different today.

来吧，直接整活~

; 先准备一下

首先，我们需要安装这两个第三方模块。

[En]

First, we need to install these two third-party modules.

requests >>>

不会安装的小伙伴，键盘按住win+r 在弹出来的运行框输入cmd 按确定，然后弹出黑色的框框，即命令提示符窗口，输入上面的注释，然后按回车即可安装成功。

实现步骤

第一步：查找数据对应的链接地址

[En]

Step 1: find the link address corresponding to the data

第二步：python代码发送指定地址的请求
第三步：数据解析(筛选过滤咱们需要的数据)

在解析每个专辑地址之后，

[En]

After parsing each album address,

a 创建每一个相册的文件夹
b 请求每一个相册详情页
(1) 发送请求
(2) 解析数据提取图片链接
(3) 依次请求图片

第四步：保存数据

代码部分

import requests
import parsel   # 解析数据
import os
Python学习交流 1群 815624229 快满了加2裙
Python学习交流 2群 279199867

for page in range(1, 12):
    response = requests.get(f'https://www.jdlingyu.com/tag/%e8%85%bf%e6%8e%a7/page/{page}')
    # : 请求成功
    # 静态页面的网页源代码
    # 把静态页面的 字符串 变成可选的对象
    selector = parsel.Selector(response.text)
    # 3. 数据解析(筛选 过滤咱们需要的数据)
    # re: 可以直接提取网页字符串数据
    # css / xpath: 通过HTML标签进行提取
    lis = selector.xpath("//ul[@class='b2_gap ']/li")
    for li in lis:
        # text(): 提取标签的文本内容
        title = li.xpath('.//h2/a/text()').get()
        print(f'-------------正在爬取{title}-------------')
        # a 如果当前文件夹不存在 那么就新建一个
        if not os.path.exists('./img/'+title):
            os.mkdir('./img/'+title)
        # 每一个相册所在的 网页地址
        # 获取a标签属性内容 /@src
        href = li.xpath('.//h2/a/@href').get()
        # b 请求每一个相册详情页
        data_html = requests.get(href).text
        # 把字符串对象转变为 可选的selector对象
        selector_2 = parsel.Selector(data_html)
        img_p = selector_2.xpath('//div[@class="entry-content"]/p')
        for img in img_p:
            # (2) 解析数据 提取图片链接
            img_list = img_p.xpath('.//img/@src').getall()
            for img_1 in img_list:
                # content: 获取二进制数据 图片 视频 音频
                # 文本: text
                try:
                    img_data = requests.get(img_1).content
                # 图片文件名
                except:
                    continue
                img_name = img_1.split('/')[-1]
                with open(f'img\\{title}\\{img_name}', mode='wb') as f:
                    f.write(img_data)
                    print('下载完成:', img_name)

效果展示

这个分类总共是12页，我就不全部展示了，大家可以自己去试试！

Original: https://www.cnblogs.com/hahaa/p/16204122.html
Author: 轻松学Python
Title: Python批量爬取美女写真集，只需27行代码，实现多页爬取！

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/499712/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Flask–(二)

一个经典的HelloWorld 的例子一.创建 Python 项目 1.打开 Pycharm，选择 Pure Python 类型的项目，创建项目完成之后选择之前创建的 py3_f…

Python 2023年8月12日
0059
从零开始训练神经网络【学习笔记】[2/2]

我们的代码要导出三个接口，分别完成以下功能：下文将采用《Python Crash Course》2nd edition.，即蟒蛇书的代码扩充书写方式来展示我们逐步扩充神经网络代码…

Python 2023年10月28日
0036
python-简单模块的使用

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

Python 2023年6月9日
0075
jenkins流水线部署springboot应用到k8s集群（k3s+jenkins+gitee+maven+docker）（2）

配置连接集群外的k8s集群方法修改k8s集群的地址（https://192.168.231.133:6443 ）连接k8s集群的认证方式，我这里配置了3种，用户名密码&…

Python 2023年10月22日
0048
size mismatch问题：训练权重不匹配问题

在测试二阶段和三阶段模型的时候程序一直报错： RuntimeError: Error(s) in loading state_dict for Eff:size mismatch …

Python 2023年8月2日
00266
【Pygame小游戏】真香~这款百万销量万人追捧大富翁游戏终于出现了~（赶紧来玩儿）

前言说到童年爱玩的电脑游戏，你会想到什么？搞错了，以前没得王者、吃鸡的——那时候最国民的莫过于金山打字通，接着是扫雷、红心大战，而红极一时的单机游戏当属《大富翁》。扫雷是刚…

Python 2023年9月20日
0053
Dubbo-时间轮设计

前言 Dubbo源码阅读分享系列文章，欢迎大家关注点赞 SPI实现部分 Dubbo-SPI机制 Dubbo-Adaptive实现原理 Dubbo-Activate实现原理 Dubb…

Python 2023年10月15日
0032
【uniapp小程序】路由跳转navigator传参封装

文章目录 🍍前言 🍋正文 * 1、看官网 – 1.1 navigator API 介绍 1.2、路由跳转参数传递 1.3、五种常见的跳转方式 + 1.3.1 uni.n…

Python 2023年9月16日
0092
如何在bat中进入虚拟环境

很多情况下我们希望在项目中建立一个 build.bat用于项目的自动构建，避免每次构建时都需要手动在控制台中输入命令。例如对于 pyinstall 的项目，只需要如下的实现： p…

Python 2023年11月1日
0032
Python_learn_飞机大战

1. 游戏的初始化和退出pygame.init() 导入并初始化所有pygame模块，使用其他模块之前，必须先调用init方法pygame.quit() 卸载所有pygame模块，…

Python 2023年9月24日
0052
如何使用 pyqt 实现 Groove 音乐播放器

前言 Win10 自带了一款很好用的音乐播放器 —— Groove 音乐，但是只能支持本地音乐的播放。2020年3月底到4月底，自己一直在学习 PyQt5，然后从 2020年5月开…

Python 2023年5月24日
0090
python中的join函数连接dataframe_python pandas处理CSV文件并使用join()方法拼接两个dataframe…

本问主要讲解如何拼接两个dataframe import pandas as pd import numpy as np import matplotlib.pyplot as p…

Python 2023年8月8日
0089
【回答问题】ChatGPT上线了！SLAM有哪些模型实现代码/案例/github源码？推荐10个以上比较好的SLAM深度学习模型？

目录 SLAM有哪些模型实现代码？ SLAM有哪些模型实现案例？ SLAM有哪些模型的github源码？推荐10个以上比较好的SLAM深度学习模型？推荐10个以上比较好的SLA…

Python 2023年11月4日
0052
Vmware Esxi批量创建虚拟机(PowerCLI)

环境：windows10安装方式：在线、离线PowerCLI Version：v12.0.0 1、PowerCLI在线安装快捷键win+q搜索PowerShell，以管理员身份打…

Python 2023年6月10日
0078
GO语言学习——文件操作（读取和写入）

文件操作打开和关闭文件 os.Open()函数打开一个文件返回一个*File和一个err 对得到的文件实例调用close()方法关闭文件读取文件 file.Read() bu…

Python 2023年6月10日
0071
轻量级网络-MobileNetv1 论文解读

1、相关工作标准卷积分组卷积从 Inception module 到 depthwise separable convolutions 2、MobileNets 结构 2.1…

Python 2023年10月29日
0046

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python批量爬取美女写真集，只需27行代码，实现多页爬取！

大家都在看