python 爬虫抓取高清美女壁纸源码附上

2023年11月9日下午10:09 • Python • 阅读 56

本人比较喜欢收集壁纸，发现53PIN.com动漫分类下的壁纸，我都很喜欢；于是写了个爬虫，只需要输入你需要爬几页，就可以爬几页。

环境准备

python3.8
需要用到的第三方包

*
– requests：通过http请求获取页面，官方文档
– Beautiful Soup4：可以从HTML或XML文件中提取数据，官方文档

在终端中分别输入以下pip命令，安装它们

python -m pip install beautifulsoup4
python -m pip install requests

最后，代码附上。

import os
import time
import requests
from bs4 import BeautifulSoup

&#x9700;&#x8981;&#x722C;&#x53D6;&#x7684;&#x9875;&#x6570;
gain_page = int(input("&#x8BF7;&#x8F93;&#x5165;&#x4F60;&#x9700;&#x8981;&#x722C;&#x53D6;&#x7684;&#x9875;&#x6570;&#xFF1A;"))
&#x6839;&#x636E;&#x9875;&#x6570;&#x8FDB;&#x884C;&#x903B;&#x8F91;&#x5224;&#x65AD;
for i in range(1, gain_page + 1):
    if i == 1:
        url = "https://www.53pic.com/bizhi/dongman/"
    else:
        url = "https://www.53pic.com/bizhi/dongman/index_%s.html" % str(i)

    # print(url)    # &#x6D4B;&#x8BD5;&#x4EE3;&#x7801;

    # ---------------&#x63D0;&#x53D6;&#x4E3B;&#x9875;&#x6E90;&#x4EE3;&#x7801;--------------- #
    # &#x5411;&#x670D;&#x52A1;&#x5668;&#x8BF7;&#x6C42;&#x6570;&#x636E;
    main_page_info = requests.get(url)
    # &#x89E3;&#x51B3;&#x4E71;&#x7801;&#x95EE;&#x9898;
    main_page_info.encoding = "utf-8"
    main_page_text = main_page_info.text
    # print(main_page_text)

    # -------2&#x3001;&#x901A;&#x8FC7;href&#x62FF;&#x5230;&#x5B50;&#x9875;&#x9762;&#x5185;&#x5BB9;&#xFF0C;&#x4ECE;&#x5B50;&#x9875;&#x9762;&#x4E2D;&#x627E;&#x5230;&#x56FE;&#x7247;&#x4E0B;&#x8F7D;&#x5730;&#x5740;   <img src="&#x201D;&#x201C;">------

    # &#x5C06;&#x4E3B;&#x9875;&#x6E90;&#x7801;&#x4EA4;&#x7ED9;BeautifulSoup&#x5904;&#x7406;
    handle_main = BeautifulSoup(main_page_text, "html.parser")
    # print(handle_main)
    # &#x7F29;&#x5C0F;&#x6570;&#x636E;&#x5339;&#x914D;&#x8303;&#x56F4;
    son_link_list_a = handle_main.find_all(name="a", attrs={"class": "title-content"})
    # print(son_link_list)

    # &#x901A;&#x8FC7;&#x5FAA;&#x73AF;&#x53D6;&#x51FA;a&#x6807;&#x7B7E;&#x4E2D;&#x7684;href&#x3001;&#x6807;&#x9898;
    for a_href_a in son_link_list_a:
        # print(a_href_a)
        href = "https://www.53pic.com" + a_href_a.get("href")
        title = a_href_a.get("title")
        # print(href, title)

        # &#x62FF;&#x5230;&#x5B50;&#x9875;&#x9762;&#x7684;&#x9875;&#x9762;&#x6E90;&#x4EE3;&#x7801;
        son_page_info = requests.get(href)
        # &#x89E3;&#x51B3;&#x4E2D;&#x6587;&#x4E71;&#x7801;&#x95EE;&#x9898;
        son_page_info.encoding = "utf-8"
        son_page_info_text = son_page_info.text
        # print(son_page_info_text)
        # &#x5C06;&#x5B50;&#x9875;&#x9762;&#x4EA4;&#x7ED9;BeautifulSoup&#x5904;&#x7406;
        handle_son = BeautifulSoup(son_page_info_text, "html.parser")
        # &#x7F29;&#x5C0F;&#x5B50;&#x9875;&#x9762;&#x6570;&#x636E;&#x5339;&#x914D;&#x8303;&#x56F4;
        download_link_p = handle_son.find_all(name="div", attrs={"id": "showimgXFL"})
        # print(download_link_p)
        for div_src_div in download_link_p:
            # print(div_src_div)
            # &#x67E5;&#x627E;img&#x6807;&#x7B7E;
            download_src_img = div_src_div.find("img")
            # &#x5339;&#x914D;src&#x5C5E;&#x6027;
            download_src = download_src_img.get("src")
            # &#x8BF7;&#x6C42;&#x4E0B;&#x8F7D;
            download = requests.get(download_src)
            # print(download_src)
            # &#x5207;&#x6362;&#x5DE5;&#x4F5C;&#x76EE;&#x5F55;
            os.chdir(r"C:\Users\&#x5D14;&#x6CFD;\Desktop\mig")
            with open("%s.jpg" % title, mode='wb+') as file:
                # &#x4EE5;&#x4E8C;&#x8FDB;&#x5236;&#x6587;&#x4EF6;&#x5199;&#x5165;&#x6587;&#x4EF6;
                file.write(download.content)
                time.sleep(1)
            print("%s...&#x4E0B;&#x8F7D;&#x6210;&#x529F;&#xFF01;" % title)

Original: https://www.cnblogs.com/xiaozebuxiao/p/15890030.html
Author: 小泽不小
Title: python 爬虫抓取高清美女壁纸源码附上

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/814972/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python–logging模块

python–logging模块原创白灰软件测试2022-07-19 23:06:59博主文章分类：Python基础 ©著作权文章标签 python 文章分类 P…

Python 2023年5月25日
0068
EluxJS-让你像切蛋糕一样拆解前端巨石应用

大家好，EluxJS是一套基于” 微模块“和” 模型驱动“的跨平台、跨框架『同构方案』，欢迎了解… 可怕的巨石怪工作中…

Python 2023年10月14日
0033
python 绘制箱型图

用法 Axes.boxplot(x, notch=None, sym=None, vert=None, whis=None, positions=None, widths=None…

Python 2023年8月1日
0050
Flask博客实战 – Nginx+uwsgi+mysql+宝塔面板部署Flask

部署项目我们的项目已经基本的框架和功能都完善好了，是不是已经迫不及待的想把项目发布到线上向伙伴们炫耀了！部署项目是一个涉及知识面比较广的技能，那么我们还是以最简单，最容易上手的…

Python 2023年8月9日
00110
新手教程：使用Pycharm的本地conda环境运行程序

一.新建Projects并利用conda新建环境点击File的New Project选项 1.这里的第一个location代表的是工程文件储存的位置，我将所有的pycharm文件…

Python 2023年9月7日
00377
OS模块中获取当前文件的绝对路径的相关方法

🚀 优质资源分享 🚀 学习路线指引（点击解锁）知识定位人群定位进阶级本课程是python flask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。入…

Python 2023年8月9日
0036
flask框架初学-06-对数据库的增删改查

上一节学习了怎么在flask中连接数据库，使得flask中的模型类可以与数据库中的表和字段一一映射。本节将具体介绍如果通过对模型对象进行操作，从而实现对数据库进行操作。 &…

Python 2023年8月13日
0036
python读取多个文件夹_在python中如何从不同的文件夹读取多个文件

我在不同的文件夹中有年度数据文件。每个文件包含从1月1日到12月31日的每日数据。数据文件名类似于AS060419.67，其中最后四位代表年份，即1967年，0604是文件夹名。在…

Python 2023年8月20日
0046
无法将“C:UsersY123Anaconda3Scriptsconda.exe”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。

一、（重点在→二） 2、Get-ExecutionPolicy -List 查看当前所有作用域 Get-ExecutionPolicy -List 根据图片可以看到，作用域没有权限…

Python 2023年9月8日
0065
从源码层面深度剖析Spring循环依赖

作者：郭艳红 以下举例皆针&#x5BF9…

Python 2023年10月11日
0047
linux pandas教程_Pandas 学习笔记

安装如果做数据分析用途建议使用Anaconda，自带pandas numy 以及很多库，还有集成开发环境Spyder(自带的变量查看器很好用) WIN LINUX MAC均支持。…

Python 2023年8月21日
0038
你真的会用百度吗？我不信 — 那些不为人知的搜索引擎语法

搜索引擎是咱们在日常生活、工作必备的工具查个明星八卦、地址，搜索遇到的某个问题的解决方法但是，作为一个有追求、有理想的技术人员其实搜索引擎的背后，有很多鲜为人知的搜索语法搜…

Python 2023年6月9日
0085
n8_Visualizing Multivariate_sns_3D plot_matplotlib.dates_mpl_finance_aapl stock_EMA_RSI_Bollinger

When we have big data that contains many variables, the plot types in Chapter 7(https://bl…

Python 2023年9月4日
0058
python3pygame 游戏程序_使用python3和pygame包小练游戏玩耍

!/usr/bin/env python3 –– coding: utf-8 –– “”” Cr…

Python 2023年9月25日
0060
javascript高级（数组，字符串）

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年9月30日
0043
pycharm搭建flask环境报错Non-zero exit code(2)

安装出现报错分析问题 pycharm 依赖于 –build-dir来安装包，但是这在最新版的pip中被移除了 *我现在使用的pip是21.3.1版本的，解决办法就是将…

Python 2023年6月3日
0064

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python 爬虫 抓取高清美女壁纸 源码附上

大家都在看

python 爬虫抓取高清美女壁纸源码附上