【python爬虫 2】BeautifulSoup快速抓取网站图片

2023年7月16日下午6:25 • 人工智能 • 阅读 50

前言

学习，最重要的是要了解它，并且使用它，正所谓，学以致用、本文，我们将来介绍，BeautifulSoup模块的使用方法，以及注意点，帮助大家快速了解和学习BeautifulSoup模块。有兴趣了解爬虫的小伙伴们，赶快学起来吧。关注公众号可获取爬虫教程哦。

第一步：了解需求

在开始写之前，我们需要知道我们要做什么？做爬虫。

抓取什么？抓取网站图片。

在什么地方抓取？图片之家_图片大全_摄影图片为主的国内综合性图片网

大家可以用这个网站练练手，页面也是比较简单的。

第二步：分析网站因素

我们知道我们需要抓取的是那一个网站数据，因此，我们要来分析一下网站是如何提供数据的。

根据分析之后，所有页面似乎都是相同的，那我们选择一个摄影图来为大家做演示。

1、获取列表标题，以及链接

进一步研究页面数据，每一个页面，下方都有一个列表，然后通过列表标题，进入到下一级中。那这个页面我们需要获取列表标题。

2、获取图片列表，以及链接，以及翻页操作

继续分析，点击链接进入之后，发现有已经有图片了列表，并且还可以翻页。

3、获取图片详情，所有图片

再点击继续研究，发现图片还有多张。

分析完成，我们来编写代码。

流程图如下：

第三步：编写代码实现需求

1、导入模块

导入我们需要使用到的所有模块。

import os
import re
from bs4 import BeautifulSoup
import requests
import time

2、获取列表标题，以及链接

def tupianzj():
    """获取标题，链接"""
    response = requests.get(url="https://www.tupianzj.com/sheying/",headers=headers)
    response.encoding="gbk"
    Soup = BeautifulSoup(response.text, "html.parser")
    list_title=Soup.find_all("h3",{"class":"list_title"})
    list=[]
    for i in list_title:
        list.append({'name':i.get_text(),'url':i.find("a").get("href")})
    return list

3、获取分类列表标题，链接，以及翻页。

def tu_list(url,page):
    """获取类比列表"""
    response = requests.get(url,headers=headers)
    response.encoding="gbk"
    Soup = BeautifulSoup(response.text, "html.parser")
    list_title=Soup.find_all("ul",{"class":"list_con_box_ul"})[0].find_all("li")
    for i in list_title:
        for j in i.find_all("a"):
            try:
                j.find("img").get("src")
                name=j.get("title")#列表列表图片名称
                url1="https://www.tupianzj.com"+j.get("href")[0:-5]#类比列表图片详情链接
                text=Soup.find_all("div",{"class":"pages"})[0].find_all("a")[1].get("href")#下一页
                page1=Soup.find_all("span",{"class":"pageinfo"})[0].find("strong").get_text()#获取总页数
                url2=url+text[0:-6]+page+".html"
                print(url2,page1)
                try:
                    os.mkdir(name)#创建文件
                except:
                    pass
                tu_detail(name,url1,2)
                if page==1:
                    for z in range(2,int(page1))
                        tu_list(url2,page)
            except:
                pass

4、获取详情图片，并保存

def tu_detail(path,url,page):
    """获取详情"""
    if page

知识点总结

学会此文，可掌握知识点。

1、掌握BeautifulSoup

区分find，find_all的用法：find，查找第一个返回字符串，find_all 查找所有，返回列表

区分get，get_text的用法：get获取标签中的属性，get_text获取标签包围的文字。

2、掌握正则，re.findall 的使用

3、掌握字符串切片的方式 str[0,-5] 截取第一个文字，到倒数第5个文字。

4、掌握创建文件夹的方法os.mkdir(name)

5、掌握with open（f，w） as f：的用法

6、掌握requests模块的get请求方法。

完整代码

#-*- coding:utf-8 -*-
#!/usr/bin/env python

import os
import re
from bs4 import BeautifulSoup
import requests
import time

headers = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
'Accept-Encoding': 'gzip, deflate',
'Accept-Language': 'zh-CN,zh;q=0.9',
'Connection': 'keep-alive',
'Upgrade-Insecure-Requests': '1',
  'User_agent':'Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Mobile Safari/537.36',
  }
def tu_detail(path,url,page):
    """获取详情"""
    if page

Original: https://blog.csdn.net/qq_39046854/article/details/122442525
Author: 大家一起学编程（python）
Title: 【python爬虫 2】BeautifulSoup快速抓取网站图片

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/696971/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Matlab：程序设计

Matlab 脚本 * 脚本的编辑程序控制结构 * 顺序结构选择结构循环结构函数 * 函数文件匿名函数经典案例——猴子吃桃子脚本 Matlab命令执行方式有交互式的命…

人工智能 2023年6月30日
0099
数据分析学习记录（三）–主成分分析及在origin中的实现

数据分析学习记录（三）–主成分分析及在origin中的实现注：本文仅作为自己的学习记录以备以后复习查阅一概念主成分分析是一种数据分析的方法，尤其应用在光谱降维领域，降维是…

人工智能 2023年6月19日
00406
（win10）deeplab环境安装：tensorflow1.15+cuda10+cudnn7.4

deeplab源码：models/research/deeplab at master · tensorflow/models · GitHub 把它克隆到当地仓库里就行了。 [E…

人工智能 2023年5月25日
0076
四十七.模型和正态分布(BoxCox)

1.为什么数据要服从正态分布在深度学习和机器学习中，我们通常希望数据的分布为正态分布，因为在机器学习中，许多模型都是基于数据服从正态分布的假设（例如线性回归，它假设模型的残差服从…

人工智能 2023年7月14日
0048
SAS多元线性回归分析与残差分析(画残差图，残差的正太概率图含变量交叉项，写残差向量，计算回归系数的置信区间，检验自变量系数是否相等，利用R²，MSE，CP,PRESS准则和逐步回归法选择最优方程)

例题：某科学基金会的管理人员希望估计从事数学研究工作的中等或较高水平的数学家的年工资额Y与他们的研究成果（论文、著作等）的质量指标X1，从事研究工作的时间X2以及能成功获得资助的…

人工智能 2023年6月16日
0081
PCL学习记录（一）点云数据的获取与可视化

1、获取点云数据（1）点云定义 pointCloud = std::make_shared<pcl::pointcloud<pcl::pointxyz>>…

人工智能 2023年5月26日
0075
MobileViT: 一种更小，更快，高精度的轻量级Transformer端侧网络架构（附代码实现）…

【导读】之前详细介绍了轻量级网络架构的开源项目，详情请看，今天将正式开启Transormer轻量级网络架构新篇章，本文将主要介绍一种更小，更快的轻量级Transformer端侧网络…

人工智能 2023年6月16日
00238
Python 计算机视觉（十二）—— OpenCV 进行图像分割

参考的一些文章以及论文我都会给大家分享出来 —— 链接就贴在原文，论文我上传到资源中去，大家可以免费下载学习，如果当天资源区找不到论文，那就等等，可能正在审核，审核完后就可以下载了…

人工智能 2023年7月20日
0064
CVPR2019:(KSE)Exploiting Kernel Sparsity and Entropy for Interpretable CNN Compression

Institute：Fujian Key Laboratory of Sensing and Computing for Smart City, Department of Cog…

人工智能 2023年6月4日
0070
Ubuntu双显卡切换指示器安装和使用指南

在Ubuntu操作系统下，有时候不知道我们使用了何种显卡，而且某些必要时候我们还需要对工作的显卡进行切换。为了解决这个问题，下面介绍一款双显卡切换指示器。作用就在于，一来它会在桌…

人工智能 2023年6月4日
00104
kalibr源码专题-投影模型

kalibr源码专题-投影模型之小孔成像前言一、小孔成像模型前言代码在aslam_cameras中的cameras里，主要是PinholeProjection.hpp、Om…

人工智能 2023年7月20日
0063
2022年顶会accepted papers list(NeurIPS/CVPR/ICML/ICLR/ECCV/AAAI/IJCAI/WWW…)

2022年顶会已全部更新 Original: https://blog.csdn.net/lijinde07/article/details/122651155Author: 悠然…

人工智能 2023年6月16日
0069
Python快速刷题网站——牛客网数据分析篇（十五）

👦👦一个帅气的boy，你可以叫我Love And Program🖱 ⌨个人主页：Love And Program的个人主页💖💖如果对你有帮助的话希望三连💨💨支持一下博主前言本文…

人工智能 2023年7月8日
0084
全网最全最新的YOLOv5模型训练测试以及多端部署教学内容

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月9日
0069
AMTML-KD：自适应多教师多级知识蒸馏

1、AMTML-KD框架 1.1动机和概述动机：学习知识有必要考虑教师对不同类型问题的不同重要性。图像分类的任务：给定一幅兰花图像，三个教师神经网络对同一组图像类别具有不同的预…

人工智能 2023年7月12日
0045
[零基础][最简单的教程]图像多分类问题的解决——基于resnet50的pytorch的实现

文章目录前言一、开始任务的前提条件二、深度学习通用框架三、修改代码前，使用者需要明确的问题 * 1.图片分成三个集，并放在正确的位置 2.明确你是几分类问题 3.明确你是使…

人工智能 2023年7月2日
0082

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31