爬虫实例分析

2023年7月17日下午1:07 • 人工智能 • 阅读 56

下面我将介绍如何一步一步将豆瓣的top250的网页数据爬取并保存在本地。

首先我们需要python的基础：定义变量，列表，字典，元组，if语句，while语句等。

然后利用了解爬虫的基本框架（原理）:爬虫就是模仿浏览器去访问网络中的网页，并将网页爬到电脑的内存中并进行解析，最终将我们想要的数据进行存储。在此条件下，我们需要给于爬虫（灵魂）逻辑，也就要求我们对爬取对象的个体和总体进行比对，从而发现规律。也就是说，我们想让爬虫动起来，我们首先要自己能看懂网页。（提前学一下html，会轻松一些）

然后呢，我们就要利用python强大的第三方库，在这个实例中我用到了这么几个库:

import urllib.request,urllib.error
import re
from bs4 import BeautifulSoup
import xlwt

其对应的用法我就不多说了。

对于整个框架无疑就是函数的运行，在主函数内套娃:

#-*- codeing = utf-8 -*-
def main():
    print('''
        1.网页爬取函数
        2.解析数据函数
        3.保存数据函数
    '''
    )
if __name__ == __mian__:
    main()

我先把主函数放这里，最后看哟

def main():
    baseurl="https://movie.douban.com/top250?start="
    savepath="豆瓣电影Top250.xls"
    datalist=getData(baseurl)
    saveData(datalist,savepath)

1.首先我们要爬取网页

def askURL(url):
    head={
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36"
    }
    request=urllib.request.Request(url,headers=head)
    html = ""
    try:
        response=urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)
    return html

这大致就是浏览器向人家服务器要网页的过程，首先是请求头，一般像这种无需登录的网站，把我们谷歌的’User-Agent’放里头就行，如果是需要登录的网站，几乎需要全套了。剩下的就交给urllib了，由于对象服务的状态是未知的，我们需要对我们爬取过程中的状态有一个了解，即错误捕获。我们给爬虫这么多活，不能因为一个任务不能完成就罢工吧，try一try就可以了，这里是利用了urllib的urllib.error来识别网络报错。最后将获取的网页赋给html就可以走人了。

2.边爬取边解析网页

def getData(baseurl):
    datalist=[]
    for i in range(0,10):
        url = baseurl + str(i*25)
        html = askURL(url)    #保存获取的网页源码
        soup = BeautifulSoup(html,"html.parser")
        for item in soup.find_all('div',class_="item"):
            #print(item)
            data=[]
            item = str(item)    #转化为字符串
            link =re.findall(findlink,item)[0]
            data.append(link)
            imgSrc =re.findall(findImgSrc,item)[0]
            data.append(imgSrc)
            datalist.append(data)
            title=re.findall(findTitle,item)
            data.append(title)
    return datalist

我们不可能只爬取一个url，要根据我网页的特性，为爬虫设计爬取路线，每爬取一页就要解析一页，根据观察发现每页有25个电影，一共有250个电影共需要10页，url中的最后几个数字刚好与每页第一个电影的序号有关联，利用for循环遍历一遍就可以了。每循环一边就调用一遍askurl，并用”靓汤”对其进行解析，我们首先要筛选出有关的网页源码对其进行分析，发现每部电影的前面都带有’div’,那就把所有div及其子页留下称为item，利用预先用正则表达式制定的规则对留下的东西的数据继续提取，提取出我们想要的数据。下面是放在全局变量中的正则表达式：

findlink = re.compile(r'',re.S)#让换行符包含在字符串中
findTitle =re.compile(r'(.*)')
findImgSrc =re.compile(r'

3.保存数据

def saveData(datalist,savepath):
    book =xlwt.Workbook(encoding="utf-8")
    sheet = book.add_sheet('豆瓣Top250')
    col=("电影详情链接","图片","片名")
    for i in range(0,3):
        sheet.write(0,i,col[i])
    for i in range(0,250):
        print("第%d条"%(i+1))
        data=datalist[i]
        for j in range(0,3):
            sheet.write(i+1,j,data[j])

    book.save('student.xls')

这里呢是将数据保存在了excel中，毕竟只有250行，如果有几万行的话就必须要用数据库了。存完的效果是这样的：

接下来我将会对数据进行可视化，欲知如何，还听下回分解。

本文只是对思路进行了梳理，具体的学术性问题没有遍及，还请谅解。

Original: https://blog.csdn.net/Kongdad/article/details/122530053
Author: Kongdad
Title: 爬虫实例分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/698710/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数据挖掘-模型的评估（四）

🤵‍♂️ 个人主页：@Lingxw_w的个人主页✍🏻作者简介：计算机科学与技术研究生在读🐋 希望大家多多支持，我们一起进步！😄如果文章对你有帮助的话，欢迎评论 💬点赞👍🏻 收藏 📂…

人工智能 2023年7月18日
0046
NLP方向 —- 面试、笔试题集(7)：预训练模型 BERT

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月30日
0067
【python数据分析】将爬取的数据保存为csv格式

数据保存为csv格式 csv文件 python的csv模块从csv文件读取内容写入csv文件运用实例 * 数据准备将数据存为字典的形式存储到csv文件 csv文件一种用…

人工智能 2023年7月5日
0075
深度自编码高斯混合模型无监督异常检测

1、背景目前利用深度学习解决异常检测存在数据维度过高，容易将任何一个样本判断为未见过的异常样本的问题。针对这种情况，提出了降维的需求，将高维数据降维，然后在低纬度对其进行密度估计…

人工智能 2023年5月31日
0077
OpenCV-Python实战（13）——OpenCV与机器学习的碰撞

OpenCV-Python实战（13）——OpenCV与机器学习的碰撞 * – 0. 前言 – 1. 机器学习简介 – + 1.1 监督学习 +…

人工智能 2023年7月18日
0056
在卷积层中，卷积核大小和数量的选择有什么影响

在卷积层中，卷积核大小和数量的选择对神经网络的性能和参数数量有着重要的影响。 1. 介绍卷积层是卷积神经网络中的关键部分，它通过将输入与可学习的卷积核进行卷积操作来提取特征。卷积…

人工智能 2024年1月3日
0041
Spark:DataFrame 写入文本文件

将DataFrame写成文件方法有很多最简单的将DataFrame转换成RDD，通过saveASTextFile进行保存但是这个方法存在一些局限性：1.将DataFrame转换成R…

人工智能 2023年6月2日
0080
【搭建自己的目标检测网络】从零开始，搭建自己的基于VGG16的目标检测网络【附代码】

在上一篇文章中，已经利用DataLoader加载预处理后的数据集【目标检测之数据集加载】利用DataLoader加载已预处理后的数据集【附代码】_z240626191s的博客-C…

人工智能 2023年7月9日
00161
B站教学手把手教你使用YOLOV5之口罩检测项目最全记录详解 ( 深度学习 / 目标检测 / pytorch )

目录一、环境搭建 pytorch的下载测试（cmd窗口中） pycharm下测试（要配置pycharm中的虚拟环境）二、数据标注下载labor image 使用labeli…

人工智能 2023年7月27日
0091
【无标题】

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月28日
00131
QQ机器人制作教程，超详细

目录前期准备 * 1、机器人框架的下载和配置 2、python的配置和安装具体实现 * 1、发送信息 2、获取群成员列表 3、接收上报的事件 4、实现简单的自动回复 5、解决重…

人工智能 2023年7月3日
0048
多种分类以及模型评估

多种分类以及模型评估分类 * 获取mnist数据集获取训练数据和标签数据标准化及数据集划分训练二分类器 – 划分数据集随机梯度下降分类性能测试 + 使用交叉…

人工智能 2023年7月3日
0065
python 图像等比例缩放

目前比较常用的就是opencv-python底下的 cv2.resize() cv2.resize(src, size, fx, fy, interpolation) 其中 src…

人工智能 2023年5月26日
0070
C#与Halcon联合（10）通过外部函数在halcon窗体上写字

目录 1.halcon12 相关写字算子 * set_display_font disp_message 2.如何查看外部函数的内容 * ①鼠标移至算子右键选择【在新窗口中显示】 …

人工智能 2023年6月20日
0077
第3.1~3.3节《合成孔径雷达成像原理-皮亦鸣》

3.1 雷达成像特点 3.2 成像雷达的种类 3.3 合成孔径雷达简介 3.4 成像雷达距离向的高分辨率原理 3.5 成像雷达 3.6 合成孔径雷达的理论模型 3.7 图像质量评估…

人工智能 2023年6月20日
0068
智能计算—模糊计算总结

目录框架 1 介绍 1.1 概念 1.2 原理 2 理论发展 3 模糊计算 3.1 模糊逻辑和模糊集合 3.1.1 模糊集合的表示方法 3.1.2 确定隶属函数方法 3.2 模糊…

人工智能 2023年6月2日
0068

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

爬虫实例分析

大家都在看