一个豆瓣电影Top250爬虫

2023年6月12日上午5:07 • Python • 阅读 90

一个爬虫

这是我第一次接触爬虫，写的第一个爬虫实例。

https://movie.douban.com/top250

模块

import requests #&#x7528;&#x4E8E;&#x53D1;&#x9001;&#x8BF7;&#x6C42;
import re #&#x4F7F;&#x7528;&#x6B63;&#x5219;&#x8868;&#x8FBE;&#x5F0F;&#xFF0C;&#x7528;&#x4E8E;&#x5339;&#x914D;&#x5904;&#x7406;&#x6587;&#x672C;
import os #&#x7528;&#x4E8E;&#x521B;&#x5EFA;&#x6587;&#x4EF6;&#x5939;
from lxml import etree #&#x8FD9;&#x91CC;&#x6211;&#x4F7F;&#x7528;&#x4E86;Xpath&#x8868;&#x8FBE;&#x5F0F;&#x7528;&#x4E8E;&#x6570;&#x636E;&#x89E3;&#x6790;&#xFF0C;&#x6211;&#x89C9;&#x5F97;&#x8FD9;&#x4E2A;&#x6A21;&#x5757;&#x6BD4;BeautifulSoup&#x597D;&#x7528;&#xFF0C;&#x5F3A;&#x70C8;&#x63A8;&#x8350;
from fake_useragent import UserAgent #&#x53CD;&#x722C;&#x866B;&#xFF0C;&#x968F;&#x673A;&#x83B7;&#x53D6;&#x6D4F;&#x89C8;&#x5668; UA &#x4FE1;&#x606F;

代码

import requests
import re
import os
from lxml import etree
from fake_useragent import UserAgent

class doubanSpider(object):
    def __init__(self):
        if not os.path.exists('db/douban'):
            os.makedirs('db/douban')
        else:
            pass
        self.f = open('./db/douban/douban.txt', 'a', encoding='utf-8')

    def start(self):
        for i in range(46):
            headers = {
                'User-Agent': UserAgent().random
            }
            url = 'https://movie.douban.com/top250?start=' + str(i * 25)
            r = requests.get(url, headers=headers)
            html = etree.HTML(r.text)
            li_list = html.xpath('//*[@id="content"]/div/div[1]/ol/li')
            movies = []
            for each in li_list:
                movie = {}
                order = each.xpath('.//div/div[1]/em/text()')[0]
                movie['id'] = order
                cover = each.xpath('.//div/div[1]/a/img/@src')[0]
                movie['cover'] = cover
                name = each.xpath('.//div/div[2]/div[1]/a/span/text()')
                flag = ''
                for mo in name:
                    flag += mo
                movie['name'] = flag
                info = each.xpath('.//div/div[2]/div[2]/p[1]/text()[1]')[0].strip()
                info = info.replace("\n", "")
                info = info.replace("\xa0", "")
                director = re.findall(r'[&#x5BFC;&#x6F14;:].+[&#x4E3B;&#x6F14;:]', info)[0]
                director = director[4:len(director) - 3]
                movie['director'] = director
                try:
                    role = re.findall(r'&#x4E3B;.+', info)[0]
                    role = role[4:]
                except IndexError:
                    role = ''
                movie['role'] = role
                plot = each.xpath('.//div/div[2]/div[2]/p[1]/text()[2]')[0].strip()
                plot = plot.replace("\xa0", "")
                movie['plot'] = plot
                star = each.xpath('.//div/div[2]/div[2]/div/span[2]/text()')[0]
                movie['star'] = star
                try:
                    comment = each.xpath('.//div/div[2]/div[2]/p[2]/span/text()')[0]
                except IndexError:
                    comment = ''
                movie['comment'] = comment
                movies.append(movie)
                self.f.write(str(movie)+'\n')
                print(movie)

    def run(self):
        self.start()
        self.f.close()

if __name__ == '__main__':
    spider = doubanSpider()
    spider.run()

Original: https://www.cnblogs.com/ouhouyi/p/16410564.html
Author: 蚂蚁追风筝
Title: 一个豆瓣电影Top250爬虫

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/603075/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python实现人工神经网络回归模型(MLPRegressor算法)并基于网格搜索(GridSearchCV)进行优化项目实战

说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。 1.项目背景经济广告是指以营利为目的的广告，通常是商…

Python 2023年8月31日
0063
tensor中数据类型的相互转换

Pytorch中的Tensor常用的类型转换函数 tensor数据类型转换例如： a = tensor(282, device=’cuda:0′) b =…

Python 2023年8月28日
0043
Django实现多条件查询数据库的多种方式

一、使用原生SQL实现多条件筛选（extra）二、Django ORM 实现多条件筛选简单筛选 Q方法三、rest-framework提供的SearchFilter 四、dj…

Python 2023年8月3日
0070
Python数据分析：删除重复值df.drop_duplicates()

【小白从小学Python、C、Java】【Python-计算机等级考试二级】【Python-数据分析】Python数据分析删除重复值df.drop_duplicates() 选择题…

Python 2023年8月19日
0067
pytest+allure生成测试报告一直loading且404

pytest+allure生成测试报告一直loading且404 今天在使用pytest和allure生成测试报告时，pycharm和本地打开index.html文件均显示load…

Python 2023年9月9日
0037
Python基础（二十二）：文件操作

### 回答1：《 Python 基础_教程（第二版）.pdf》是一本经典的 _Python_编程教材。它由Magnus Lie Hetland编写，旨在帮助读者快速入门 _Py…

Python 2023年11月5日
0032
django登陆页面的创建

django登陆页面的创建 #1.先获取登陆页面的网页代码（鼠标右键->查看页面源代码）我们可以从Bootstrap网站中找到登陆页面，打开，将源代码复制下来#2.再Temp…

Python 2023年8月5日
0050
JWT token 相关配置 (全局配置身份认证重写Authenticate方法)

文章目录 * – 一. jwt 全局配置 – 1.settings配置 – 二. 配置jwt过期时间自定义返回的json数据 – …

Python 2023年8月3日
0042
深度学习炼丹-数据预处理和增强

一，数据增强概述二，opencv 图像增强-几何变换三，pytorch 图像增强四，imgaug 图像增强参考资料一，数据增强概述数据增强（也叫数据扩增）的目的是为了扩…

Python 2023年10月29日
0053
对抗自编码器（adversarial autoencoder）

目录前言实验 1 导入必要库函数并设置随机数等配置 2 加载并可视化MNIST数据 3 模型定义 4 模型训练 5 随机正态分布数据生成MNIST合成数据参考资料前言自编…

Python 2023年9月15日
0048
1.简介

1.简介 python的创始人为吉多·范罗苏姆（Guido van Rossum),创建于1989年的圣诞节期间，根据本人热爱的电视剧《蒙提·派森的飞行马戏团》（Monty Py…

Python 2023年10月31日
0024
pyspark 读取本地csv_pyspark 读取csv文件创建DataFrame的两种方法

pyspark 读取csv文件创建DataFrame的两种方法方法一：用pandas辅助 from pyspark import SparkContext from pyspar…

Python 2023年8月17日
0093
pandas DataFrame

认识DataFrame结构 DataFrame 一个表格型的数据结构，既有行标签（index），又有列标签（columns），它也被称异构数据表，所谓异构，指的是表格中每列的数据类…

Python 2023年8月17日
0046
Python 装饰器相关知识

登录认证，用得比较多，还有各类日志。模拟博客园登录，需求：在访问每个功能模块之前必须先验证是否已经登录，没有登录不让访问，如没有账号就注册一个再登录，三次登录不成功就退出整个程序…

Python 2023年6月10日
0058
使用pyttsx3实现简单tts服务

注册回调函数用于订阅事件。入参及出参 connect(topic : string, cb : callable) → dict topic ：订阅事件的名称，有效的名称 cb …

Python 2023年11月9日
0026
JWT简介

JWT简介在用户注册或登录后，我们想记录用户的登录状态，或者为用户创建身份认证的凭证。我们不再使用Session认证机制，而使用Json Web Token认证机制。 (1) 什…

Python 2023年6月11日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

一个豆瓣电影Top250爬虫

一个爬虫

模块

代码

大家都在看