使用scrapy爬取北京公交

2023年10月2日上午8:02 • Python • 阅读 54

环境

pycharm

安装好scrapy

创建一个scrapy项目

在pycharm中的命令行界面创建一个beijingbus的scrapy项目

D:\python\beibusTest>scrapy startproject beijingbus
#&#x8FD9;&#x91CC;&#x7684;D:\python\beibusTest>&#x662F;&#x6211;&#x81EA;&#x5DF1;&#x4F7F;&#x7528;&#x7684;&#x8DEF;&#x5F84;&#xFF0C;&#x81EA;&#x5DF1;&#x53EF;&#x4EE5;&#x8BBE;&#x7F6E;&#x81EA;&#x5DF1;&#x60F3;&#x8981;&#x5C06;&#x9879;&#x76EE;&#x4FDD;&#x5B58;&#x7684;&#x8DEF;&#x5F84;

切换到beijingbus目录，并使用genspider创建一个spider

D:\python\beibusTest>cd beijingbus

D:\python\beibusTest\beijingbus>scrapy genspider bei_bus beijing.8684.cn

使用pycharm打开我们创建的beijingbus项目

找到自己项目的路径（像我D:\python\beibusTest\beijingbus）

beijingbus/spiders/：放置spider代码的目录，用于编写用户自定义的爬虫

beijingbus/items.py：项目中的item文件，用于定义用户要抓取的字段

beijingbus/middlewares.py：主要是对功能的拓展，用于用户添加一些自定义的功能

beijingbus/pipelines.py：管道文件，当spider抓取到内容（item）以后，会被送到这里，这些信息在这里会被清洗，去重，保存到数据或者数据库

beijingbus/settings.py：项目的设置文件，用来设置爬虫的默认信息，及相关功能的开启与否，如是否遵循robots协议，设置默认的hesder等

开始编写代码：

进入settings.py将ROBOTSTXT_OBEY的参数改为False，使爬虫不遵循Robots协议

ROBOTSTXT_OBEY = False

将DEFAULT_REQUEST_HEADERS方法注释掉，添加User-Agent属性

DEFAULT_REQUEST_HEADERS = {
   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
   'Accept-Language': 'en',
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 '
                 '(KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36'
}

User-Agent的获取方法（打开浏览器，右键检查（或者f12）——Network——Headers）

(此操作是为了实现模拟浏览器访问的效果)

进入bei_bus.py文件：

1.先爬取一级网页

代码：

进入bei_bus.py文件

#&#x5BF9;&#x81EA;&#x52A8;&#x751F;&#x6210;&#x7684;start_urls&#x8FDB;&#x884C;&#x4FEE;&#x6539;&#xFF0C;&#x6539;&#x6210;&#x5982;&#x4E0B;
import scrapy

class BeiBusSpider(scrapy.Spider):
    name = 'bei_bus'
    allowed_domains = ['beijing.8684.cn']
    start_urls = 'http://beijing.8684.cn/'

    def start_requests(self):
        for page in range(1):  #&#x8FD9;&#x91CC;&#x6211;&#x53EA;&#x722C;&#x53D6;&#x4E86;list1,&#x53EF;&#x4EE5;&#x81EA;&#x5DF1;&#x9009;&#x62E9;&#x52A0;&#x5FAA;&#x73AF;&#x6761;&#x4EF6;
            url = '{url}/list{page}'.format(url=self.start_urls, page=(page+1))  #&#x662F;&#x5728;&#x6784;&#x5EFA;&#x4E00;&#x7EA7;&#x7F51;&#x9875;&#x7684;&#x7F51;&#x5740;
            yield FormRequest(url, callback=self.parse_index)

    def parse(self, response):
        pass

在pycharm中的命令行界面（Terminal）执行’scrapy crawl bei_bus’可以实现一级网页的爬取：

2.再爬取二级网页

import scrapy
from scrapy import Spider, FormRequest, Request
from urllib.parse import urljoin

class BeiBusSpider(scrapy.Spider):
    name = 'bei_bus'
    allowed_domains = ['beijing.8684.cn']
    start_urls = 'http://beijing.8684.cn/'

    def start_requests(self):  # start_requests&#x65B9;&#x6CD5;&#x56FA;&#x5B9A;
        for page in range(1):
            url = '{url}/list{page}'.format(url=self.start_urls, page=(page+1))
            yield FormRequest(url, callback=self.parse_index)

    def parse_index(self, response):
        beijingbus = response.xpath('//div[@class="list clearfix"]/a//@href').extract()  #&#x722C;&#x53D6;&#x4E8C;&#x7EA7;&#x7F51;&#x9875;
        for href in beijingbus:
            url2 = urljoin(self.start_urls, href)  #&#x62FC;&#x63A5;&#x4E8C;&#x7EA7;&#x7F51;&#x9875;
            yield Request(url2, callback=self.parse_detail)

    def parse_detail(self, response):
        pass

    def parse(self, response):
        pass

在pycharm中的命令行界面（Terminal）执行’scrapy crawl bei_bus’可以实现二级网页的爬取：

3.再爬取详细信息

#&#x8FD9;&#x4E5F;&#x662F;bei_bus.py&#x4E2D;&#x7684;&#x5B8C;&#x6574;&#x4EE3;&#x7801;

import scrapy
from scrapy import Spider, FormRequest, Request
from urllib.parse import urljoin
from ..items import BeijingbusItem

class BeiBusSpider(scrapy.Spider):
    name = 'bei_bus'
    allowed_domains = ['beijing.8684.cn']
    start_urls = 'http://beijing.8684.cn/'

    # &#x4E00;&#x7EA7;&#x7F51;&#x9875;
    def start_requests(self):
        for page in range(1):
            url = '{url}/list{page}'.format(url=self.start_urls, page=(page+1))
            yield FormRequest(url, callback=self.parse_index)

    # &#x4E8C;&#x7EA7;&#x7F51;&#x9875;
    def parse_index(self, response):
        #&#x4F7F;&#x7528;xpath&#x5BFB;&#x627E;&#x8BE6;&#x7EC6;&#x4FE1;&#x606F;&#x9875;&#x9762;&#x7684;url&#xFF0C;&#x5177;&#x4F53;&#x7528;&#x6CD5;&#x53EF;&#x4EE5;&#x641C;&#x7D22;&#x201C;xpath&#x8BED;&#x6CD5;&#x201D;
        beijingbus = response.xpath('//div[@class="list clearfix"]/a//@href').extract()  # extract()&#x65B9;&#x6CD5;&#x8868;&#x793A;&#x7B26;&#x5408;&#x6761;&#x4EF6;&#x7684;&#x6240;&#x6709;&#x6587;&#x672C;
        for href in beijingbus:
            url2 = urljoin(self.start_urls, href)  # urljoin()&#x65B9;&#x6CD5;&#x62FC;&#x63A5;url
            # yield&#x518D;&#x6B21;&#x53D1;&#x8D77;&#x7F51;&#x9875;&#x8BBF;&#x95EE;&#xFF0C;callback&#x540E;&#x7684;&#x65B9;&#x6CD5;&#x7528;&#x4E8E;&#x56DE;&#x8C03;&#x51FD;&#x6570;&#xFF0C;&#x53EF;&#x4EE5;&#x5728;&#x56DE;&#x8C03;&#x51FD;&#x6570;&#x4E2D;&#x5BF9;&#x7F51;&#x9875;&#x8FDB;&#x884C;&#x5904;&#x7406;
            yield Request(url2, callback=self.parse_detail)

&#x4E0B;&#x9762;&#x662F;&#x722C;&#x53D6;&#x8BE6;&#x7EC6;&#x9875;&#x7684;&#x4EE3;&#x7801;&#xFF1A;
    def parse_detail(self,response):
        bus_name = response.xpath('//div[@class="info"]/h1//text()').extract_first()  # extract_frist()&#x65B9;&#x6CD5;&#x7528;&#x4E8E;&#x8FD4;&#x56DE;&#x7B26;&#x5408;&#x6761;&#x4EF6;&#x7684;&#x7B2C;&#x4E00;&#x4E2A;&#x6570;&#x636E;
        bus_time = response.xpath('//div[@class="info"]/ul/li[1]//text()').extract_first()
        bus_type = response.xpath('//div[@class="info"]/ul/li[2]//text()').extract_first()
        #&#x683C;&#x5F0F;&#x5316;&#x6570;&#x636E;
        bus_item = BeijingbusItem()
        for field in bus_item.fields:
            bus_item[field] = eval(field)  # eval() &#x51FD;&#x6570;&#x7528;&#x6765;&#x6267;&#x884C;&#x4E00;&#x4E2A;&#x5B57;&#x7B26;&#x4E32;&#x8868;&#x8FBE;&#x5F0F;&#xFF0C;&#x5E76;&#x8FD4;&#x56DE;&#x8868;&#x8FBE;&#x5F0F;&#x7684;&#x503C;
        yield bus_item
        # pass

    def parse(self, response):
        pass

在pycharm中的命令行界面（Terminal）执行’scrapy crawl bei_bus’可以实现详细页面的爬取：

（上图只是一部分）

进入items.py文件，修改其中的class以格式化数据

import scrapy

class BeijingbusItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    bus_name = scrapy.Field()
    bus_type = scrapy.Field()
    bus_time = scrapy.Field()
    # pass

在数据库中创建数据表（shuju）并设置编码格式：

create table shuju(
bus_name varchar(100),
bus_time varchar(100),
bus_type varchar(100)
)CHARACTER SET utf8;

在settings.py中：

&#x6587;&#x672B;&#x6DFB;&#x52A0;&#x5982;&#x4E0B;&#x5185;&#x5BB9;
DB_HOST = 'localhost'
DB_USER = 'root'
DB_PWD = '123456'
DB = 'test'  # &#x6570;&#x636E;&#x5E93;&#x3000;
DB_CHARSET = 'utf8'

&#x5C06;ITEM_PIPELINES &#x65B9;&#x6CD5;&#x7684;&#x6CE8;&#x91CA;&#x53BB;&#x6389;&#xFF0C;&#x5E76;&#x5C06;&#x5176;&#x4E2D;&#x7684;&#x5185;&#x5BB9;&#x6539;&#x4E3A;&#x5982;&#x4E0B;&#xFF1A;
ITEM_PIPELINES = {
    'beijingbus.pipelines.BeijingbusPipeline': 300,  # &#x6570;&#x5B57;&#x4EE3;&#x8868;&#x4F18;&#x5148;&#x7EA7;&#xFF0C;&#x6570;&#x5B57;&#x8D8A;&#x5C0F;&#xFF0C;&#x4F18;&#x5148;&#x7EA7;&#x8D8A;&#x9AD8;
}

在pipelines.py文件中：

from . import settings
import pymysql

#&#x4FEE;&#x6539;&#x7C7B;&#x4E3A;BeijingbusPipeline&#xFF0C;&#x6DFB;&#x52A0;&#x521D;&#x59CB;&#x5316;&#x65B9;&#x6CD5;&#xFF0C;&#x5C06;host,user,pwd,b,charset&#x4ECE;settings&#x4E2D;&#x8BFB;&#x53D6;&#x51FA;&#x6765;&#xFF0C;&#x5E76;&#x901A;&#x8FC7;&#x4E00;&#x4E2A;connect()&#x65B9;&#x6CD5;&#x5EFA;&#x7ACB;&#x4E0E;&#x6570;&#x636E;&#x5E93;&#x7684;&#x8FDE;&#x63A5;
class BeijingbusPipeline:
    # &#x521D;&#x59CB;&#x5316;&#x65B9;&#x6CD5;
    def __init__(self):
        self.host = settings.DB_HOST
        self.user = settings.DB_USER
        self.pwd = settings.DB_PWD
        self.db = settings.DB
        self.charset = settings.DB_CHARSET
        self.connect()

    # &#x5EFA;&#x7ACB;&#x4E0E;&#x6570;&#x636E;&#x7684;&#x8FDE;&#x63A5;
    def connect(self):
        # &#x8FDE;&#x63A5;&#x6570;&#x636E;&#x5E93;&#xFF0C;&#x521B;&#x5EFA;&#x4E00;&#x4E2A;&#x6570;&#x636E;&#x5E93;&#x5BF9;&#x8C61;
        self.conn = pymysql.connect(host=self.host,
                                    user=self.user,
                                    password=self.pwd,
                                    db=self.db,
                                    charset=self.charset
                                    )
        # &#x5F00;&#x542F;&#x6E38;&#x6807;&#x529F;&#x80FD;&#xFF0C;&#x521B;&#x5EFA;&#x6E38;&#x6807;&#x5BF9;&#x8C61;
        self.cursor = self.conn.cursor()  # &#x8FD9;&#x91CC;&#x4F7F;&#x7528;&#x7684;&#x662F;&#x6570;&#x636E;&#x5E93;&#x5BF9;&#x8C61;self.conn&#x4E2D;&#x7684;cursor()&#x65B9;&#x6CD5;

    # &#x5B9E;&#x73B0;process_item&#x65B9;&#x6CD5;&#xFF0C;&#x7528;&#x4E8E;&#x5B8C;&#x6210;&#x5411;&#x6570;&#x636E;&#x5E93;&#x4E2D;&#x63D2;&#x5165;&#x6570;&#x636E;&#x7684;&#x64CD;&#x4F5C;
    def process_item(self, item, spider):
        sql = 'insert into shuju(bus_name,bus_time,bus_type) values ("%s","%s","%s")'%(item['bus_name'], item['bus_time'], item['bus_type'])
        # &#x6267;&#x884C;SQL&#x8BED;&#x53E5;
        self.cursor.execute(sql)  # &#x4F7F;&#x7528;execute&#x65B9;&#x6CD5;&#x6267;&#x884C;SQL&#x8BED;&#x53E5;
        self.conn.commit()  # &#x63D0;&#x4EA4;&#x5230;&#x6570;&#x636E;&#x5E93;&#x6267;&#x884C;
        return item

    # &#x7528;&#x4E8E;&#x5173;&#x95ED;&#x6570;&#x636E;&#x5E93;&#x7684;&#x8FDE;&#x63A5;
    def close_spiders(self):
        self.conn.close()
        self.cursor.close()

关于更多的python操作mysql数据库(cursor（）游标讲解)可以参考下面这篇文章的讲解：

https://www.jb51.net/article/177865.htm

（转载别人的链接，如有侵权望作者告知，本人立即删除）

最后在pycharm中的命令行界面（Terminal）执行’scrapy crawl bei_bus’，再查看数据表：

Original: https://blog.csdn.net/qq_45925324/article/details/111763883
Author: 败北L
Title: 使用scrapy爬取北京公交

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/789327/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Django–前后端分离-后端（二）实现简单的登陆接口进行跨域

前后端分离-登陆接口实现跨域一、创建login项目 1、创建testBackends项目（如果做过第一章节这里可以跳过） django-admin startproject te…

Python 2023年8月4日
0050
Matplotlib入门[05]——注释与标签

Matplotlib入门[05]——注释与标签参考： https://ailearning.apachecn.org/ Matplotlib官网 plt.legend参数使用J…

Python 2023年9月3日
0055
数据分析 pandas库常用操作（中）

1、如何避免SettingWithCopyWarning 2、pandas数据排序 3、字符串处理 4、pandas的axis参数的理解 5、pandas的index索引的理解 6…

Python 2023年8月6日
0051
TensorFlow搭建模型方式总结

TensorFlow提供了多种API，使得入门者和专家可以根据自己的需求选择不同的API搭建模型。基于Keras Sequential API搭建模型 Sequential适用于…

Python 2023年11月2日
0050
conda镜像源及常用命令

查看源 conda config –show-sources 添加仓库 conda config –add channels https://mirrors.tuna.tsin…

Python 2023年9月8日
0040
如何读取或转换PCD点云文件

一、Python方式 1.Open3D 2.直接用python读取并保存成bin格式 3.pypcd 二、C++方式 1.Open3D 读取pcd文件(因为我的点云是ZED相机获得…

Python 2023年8月23日
0055
Django 聚合分组F与Q查询及choices

需要导入模块：from django.db.models import Max, Min, Sum, Count, Avg 关键语法：aggregate(聚合结果别名 = 聚合函数…

Python 2023年10月31日
0028
pyinstaller打包exe文件太大，利用pipenv轻松解决

最近写了一些PyQt5的应用打包的时候生成exe应用文件实在太大了，看了几种办法可以解决。最后觉得使用pipenv的虚拟环境解决起来比较方便，所以在这里记录一下。【阅读全文】首…

Python 2023年5月24日
0070
python实现VaR和CVaR的计算

python实现VaR和CVaR的计算 * – + 1.引言 + 2.问题 + * 2.1问题描述 * 2.2 问题解析 + 3. 数据导入与数据预处理 + 4.VaR…

Python 2023年8月1日
0047
python之dataframe写excel合并单元格_python之DataFrame写excel合并单元格

pandas中的to_excel方法只能对索引进行合并，而xlsxwriter中，虽然提供有merge_range方法，但是这只是一个和基础的方法，每次都需要编写繁琐的测试才能最终…

Python 2023年8月21日
0048
python 爬虫抓取高清美女壁纸源码附上

本人比较喜欢收集壁纸，发现53PIN.com动漫分类下的壁纸，我都很喜欢；于是写了个爬虫，只需要输入你需要爬几页，就可以爬几页。环境准备 python3.8 需要用到的第三方包 …

Python 2023年5月24日
0071
WinDbg Preview安装以及符号表配置

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 弹尽粮绝，会员救园：…

Python 2023年10月19日
0058
SpringCloud-Ribbon

SpringCloud-Ribbon 1. Ribbon概述 Spring Cloud Ribbon是一个基于HTTP和TCP的客户端负载均衡工具，它基于 Netflix Rib…

Python 2023年10月11日
0024
Fantastic-Matplotlib 第一回

Fantastic-Matplotlib第一回 Fantastic-Matplotlib Matplotlib初相识 * 1.1 认识matplotlib 1.2 一个最简单的绘图…

Python 2023年9月1日
0044
Nginx（二)

视频链接：https://www.bilibili.com/video/BV1zJ411w7SV/?vd_source=9545770e4a2968c05878ffac8589ec…

Python 2023年11月7日
0051
JUC中的AQS底层详细超详解

摘要：当你使用java实现一个线程同步的对象时，一定会包含一个问题：你该如何保证多个线程访问该对象时，正确地进行阻塞等待，正确地被唤醒？ java中AQS究竟是做什么的？当你使用…

Python 2023年10月17日
0062

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

使用scrapy爬取北京公交

大家都在看