scrapy爬取微信公众号内容，多管道储存，orm数据储存

2023年10月3日上午6:31 • Python • 阅读 39

scrapy基本操作

基本介绍：基于异步爬虫的框架。高性能的数据解析，高性能的持久化存储，全站数据爬取，增量式，分布式…
环境的安装：
Linux：

  pip install scrapy

Windows：

  a. pip install wheel

  b. &#x4E0B;&#x8F7D;twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

    - twisted&#x63D2;&#x4EF6;&#x662F;scrapy&#x5B9E;&#x73B0;&#x5F02;&#x6B65;&#x64CD;&#x4F5C;&#x7684;&#x4E09;&#x65B9;&#x7EC4;&#x4EF6;&#x3002;
  c. &#x8FDB;&#x5165;&#x4E0B;&#x8F7D;&#x76EE;&#x5F55;&#xFF0C;&#x6267;&#x884C; pip install Twisted&#x2011;17.1.0&#x2011;cp35&#x2011;cp35m&#x2011;win_amd64.whl

  d. pip install pywin32

  e. pip install scrapy

scrapy基本使用
1.创建一个工程： scrapy startproject proName
工程的目录结构：
- spiders文件夹：这里存放爬虫的主程序，这里可以写多个爬虫文件，分别执行不同的爬虫功能。
- 要求：必须要存储一个或者多页爬虫文件
- items.py：这个文件定义了爬虫程序中爬取的字段信息，对应着数据库中的属性信息。
- middlewares.py：下载中间件，可以对爬取到的网页信息尽心特定的处理。
- pipelines.py：管道，也就是将返回来的item字段信息写入到数据库，这里可以写写入数据库的代码。
- settings.py：配置文件。
2.创建爬虫文件
- cd proName
- scrapy genspider spiderName www.xxx.com
3.执行工程
- scrapy crawl spiderName
- 重点关注的日志信息：ERROR类型的日志信息
- settings.py：LOG_LEVEL = ‘ERROR’
- settings.py：不遵从robots协议
- settings.py:
- UA伪装：USER_AGENT = ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36’

;

settings.py代码参考以及配置意思的含义:


BOT_NAME = 'vx_account'

FEED_EXPORT_ENCODING = 'utf-8'

SPIDER_MODULES = ['vx_account.spiders']
NEWSPIDER_MODULE = 'vx_account.spiders'

USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'

ROBOTSTXT_OBEY = False

LOG_LEVEL = 'ERROR'

数据解析

 - &#x6570;&#x636E;&#x89E3;&#x6790;
    - &#x4F7F;&#x7528;xpath&#x8FDB;&#x884C;&#x6570;&#x636E;&#x89E3;&#x6790;
    - &#x6CE8;&#x610F;&#xFF1A;&#x4F7F;&#x7528;xpath&#x8868;&#x8FBE;&#x5F0F;&#x89E3;&#x6790;&#x51FA;&#x6765;&#x7684;&#x5185;&#x5BB9;&#x4E0D;&#x662F;&#x76F4;&#x63A5;&#x4E3A;&#x5B57;&#x7B26;&#x4E32;&#xFF0C;&#x800C;&#x662F;Selector&#x5BF9;&#x8C61;&#xFF0C;&#x60F3;&#x8981;&#x7684;
        &#x5B57;&#x7B26;&#x4E32;&#x6570;&#x636E;&#x662F;&#x5B58;&#x50A8;&#x5728;&#x8BE5;&#x5BF9;&#x8C61;&#x4E2D;&#x3002;
        - extract():&#x5982;&#x679C;xpath&#x8FD4;&#x56DE;&#x7684;&#x5217;&#x8868;&#x5143;&#x7D20;&#x6709;&#x591A;&#x4E2A;
        - extract_first()&#xFF1A;&#x5982;&#x679C;xpath&#x8FD4;&#x56DE;&#x7684;&#x5217;&#x8868;&#x5143;&#x7D20;&#x53EA;&#x6709;&#x4E00;&#x4E2A;

首先我们来看看我们要爬的网页

小知识点：

 - &#x6570;&#x636E;&#x89E3;&#x6790;
    - &#x4F7F;&#x7528;xpath&#x8FDB;&#x884C;&#x6570;&#x636E;&#x89E3;&#x6790;
    - &#x6CE8;&#x610F;&#xFF1A;&#x4F7F;&#x7528;xpath&#x8868;&#x8FBE;&#x5F0F;&#x89E3;&#x6790;&#x51FA;&#x6765;&#x7684;&#x5185;&#x5BB9;&#x4E0D;&#x662F;&#x76F4;&#x63A5;&#x4E3A;&#x5B57;&#x7B26;&#x4E32;&#xFF0C;&#x800C;&#x662F;Selector&#x5BF9;&#x8C61;&#xFF0C;&#x60F3;&#x8981;&#x7684;
        &#x5B57;&#x7B26;&#x4E32;&#x6570;&#x636E;&#x662F;&#x5B58;&#x50A8;&#x5728;&#x8BE5;&#x5BF9;&#x8C61;&#x4E2D;&#x3002;
        - extract():&#x5982;&#x679C;xpath&#x8FD4;&#x56DE;&#x7684;&#x5217;&#x8868;&#x5143;&#x7D20;&#x6709;&#x591A;&#x4E2A;
        - extract_first()&#xFF1A;&#x5982;&#x679C;xpath&#x8FD4;&#x56DE;&#x7684;&#x5217;&#x8868;&#x5143;&#x7D20;&#x53EA;&#x6709;&#x4E00;&#x4E2A;

打开spiders文件夹下爬虫文件
wechat/wechat/spiders/wechatspider.py

代码如下:


import scrapy

class WechatspiderSpider(scrapy.Spider):

    name = 'wechatspider'

    allowed_domains = ['mp.weixin.qq.com/s/kfIAZmK5bAOMHuuHnL_ZMw']

    start_urls = ['http://mp.weixin.qq.com/s/kfIAZmK5bAOMHuuHnL_ZMw']

    def parse(self, response):
        all_list = []
        course_list = response.xpath('//*[@id="js_content"]/section')

        for i in course_list:
            course_title = i.xpath('.//span//text()').extract_first()
            course_url = i.xpath('.//@href').extract_first()
            print(course_url)
            print(course_title)
            if course_title:
                dic = {
                    'course_title': course_title,
                    'course_url': course_url
                }
                all_list.append(dic)
        return all_list

持久化存储

- &#x6301;&#x4E45;&#x5316;&#x5B58;&#x50A8;
    - &#x57FA;&#x4E8E;&#x7EC8;&#x7AEF;&#x6307;&#x4EE4;&#x7684;&#x6301;&#x4E45;&#x5316;&#x5B58;&#x50A8;
        - &#x53EA;&#x53EF;&#x4EE5;&#x5C06;parse&#x65B9;&#x6CD5;&#x7684;&#x8FD4;&#x56DE;&#x503C;&#x5B58;&#x50A8;&#x5230;&#x5236;&#x5B9A;&#x540E;&#x7F00;&#x7684;&#x6587;&#x672C;&#x6587;&#x4EF6;&#x4E2D;
        - &#x5C40;&#x9650;&#x6027;&#xFF1A;
            - 1.&#x53EA;&#x53EF;&#x4EE5;&#x5C06;parse&#x65B9;&#x6CD5;&#x8FD4;&#x56DE;&#x503C;&#x8FDB;&#x884C;&#x6301;&#x4E45;&#x5316;&#x5B58;&#x50A8;
            - 2.&#x53EA;&#x53EF;&#x4EE5;&#x5C06;&#x6570;&#x636E;&#x5B58;&#x50A8;&#x5230;&#x6587;&#x4EF6;&#x4E2D;&#x65E0;&#x6CD5;&#x5199;&#x5165;&#x5230;&#x6570;&#x636E;&#x5E93;
        - &#x6307;&#x4EE4;&#xFF1A;scrapy crawl spiderName -o filePath
    - &#x57FA;&#x4E8E;&#x7BA1;&#x9053;&#x7684;&#x6301;&#x4E45;&#x5316;&#x5B58;&#x50A8;
        - 1.&#x5728;&#x722C;&#x866B;&#x6587;&#x4EF6;&#x4E2D;&#x8FDB;&#x884C;&#x6570;&#x636E;&#x89E3;&#x6790;
        - 2.&#x5728;items.py&#x6587;&#x4EF6;&#x4E2D;&#x5B9A;&#x4E49;&#x76F8;&#x5173;&#x7684;&#x5C5E;&#x6027;
            - &#x5C5E;&#x6027;&#x7684;&#x4E2A;&#x6570;&#x8981;&#x548C;&#x89E3;&#x6790;&#x51FA;&#x6765;&#x7684;&#x5B57;&#x6BB5;&#x4E2A;&#x6570;&#x540C;&#x6B65;
        - 3.&#x5C06;&#x89E3;&#x6790;&#x51FA;&#x6765;&#x7684;&#x6570;&#x636E;&#x5B58;&#x50A8;&#x5230;item&#x7C7B;&#x578B;&#x7684;&#x5BF9;&#x8C61;&#x4E2D;
        - 4.&#x5C06;item&#x63D0;&#x4EA4;&#x7ED9;&#x7BA1;&#x9053;
        - 5.&#x5728;&#x7BA1;&#x9053;&#x4E2D;&#x63A5;&#x6536;item&#x5BF9;&#x8C61;&#x4E14;&#x5C06;&#x8BE5;&#x5BF9;&#x8C61;&#x4E2D;&#x5B58;&#x50A8;&#x7684;&#x6570;&#x636E;&#x505A;&#x4EFB;&#x610F;&#x5F62;&#x5F0F;&#x7684;&#x6301;&#x4E45;&#x5316;&#x5B58;&#x50A8;
        - 6.&#x5728;&#x914D;&#x7F6E;&#x6587;&#x4EF6;&#x4E2D;&#x5F00;&#x542F;&#x7BA1;&#x9053;&#x673A;&#x5236;

基于终端指令的持久化存储
cd 项目文件下
用命令把爬取课程名和url地址存在本地

scrapy crawl wechatspider -o qwq.csv

基于管道的持久化存储
1.spider文件下得爬虫文件wechatspider.py


import scrapy
from wechat.wechat.items import WechatItem

class WechatspiderSpider(scrapy.Spider):

    name = 'wechatspider'

    allowed_domains = ['mp.weixin.qq.com/s/kfIAZmK5bAOMHuuHnL_ZMw']

    start_urls = ['http://mp.weixin.qq.com/s/kfIAZmK5bAOMHuuHnL_ZMw']

    def parse(self, response):

        all_list = []
        course_list = response.xpath('//*[@id="js_content"]/section')

        for i in course_list:
            course_title = i.xpath('.//span//text()').extract_first()
            course_url = i.xpath('.//@href').extract_first()
            print(course_url)
            print(course_title)

            item = WechatItem()
            item['course_title'] = course_title
            item['course_url'] = course_url

            yield item

2.items.py代码


import scrapy

class WechatItem(scrapy.Item):

    course_url = scrapy.Field()
    course_title = scrapy.Field()

3.去settings里开启管道配置。

-  300&#xFF1A;&#x8868;&#x793A;&#x7BA1;&#x9053;&#x7684;&#x4F18;&#x5148;&#x7EA7;&#xFF0C;&#x6570;&#x503C;&#x8D8A;&#x5C0F;&#x4F18;&#x5148;&#x7EA7;&#x8D8A;&#x9AD8;&#xFF0C;&#x4F18;&#x5148;&#x7EA7;&#x8D8A;&#x9AD8;&#x8868;&#x793A;&#x8BE5;&#x7BA1;&#x9053;&#x8D8A;&#x5148;&#x88AB;&#x6267;&#x884C;

4.1 封装管道类，把数据储存到txt文件里 ; pipelines.py代码:


from itemadapter import ItemAdapter

class WechatPipeline:
    fp = None

    def open_spider(self, spider):
        print('i am open_spider()')
        self.fp = open('./qwq.txt', 'w', encoding='utf-8')

    def process_item(self, item, spider):
        course_url = item['course_url']
        course_title = item['course_title']
        self.fp.write(course_url + ':' + course_title)

        return item

    def close_spider(self, spider):
        print('i am close_spider()')
        self.fp.close()

4.1 封装管道类，把数据储存到mysql里 ; pipelines.py代码:
，我比较懒，不喜写SQL语句，用sqlalchemy来处理的。

mysql 创建库:

create database wechat charset utf8mb4;

cd spiderst同级目录下
mkdir docs
新建models.py:

from sqlalchemy import Column, String, DateTime, Boolean, create_engine, Integer, Text, ForeignKey
from sqlalchemy.orm import sessionmaker, relationship

from sqlalchemy.ext.declarative import declarative_base
from alembic import op

Base = declarative_base()

class Course(Base):

    __tablename__ = 'course'

    gid = Column(Integer(), primary_key=True, comment='主键ID')
    course_url = Column(String(5000), comment="课程url")
    course_title = Column(String(50), comment='课程标题！')

执行命令:

alembic init migrations

修改alembic.ini、enc.py代码，参考：https://blog.csdn.net/yutu75/article/details/117362459
也可以自行百度如何迁移，

alembic revision –autogenerate -m “v1”

alembic upgrade head

去settings添加管道：
scrapy爬取微信公众号内容，多管道储存，orm数据储存

修改pipelines.py,代码:
下面封装了三个管道类：

txt文件，mysql，Redis


from wechat.docs.models import Course
from sqlalchemy import Column, String, DateTime, Boolean, create_engine, Integer, Text, ForeignKey
from sqlalchemy.orm import sessionmaker, relationship
import pandas as pd
import pymysql
import redis

from itemadapter import ItemAdapter

class MysqlPipeline:
    engine = None
    Session = None
    session = None

    def open_spider(self, spider):
        self.engine = create_engine('mysql+pymysql://root:123456@127.0.0.1:3306/wechat', echo=True)

        self.Session = sessionmaker(bind=self.engine)

        print(self.engine)

    def process_item(self, item, spider):
        course_url = item['course_url']
        course_title = item['course_title']
        self.session = self.Session()

        print('qwq')
        try:
            new_page = Course(course_title=course_title, course_url=course_url)
            self.session.add(new_page)
            self.session.commit()
        except Exception as e:
            print(e)
            self.session.rollback()
        return item

    def close_spider(self, spider):
        self.session.close()

class WechatPipeline:
    fp = None

    def open_spider(self, spider):
        print('i am open_spider()')
        self.fp = open('./qwq.txt', 'w', encoding='utf-8')

    def process_item(self, item, spider):
        course_url = item['course_url']
        course_title = item['course_title']
        if course_url is not None or course_title is not None:

            self.fp.write([course_title if course_title is not None else 'null'][0] + ':' + [course_url if course_url is not None else 'null'][0] + '\n')
        return item

    def close_spider(self, spider):
        print('i am close_spider()')
        self.fp.close()

class redisPipeLine:
    conn = None
    def open_spider(self,spider):
        self.conn = redis.Redis(host='192.168.152.128', port=6379)
    def process_item(self,item,spider):
        course_url = item['course_url']
        course_title = item['course_title']
        if course_url is not None or course_title is not None:

            self.conn.lpush('wechat', [course_title if course_title is not None else 'null'][0] + ':' + [course_url if course_url is not None else 'null'][0])
            return item

执行命令 :

scrapy crwal wechatspider

储存后的mysql：

储存后的redis：

储存后txt：

持久化储存的知识点总结

 - &#x6301;&#x4E45;&#x5316;&#x5B58;&#x50A8;
    - &#x57FA;&#x4E8E;&#x7EC8;&#x7AEF;&#x6307;&#x4EE4;&#x7684;&#x6301;&#x4E45;&#x5316;&#x5B58;&#x50A8;
        - &#x53EA;&#x53EF;&#x4EE5;&#x5C06;parse&#x65B9;&#x6CD5;&#x7684;&#x8FD4;&#x56DE;&#x503C;&#x5B58;&#x50A8;&#x5230;&#x5236;&#x5B9A;&#x540E;&#x7F00;&#x7684;&#x6587;&#x672C;&#x6587;&#x4EF6;&#x4E2D;
        - &#x5C40;&#x9650;&#x6027;&#xFF1A;
            - 1.&#x53EA;&#x53EF;&#x4EE5;&#x5C06;parse&#x65B9;&#x6CD5;&#x8FD4;&#x56DE;&#x503C;&#x8FDB;&#x884C;&#x6301;&#x4E45;&#x5316;&#x5B58;&#x50A8;
            - 2.&#x53EA;&#x53EF;&#x4EE5;&#x5C06;&#x6570;&#x636E;&#x5B58;&#x50A8;&#x5230;&#x6587;&#x4EF6;&#x4E2D;&#x65E0;&#x6CD5;&#x5199;&#x5165;&#x5230;&#x6570;&#x636E;&#x5E93;
        - &#x6307;&#x4EE4;&#xFF1A;scrapy crawl spiderName -o filePath
    - &#x57FA;&#x4E8E;&#x7BA1;&#x9053;&#x7684;&#x6301;&#x4E45;&#x5316;&#x5B58;&#x50A8;
        - 1.&#x5728;&#x722C;&#x866B;&#x6587;&#x4EF6;&#x4E2D;&#x8FDB;&#x884C;&#x6570;&#x636E;&#x89E3;&#x6790;
        - 2.&#x5728;items.py&#x6587;&#x4EF6;&#x4E2D;&#x5B9A;&#x4E49;&#x76F8;&#x5173;&#x7684;&#x5C5E;&#x6027;
            - &#x5C5E;&#x6027;&#x7684;&#x4E2A;&#x6570;&#x8981;&#x548C;&#x89E3;&#x6790;&#x51FA;&#x6765;&#x7684;&#x5B57;&#x6BB5;&#x4E2A;&#x6570;&#x540C;&#x6B65;
        - 3.&#x5C06;&#x89E3;&#x6790;&#x51FA;&#x6765;&#x7684;&#x6570;&#x636E;&#x5B58;&#x50A8;&#x5230;item&#x7C7B;&#x578B;&#x7684;&#x5BF9;&#x8C61;&#x4E2D;
        - 4.&#x5C06;item&#x63D0;&#x4EA4;&#x7ED9;&#x7BA1;&#x9053;
        - 5.&#x5728;&#x7BA1;&#x9053;&#x4E2D;&#x63A5;&#x6536;item&#x5BF9;&#x8C61;&#x4E14;&#x5C06;&#x8BE5;&#x5BF9;&#x8C61;&#x4E2D;&#x5B58;&#x50A8;&#x7684;&#x6570;&#x636E;&#x505A;&#x4EFB;&#x610F;&#x5F62;&#x5F0F;&#x7684;&#x6301;&#x4E45;&#x5316;&#x5B58;&#x50A8;
        - 6.&#x5728;&#x914D;&#x7F6E;&#x6587;&#x4EF6;&#x4E2D;&#x5F00;&#x542F;&#x7BA1;&#x9053;&#x673A;&#x5236;
    - &#x7BA1;&#x9053;&#x7EC6;&#x8282;&#x5904;&#x7406;
        - &#x5728;&#x914D;&#x7F6E;&#x6587;&#x4EF6;&#x4E2D;&#xFF0C;&#x7BA1;&#x9053;&#x5BF9;&#x5E94;&#x7684;&#x6570;&#x503C;&#x8868;&#x793A;&#x7684;&#x662F;&#x4F18;&#x5148;&#x7EA7;
        - &#x4EC0;&#x4E48;&#x60C5;&#x51B5;&#x4E0B;&#x9700;&#x8981;&#x4F7F;&#x7528;&#x591A;&#x4E2A;&#x7BA1;&#x9053;&#x7C7B;&#xFF1F;
            - &#x6570;&#x636E;&#x5907;&#x4EFD;&#x3002;&#x4E00;&#x4E2A;&#x7BA1;&#x9053;&#x7C7B;&#x8868;&#x793A;&#x5C06;&#x6570;&#x636E;&#x5B58;&#x50A8;&#x5230;&#x4E00;&#x79CD;&#x5F62;&#x5F0F;&#x7684;&#x8F7D;&#x4F53;&#x4E2D;&#x3002;
        - &#x60F3;&#x8981;&#x5C06;&#x6570;&#x636E;&#x5B58;&#x50A8;&#x5230;mysql&#x4E00;&#x4EFD;&#xFF0C;redis&#x4E00;&#x4EFD;&#xFF0C;&#x9700;&#x8981;&#x6709;&#x4E24;&#x4E2A;&#x7BA1;&#x9053;&#x7C7B;&#x6765;&#x5B9E;&#x73B0;&#x3002;
        - &#x5C0F;&#x77E5;&#x8BC6;&#x70B9;&#xFF1A;
            - &#x722C;&#x866B;&#x6587;&#x4EF6;&#x5411;&#x7BA1;&#x9053;&#x63D0;&#x4EA4;&#x7684;item&#x53EA;&#x4F1A;&#x63D0;&#x4EA4;&#x7ED9;&#x4F18;&#x5148;&#x7EA7;&#x6700;&#x9AD8;&#x7684;&#x90A3;&#x4E00;&#x4E2A;&#x7BA1;&#x9053;&#x7C7B;
            - proces_item&#x65B9;&#x6CD5;&#x4E2D;&#x7684;return item&#x7684;&#x4F5C;&#x7528;&#xFF1F;
                - &#x5C06;item&#x5BF9;&#x8C61;&#x63D0;&#x4EA4;&#x7ED9;&#x4E0B;&#x4E00;&#x4E2A;&#x5373;&#x5C06;&#x88AB;&#x6267;&#x884C;&#x7684;&#x7BA1;&#x9053;&#x7C7B;

redis的基础使用

- redis&#x6570;&#x636E;&#x5E93;&#x7684;&#x4F7F;&#x7528;
    - redis&#x662F;&#x4E00;&#x4E2A;&#x975E;&#x5173;&#x7CFB;&#x578B;&#x6570;&#x636E;&#x5E93;
        - &#x67E5;&#x770B;&#x6240;&#x6709;&#x6570;&#x636E;&#xFF1A;keys *
        - &#x5220;&#x9664;&#x6240;&#x6709;&#x6570;&#x636E;&#xFF1A;flushall
        - set&#x96C6;&#x5408;:
            - &#x63D2;&#x5165;&#x6570;&#x636E;sadd &#x96C6;&#x5408;&#x7684;&#x540D;&#x79F0;  &#x5B58;&#x50A8;&#x7684;&#x503C;
            - &#x67E5;&#x770B;&#x6570;&#x636E;&#xFF1A;smembers &#x96C6;&#x5408;&#x7684;&#x540D;&#x79F0;
            - set&#x96C6;&#x5408;&#x53EF;&#x4EE5;&#x53BB;&#x91CD;
        - list&#x5217;&#x8868;
            - &#x63D2;&#x5165;&#x6570;&#x636E;&#xFF1A;lpush &#x5217;&#x8868;&#x7684;&#x540D;&#x79F0; &#x63D2;&#x5165;&#x7684;&#x503C;
            - &#x67E5;&#x770B;&#x6570;&#x636E;&#xFF1A;lrange &#x5217;&#x8868;&#x540D;&#x79F0; 0  -1
            - &#x67E5;&#x770B;&#x957F;&#x5EA6;&#xFF1A;llen &#x5217;&#x8868;&#x540D;&#x79F0;
            - &#x53EF;&#x4EE5;&#x5B58;&#x50A8;&#x91CD;&#x590D;&#x7684;&#x6570;&#x636E;
    - &#x5728;redis&#x5B98;&#x7F51;&#x4E2D;&#x4E0B;&#x8F7D;&#x5B89;&#x88C5;redis&#x6570;&#x636E;&#x5E93;
    - 1.&#x542F;&#x52A8;redis&#x7684;&#x670D;&#x52A1;&#x5668;&#x7AEF;
        - redis-server
    - 2,&#x542F;&#x52A8;&#x5BA2;&#x6237;&#x7AEF;
        - redis-cli

全站数据爬取

 - &#x5168;&#x7AD9;&#x6570;&#x636E;&#x722C;&#x53D6;
    - &#x5C06;&#x6240;&#x6709;&#x9875;&#x7801;&#x5BF9;&#x5E94;&#x7684;&#x6570;&#x636E;&#x8FDB;&#x884C;&#x722C;&#x53D6;+&#x5B58;&#x50A8;
    - &#x624B;&#x52A8;&#x8BF7;&#x6C42;&#x53D1;&#x9001;&#xFF1A;
        - &#x901A;&#x8FC7;&#x4EE3;&#x7801;&#x7684;&#x5F62;&#x5F0F;&#x8FDB;&#x884C;&#x8BF7;&#x6C42;&#x53D1;&#x9001;
            - yield scrapy.Request(url,callback):
                - &#x53EF;&#x4EE5;&#x5BF9;&#x6307;&#x5B9A;url&#x53D1;&#x8D77;get&#x8BF7;&#x6C42;&#xFF0C;&#x56DE;&#x8C03;callback&#x8FDB;&#x884C;&#x6570;&#x636E;&#x89E3;&#x6790;
        - &#x624B;&#x52A8;&#x53D1;&#x8D77;post&#x8BF7;&#x6C42;&#xFF1A;
            - yield scrapy.FormRequest(url,formdata,callback)
    - &#x95EE;&#x9898;&#xFF1A;start_urls&#x5217;&#x8868;&#x4E2D;&#x7684;url&#x662F;&#x5982;&#x4F55;&#x53D1;&#x8D77;post&#x8BF7;&#x6C42;&#xFF1F;
         &#x91CD;&#x5199;&#x7236;&#x7C7B;&#x5982;&#x4E0B;&#x65B9;&#x6CD5;&#x5373;&#x53EF;&#xFF1A;
         def start_requests(self):
            for url in self.start_urls:
                yield scrapy.FormRequest(url=url,callback=self.parse)

Original: https://blog.csdn.net/yutu75/article/details/117445689
Author: 於兔シ
Title: scrapy爬取微信公众号内容，多管道储存，orm数据储存

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/790052/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Redis-基本概念、java操作redis、springboot整合redis，分布式缓存，分布式session管理等

NoSQL的引言 Redis数据库相关指令 Redis持久化相关机制 SpringBoot操作Redis Redis分布式缓存实现 Resis中主从复制架构和哨兵机制 Redis集…

Python 2023年6月10日
0073
mac安装Chromedriver以及运行问题

一、安装Chromedriver： 1、下载Chromedriver地址: http://chromedriver.storage.googleapis.com/index.htm…

Python 2023年6月11日
0072
GB/T 28181联网系统通信协议结构和技术实现

技术回顾在本文开头，我们先一起回顾下GB/T28181联网系统通信协议结构：联网系统在进行视音频传输及控制时应建立两个传输通道：会话通道和媒体流通道。会话通道用于在设备之…

Python 2023年10月23日
0037
基于容器的PaaS混合云的几种形式

概述这是 Gartner 的一个图，提供了全球的基于容器的 PaaS 公有云、混合云服务的梳理展示：这里提供一个其他的视角：中国市场，基于容器的 PaaS 混合云（公有云 + …

Python 2023年10月11日
0047
使用Python将DOTA数据集的格式转换成VOC2007数据集的格式

一、VOC2007数据集二、DOTA数据集三、将DOTA数据集的格式转换成VOC2007数据集的格式一、VOC2007数据集 VOC2007数据集的文件结构如下图所示。其中…

Python 2023年8月2日
0046
还在用饼状图？来瞧瞧这些炫酷的百分比可视化新图形（附代码实现）⛵

💡 作者：韩信子@ShowMeAI📘 数据分析实战系列：https://www.showmeai.tech/tutorials/40📘 本文地址：https://www.showm…

Python 2023年10月28日
0051
【PyTorch深度学习项目实战100例】—— 使用文心大模型ERNIE-ViLG生成图片 | 第1例

大家好，我是阿光。本专栏整理了《PyTorch深度学习项目实战100例》，内包含了各种不同的深度学习项目，包含项目原理以及源码，每一个项目实例都附带有完整的代码+数据集。正在更…

Python 2023年10月27日
0027
numpy基础入门

相关资料 100 练习 T5：如何从命令行得到numpy中add函数的说明文档? (★☆☆) import numpy as np np.info(np.add) T8：反转一个…

Python 2023年8月27日
0044
Python scrapy框架教学（四）：保存到数据库

保存到Redis数据库保存到数据库和保存到文件中格式类似的，只不过初始化的时候，将本来是打开文件的操作，转为连接数据库的操作。写入的时候将本来是写入到文件的操作转为写入到数据库中…

Python 2023年10月4日
0038
flask-socketio：入门

flask-socketio 入门初始化以下代码示例显示了如何将 Flask-SocketIO 添加到 Flask 应用程序： from flask import Flask,…

Python 2023年8月9日
0057
人工智能大报告（FlappyBird游戏AI训练）作业练习

环境配置 Pycharm 2020.1.5 Python3.8 CUDA（10.1）和cudnn(7.6.0) 需要安装的库有gym(0.18.3)、pygame(2.0.1)、t…

Python 2023年9月19日
0071
简单贪吃蛇python代码_python版本的简单贪吃蛇

先看看效果，白色的条是蛇(简单勿怪，有研究的同学请告知做的美观点)，做了一个笑脸是糖果，背景弄了一个图，代码也是从其他人那边弄来的，改了一部分直接可以在window上直接运行代…

Python 2023年9月24日
0030
如何使用Python处理Missing Data

Original: https://www.cnblogs.com/123456feng/p/16092678.htmlAuthor: 蚂蚁ailingTitle: 如何使用Pyt…

Python 2023年11月9日
0032
Glyph 26426 missing from current font. matplotlib显示中文乱码解决

网上关于这个问题的帖子也不少，但按照他们的方法尝试后，仍然解决不了我的问题。痛定思痛，花了一天时间看了不少matplotlib底层源码，终于把这个问题解决了。后来发现网上的很多方法…

Python 2023年9月5日
0040
yolov5目标框预测

yolov5目标检测模型中，对模型结构的描述较多，也容易理解。但对如何获得目标预测方面描述较少，或总感觉云山雾罩搞不清楚。最近查阅一些资料，并加上运行yolov5程序的感受，总结一…

Python 2023年9月30日
0053
Numpy库中矩阵相关操作(矩阵创建，截取，求和，方差，最大值)

import numpy as np 1.# # 创建一维的narray对象arr1，内有元素1，2，3，4，5，6，7，8，9要求使用arange()函数: arr1= np.a…

Python 2023年8月25日
0056

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

scrapy爬取微信公众号内容，多管道储存，orm数据储存

scrapy基本操作

大家都在看