Scrapy爬虫基本命令 | 各类配置文件的使用 | 其他的爬虫小技巧

2023年10月1日上午5:39 • Python • 阅读 80

爬虫基本命令

新建项目

在开始爬取之前，必须创建一个新的Scrapy项目。进入自定义的项目目录中，在终端下运行下列命令：

scrapy startproject mySpider

生成爬虫文件

生成爬虫名是itcast, 爬虫允许的域名是 itcast.cn
这里爬虫允许爬取的域名范围
如果后面修改代码时增加了其他域名,需要在这里进行修改

scrapy genspider itcast "itcast.cn"
>> &#x4EE3;&#x7801;&#x53D8;&#x5316;&#x793A;&#x4F8B;&#x5982;&#x4E0B;:
name = "itcast"
allow_domains = ['itcast.cn']

启动爬虫文件

在终端使用命令行:

Scrapy crawl itcast

制作爬虫启动文件:

from scrapy import cmdline

&#x722C;&#x866B;&#x542F;&#x52A8;&#x6587;&#x4EF6;
cmdline.execute("scrapy crawl baidu_news".split())

scrapy常用参数:

encoding: 使用默认的 ‘utf-8’ 就行。
dont_filter: 表明该请求不由调度器过滤。这是当你想使用多次执行相同的请求,忽略重复的过滤器。默认为False。
errback: 指定错误处理函数
method:请求一般不需要指定，默认GET方法，可设置为”GET”, “POST”, “PUT”等，且保证字符串大写

xpath基本语法:

表达式结果内容/bookstore/book[price>35.00]选取bookstore下book元素price 元素的值须大于 35.00。//title[@la=’eng’]选取所有title元素，且这些元素拥有值为 eng 的 la 属性。/bookstore/book[1]选取属于 bookstore 的第一个 book 元素。//a/text()选取a标签下的内容//a/@href选取 a 标签下的href属性的值

模块编写

middleware.py

在middleware.py下编写随机user-agent库,请求随机提取一个user-agent
需要在setting.py打开DOWNLOADER_MIDDLEWARES,并且更改内容

import random

#&#x6BCF;&#x6B21;&#x8BF7;&#x6C42;&#x8BBE;&#x7F6E;&#x968F;&#x673A;user-agent
class BaiduDownloaderMiddleware(object):
    user_agents = [
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60",
    "Mozilla/5.0 (Windows NT 5.1; U; en; rv:1.8.1) Gecko/20061208 Firefox/2.0.0 Opera 9.50",
    # Firefox
    "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0",
    "Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10",
    # Safari
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version/5.1.7 Safari/534.57.2",
    # chrome
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11",
    # &#x730E;&#x8C79;&#x6D4F;&#x89C8;&#x5668;
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; LBBROWSER)",
    # QQ&#x6D4F;&#x89C8;&#x5668;
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; QQBrowser/7.0.3698.400)",
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)",
    # sogou&#x6D4F;&#x89C8;&#x5668;
    "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 Safari/535.11 SE 2.X MetaSr 1.0",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SV1; QQDownload 732; .NET4.0C; .NET4.0E; SE 2.X MetaSr 1.0)",
    # UC&#x6D4F;&#x89C8;&#x5668;
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 UBrowser/4.0.3214.0 Safari/537.36",
    ]
    def process_request(self,request,spider):
        user_agent = random.choice(self.user_agents)
        request.headers['User-Agent'] = user_agent

items.py

规定好要爬取的字段

import scrapy

class DmozItem(scrapy.Item):
    title = scrapy.Field()
    link = scrapy.Field()
    desc = scrapy.Field()

需要在spider.py文件中添加

from ..items import DmozItem

pipeline.py

以下操作都需要在setting中打开配置ITEM_PIPELINES,并且更改内容
保存json

import json

class BibiPipeline(object):
    def process_item(self, item, spider):
        with open('bibi.json','a') as fp:
            json.dump(item,fp,ensure_ascii=False)
            print("{}&#x4FDD;&#x5B58;&#x6210;&#x529F;".format(item['&#x9898;&#x76EE;']))

保存txt

class BookSpiderPipeline(object):
    def process_item(self, item, spider):
        with open('%s.txt'%item['&#x5206;&#x7C7B;'],'a',encoding='utf-8') as fp:
            fp.writelines('&#x9898;&#x76EE; &#xFF1A;{}\n&#x5185;&#x5BB9;&#xFF1A;{}url:{}'.format(item['title'],item['content'],item['url']))
            fp.write('\n')

保存csv

import csv

headers = ['&#x5C55;&#x793A;&#x9762;&#x6599;', '&#x7FBD;&#x6BDB;&#x7403;&#x62CD;&#x7B49;&#x7EA7;', '&#x7EA7;&#x522B;', '&#x670D;&#x88C5;&#x539A;&#x5EA6;&#x6307;&#x6570;', '&#x670D;&#x88C5;&#x5F39;&#x529B;&#x6307;&#x6570;', '&#x978B;&#x8F6F;&#x786C;&#x6307;&#x6570;', '&#x978B;&#x900F;&#x6C14;&#x6307;&#x6570;', '&#x4E52;&#x4E53;&#x914D;&#x4EF6;&#x5206;&#x7C7B;', '&#x6545;&#x4E8B;&#x5305;', '&#x8FD0;&#x52A8;&#x9879;&#x76EE;', '&#x7FBD;&#x62CD;&#x6700;&#x9AD8;&#x78C5;&#x6570;', '&#x652F;&#x4ED8;&#x65B9;&#x5F0F;', '&#x4EA7;&#x54C1;&#x540D;&#x79F0;', '&#x7FBD;&#x62CD;&#x91CD;&#x91CF;&#x7B49;&#x7EA7;', '&#x5546;&#x54C1;&#x7C7B;&#x578B;', '&#x7FBD;&#x62CD;&#x6027;&#x80FD;&#x7279;&#x70B9;', '&#x7FBD;&#x6BDB;&#x7403;&#x7403;&#x901F;', '&#x5C55;&#x793A;&#x6545;&#x4E8B;&#x5305;', '&#x5546;&#x54C1;&#x540D;&#x79F0;', '&#x7FBD;&#x62CD;&#x4E2D;&#x6746;&#x786C;&#x5EA6;', '&#x5C55;&#x793A;&#x79D1;&#x6280;', '&#x4EA7;&#x54C1;&#x89C4;&#x683C;/&#x5C3A;&#x5BF8;/&#x539A;&#x5EA6;', '&#x978B;&#x5E95;', '&#x8FD0;&#x52A8;&#x7C7B;&#x578B;', '&#x989C;&#x8272;', '&#x5546;&#x54C1;&#x4EF7;&#x683C;', '&#x6B3E;&#x578B;', '&#x5C55;&#x793A;&#x4EA7;&#x54C1;&#x7CFB;&#x5217;', '&#x5E97;&#x94FA;&#x6D3B;&#x52A8;', '&#x54C1;&#x724C;&#x540D;&#x79F0;', '&#x4EA7;&#x54C1;&#x7CFB;&#x5217;', '&#x4E52;&#x4E53;&#x6210;&#x62CD;&#x7C7B;&#x578B;', '&#x6027;&#x522B;']
class JingdongPipeline(object):
    def process_item(self, item, spider):
        with open('lining.csv', 'a', encoding='utf-8',newline='') as fp:
            writer = csv.DictWriter(fp, headers)
            writer.writerow(item)
        print(item)

保存到mysql

from pymysql import *

class BaiduPipeline(object):
    def process_item(self, item, spider):
        # &#x914D;&#x7F6E;&#x94FE;&#x63A5;&#x6570;&#x636E;&#x5E93;
        conn = connect(
            host='127.0.0.1',
            port=3306,
            user='root',
            password='123456',
            database='news_baidu',
            charset="utf8",
        )
        # &#x6E38;&#x6807;
        cur = conn.cursor()

        sql = "insert into b_news(title,url,content) values ('{}','{}','{}')".format(item['title'],item['url'],item['content'])
        try:
            cur.execute(sql)
            conn.commit()
        except Exception as err:
            print(err)
            conn.rollback()

        cur.close()
        conn.close()
        return item

setting.py:

LOG_LEVEL = “WARNING” 显示警告以上的提示信息
DOWNLOAD_DELAY = 1 设置每次请求的时间间隔
CONCURRENT_REQUESTS = 32 设置同一时间最大的请求并发数

注意: DOWNLOAD_DELAY 会影响 CONCURRENT_REQUESTS，不能使并发显现出来

ROBOTSTXT_OBEY = False True为遵守robots.txt,反之则相反
DEFAULT_REQUEST_HEADERS 会覆盖默认的请求头

DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
  'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
}

其他爬取经验

带cookie爬取

setting中的COOKIES_ENABLED默认是True,但是最好还是打开

cookie = "gr_user_id=0be58042-245c-4efb-9647-942ad4a313f7; grwng_uid=c8d15705-e672-469f-b10f-541d77c6a2fe; AGL_USER_ID=2b2f99a4-ffe0-475c-90d9-0e3278de8277; 8de2f524d49e13e1_gr_last_sent_cs1=1546032; preference_select=preference_select; report_prompt_disc=1; 8de2f524d49e13e1_gr_session_id=cb2df81a-f14d-41cb-846b-e8ede5abebc0; 8de2f524d49e13e1_gr_last_sent_sid_with_cs1=cb2df81a-f14d-41cb-846b-e8ede5abebc0; 8de2f524d49e13e1_gr_session_id_cb2df81a-f14d-41cb-846b-e8ede5abebc0=true; Hm_lvt_ec1d5de03c39d652adb3b5432ece711d=1582278877,1582358901,1582359990,1582373249; Hm_lpvt_ec1d5de03c39d652adb3b5432ece711d=1582373249; 8de2f524d49e13e1_gr_cs1=1546032; Hm_lvt_40163307b5932c7d36838ff99a147621=1582278877,1582358901,1582359990,1582373249; Hm_lpvt_40163307b5932c7d36838ff99a147621=1582373249; userinfo_id=1546032; NO_REFRESH_JWT=1; POP_USER=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJ3ZWJzaXRlIjoiMSIsImp3dFR5cGUiOiJvZmZpY2lhbCIsImV4cCI6MTU4NDk1MjAwMywidXNlciI6eyJjbGllbnRJZCI6IjVlNTExOTgwYmQxNzMyLjI3NDg0OTcwIiwidXNlcklkIjoxNTQ2MDMyLCJjaGlsZElkIjoiIiwibW9iaWxlIjoiMTc2NDAyNDQzMDYiLCJhY2NvdW50IjoiMTc2NDAyNDQzMDYiLCJpcCI6IjExMS4zNS4yMDkuMzEiLCJ1c2VyX2Zyb20iOiIxIiwiY2hlY2tJcE51bSI6ZmFsc2V9fQ.F1GEGa0W_tNNSeo-bt2ri3bRZGMCP6vBjXN-A6UkBWc; POP_UID=6d2d52a39457829a93155b1fb31125b0"
        cookies = {i.split('=')[0]: i.split('=')[1] for i in cookie.split(';')}
        yield scrapy.Request(
            url=detial_url,
            callback=self.parse_detail,
            cookies=cookies,
            meta={"info":title}
        )

拼接url

自带response.urljoin(url) 方法

传递爬取的参数

在函数之间传递爬取的参数必要时要使用deepcopy()

#&#x4F20;&#x8F93;:
meta={"info":(title,detail_url,type_,content)}
yield scrapy.Request(
                url=detail_url,
                meta={"info":(title,detail_url,type_,content)},
                callback=self.parse_detail
            )

#&#x5728;&#x65B0;&#x51FD;&#x6570;&#x4E2D;&#x63A5;&#x6536;:
title,url,type_,content = response.meta.get('info')

#deepcopy&#x793A;&#x4F8B;:
meta={"item": deepcopy(item)}

输出使用gb18030解码:

import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')

使用正则的非贪婪模式匹配域名

base = re.findall("(https|http)://(.*?)/", new_url)[0][1]

json和字符串的转换

&#x5C06;json&#x8F6C;&#x5316;&#x4E3A;str
json_str = json.dumps(books,ensure_ascii=False)
ensure_ascii=False  &#x4E0D;&#x8FDB;&#x884C;&#x7F16;&#x7801;

str&#x8F6C;&#x5316;&#x4E3A;json
json = json.loads(json_str)

start_requests

若设置这一行，那么start_urls会无用，通常用于构造post请求和构造初始请求列表

def start_requests(self):
    urls = ['http://lab.scrapyd.cn/page/1/','http://lab.scrapyd.cn/page/2/']
    for url in urls:
        yield scrapy.Request(url=url, callback=self.parse)

scrapy.FormRequest

用于构造POST请求，scrapy.Request也可以发送post请求
但是Request的请求不能携带formdata，即post的参数

FormRequest
yield scrapy.FormRequest(
    url="http://192.168.29.54:8080/resale/list{}.do".format(key.capitalize()),
    formdata={"page":"1"},
    meta={'key':key},
    callback=self.parse_is_detail
)

Request
yield scrapy.Request(
    url="http://192.168.29.54:8080/resale/list{}.do".format(key.capitalize()),
    methon = 'POST',
    meta={'key':key},
    callback=self.parse_is_detail
)

pyexecjs，python执行JS

当网页存在反爬，需要解析JS时，从前端抓包找到对应的JS，然后用python执行JS，返回值作为request的参数进行查询

Original: https://blog.csdn.net/lijiamingccc/article/details/124219822
Author: 加油strive
Title: Scrapy爬虫基本命令 | 各类配置文件的使用 | 其他的爬虫小技巧

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/788525/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

这回稳了，蓝桥杯才是yyds！

为了提高自己的编程能力，很多人会选择参加比赛。而这些比赛中，连续三年入选”全国普通高校学科竞赛排行榜”的蓝桥杯大赛，可以综合测评加分，优先奖学金评定、升学考…

Python 2023年10月8日
0062
强化学习-学习笔记8 | Q-learning

上一篇笔记认识了Sarsa，可以用来训练动作价值函数(Q_\pi)；本篇来学习Q-Learning，这是另一种 TD 算法，用来学习最优动作价值函数 Q-star，这就是之前价值…

Python 2023年10月25日
0054
用Python写一个新年倒计时

❤️‍🔥前言：春回大地，万象更新!春在招手，朋友们，我们一起互相祝愿吧!一年更比一年好。时光苒，岁月如梭。踏着新年欢快的钟声，我们又迎来了这个期待已久的日子过去的一年，我们有泪水也…

Python 2023年10月7日
0067
Spring源码学习笔记12——总结篇,IOC，Bean的生命周期，三大扩展点

参考了Spring 官网文&#x6863…

Python 2023年10月22日
0055
python3.6升级pip21.1后导致不兼容报错NoReturn解决方法

pip21 报错处理，降级 python3.6升级pip21.1后导致不兼容， Traceback (most recent call last):File “C:\…

Python 2023年8月13日
0087
steam/csgo搬砖项目真的假的？

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年11月6日
0052
Django_simpleui 笔记

文章目录前言一、Django+simpleui * 1、Django安装 2、simpleui模板的安装二、配置Django SimpleUI打造个性化后台（定制化平台） *…

Python 2023年8月6日
0067
Python xx直聘 | 数据分析师岗位 | 分析可视化

关注微信公共号：小程在线关注CSDN博客：程志伟的博客 import numpy as npimport pandas as pdfrom pyecharts.charts im…

Python 2023年8月21日
0077
Python中random函数用法整理

目录 [1. random.random(): 返回随机生成的一个浮点数，范围在0,1)之间 [2. random.uniform(a, b): 返回随机生成的一个浮点数，范围在a…

Python 2023年8月24日
0045
不用再找了，这就是全网最全的异常检测方法总结

大家好，今天正好趁着周末，收集整理全网最常使用的异常检测方法（附资料来源和代码），喜欢记得收藏、点赞、关注。注：技术交流文末获取一、基于分布的方法 1. 3sigma 基于正…

Python 2023年10月24日
0036
云原生之旅 – 10）手把手教你安装 Jenkins on Kubernetes

前言谈到持续集成工具就离不开众所周知的Jenkins，本文带你了解如何在 Kubernetes 上安装 Jenkins，后续文章会带你深入了解如何使用k8s pod 作为 Jen…

Python 2023年10月15日
0045
PHP将PDF转图片-实战

Windows环境下一、开启 Imagick 扩展 1、安装PHP扩展：Imagick，下载地址 https://pecl.php.net/package/imagick 注意和…

Python 2023年9月28日
0048
Go 语言入门 2-集合(map)的特性及实现原理

go 语言中的集合(map)，跟其他语言的 hashmap， dict 功能相似，主要是用于存储 kv 结构的数据，不仅保障了 key 的唯一性，还提供了 O(1) 的性能。我…

Python 2023年6月11日
0076
[python]scrapy框架爬取站长之间图片板块

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年10月4日
0058
数据驱动！精细化运营！用机器学习做客户生命周期与价值预估！⛵

💡 作者：韩信子@ShowMeAI📘 机器学习实战系列：https://www.showmeai.tech/tutorials/41📘 本文地址：https://www.showm…

Python 2023年10月24日
0045
NumPy初级

1000 次性能对⽐ %timeit python_sum(1000) %timeit numpy_sum(1000) 10W 次性能对⽐ %timeit python_sum(1…

Python 2023年8月28日
0055

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31