scrapy+selenium+超级鹰验证码识别登录古诗文网

2023年10月3日下午7:58 • Python • 阅读 74

文章目录

一、改写超级鹰api接口
二、用scrapy+selenium+超级鹰登录古诗文网
三、总结

一、改写超级鹰api接口

代码如下，main中注释的部分为原部分

#!/usr/bin/env python
coding:utf-8

import requests
from hashlib import md5

class Chaojiying_Client(object):

    def __init__(self, username, password, soft_id):
        self.username = username
        password =  password.encode('utf8')
        self.password = md5(password).hexdigest()
        self.soft_id = soft_id
        self.base_params = {
            'user': self.username,
            'pass2': self.password,
            'softid': self.soft_id,
        }
        self.headers = {
            'Connection': 'Keep-Alive',
            'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
        }

    def PostPic(self, im, codetype):
"""
        im: &#x56FE;&#x7247;&#x5B57;&#x8282;
        codetype: &#x9898;&#x76EE;&#x7C7B;&#x578B; &#x53C2;&#x8003; http://www.chaojiying.com/price.html
"""
        params = {
            'codetype': codetype,
        }
        params.update(self.base_params)
        files = {'userfile': ('ccc.jpg', im)}
        r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files, headers=self.headers)
        return r.json()

    def ReportError(self, im_id):
"""
        im_id:&#x62A5;&#x9519;&#x9898;&#x76EE;&#x7684;&#x56FE;&#x7247;ID
"""
        params = {
            'id': im_id,
        }
        params.update(self.base_params)
        r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)
        return r.json()

if __name__ == '__main__':
    chaojiying = Chaojiying_Client('&#x7528;&#x6237;&#x540D;', '&#x5BC6;&#x7801;', '914982')    #&#x7528;&#x6237;&#x4E2D;&#x5FC3;>>&#x8F6F;&#x4EF6;ID &#x751F;&#x6210;&#x4E00;&#x4E2A;&#x66FF;&#x6362; 96001
    im = open('a.jpg', 'rb').read()                                                 #&#x672C;&#x5730;&#x56FE;&#x7247;&#x6587;&#x4EF6;&#x8DEF;&#x5F84; &#x6765;&#x66FF;&#x6362; a.jpg &#x6709;&#x65F6;WIN&#x7CFB;&#x7EDF;&#x987B;&#x8981;//
    print (chaojiying.PostPic(im, 1902))                                                #1902 &#x9A8C;&#x8BC1;&#x7801;&#x7C7B;&#x578B;  &#x5B98;&#x65B9;&#x7F51;&#x7AD9;>>&#x4EF7;&#x683C;&#x4F53;&#x7CFB; 3.4+&#x7248; print &#x540E;&#x8981;&#x52A0;()

def get_captcha(image_name):
    chaojiying = Chaojiying_Client('&#x7528;&#x6237;&#x540D;', '&#x5BC6;&#x7801;', '914982')    #&#x7528;&#x6237;&#x4E2D;&#x5FC3;>>&#x8F6F;&#x4EF6;ID &#x751F;&#x6210;&#x4E00;&#x4E2A;&#x66FF;&#x6362; 96001
    im = open(image_name, 'rb').read()
    return chaojiying.PostPic(im, 8001)['pic_str']

这样引用chaojiying.py这个文件，调用get_captcha（）方法，传入图片名称就可以返回验证码数据了。

二、用scrapy+selenium+超级鹰登录古诗文网

分为三个步骤：

selenium登录网址，并且将整个网页截屏
获取验证码图片在网页中的x,y坐标位置，打开整页截屏的图片，通过该坐标截取验证码
引入超级鹰的api，将图片名称传给get_captcha（）方法，返回验证码信息

代码如下：

import scrapy
import time
from selenium import webdriver
from PIL import Image
import chaojiying

class LoginSpider(scrapy.Spider):
    name = 'login'
    allowed_domains = ['gushiwen.cn']
    start_urls = ['https://so.gushiwen.cn/user/login.aspx']
    personal = 'https://so.gushiwen.cn/user/collect.aspx'

    def start_requests(self):
        driver = webdriver.Chrome()
        driver.get(self.start_urls[0])

        driver.save_screenshot('gushiwen.png')
        imgElement = driver.find_element_by_id('imgCode')
        left = imgElement.location['x']
        top = imgElement.location['y']
        right = left + imgElement.size['width']
        bottom = top + imgElement.size['height']
        box = (left, top, right, bottom)
        screencut = Image.open('gushiwen.png')
        screencut.crop(box).save("截图后.png")

        code = chaojiying.get_captcha('截图后.png')

        driver.find_element_by_id('email').send_keys('你的用户名')
        time.sleep(1)
        driver.find_element_by_id('pwd').send_keys('你的密码')
        time.sleep(1)
        driver.find_element_by_id('code').send_keys(code)
        time.sleep(1)
        driver.find_element_by_id('denglu').click()
        time.sleep(1)

        cookies_dict = {cookie['name']: cookie['value'] for cookie in driver.get_cookies()}
        driver.close()

        yield scrapy.Request(url=self.personal,cookies=cookies_dict,callback=self.parse)

    def parse(self, response):
        print('这是在收藏中：',response.url)

用selenium登录获取的cookeis继续访问我的收藏，验证是否登录成功

可以看到，这里已经跳转到我的收藏中了，代表登录成功

三、总结

以上便是所有内容，有帮助的小伙伴可以点个赞，谢谢

Original: https://blog.csdn.net/wyl201010417/article/details/116903070
Author: 板栗呀
Title: scrapy+selenium+超级鹰验证码识别登录古诗文网

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/790495/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

LDA(线性判别分析(普通法))详解 —— matlab

目录前言正题 1.LDA的思想 2. 瑞利商（Rayleigh quotient）与广义瑞利商（genralized Rayleigh quotient） 3. 二类LDA原理…

Python 2023年9月16日
0038
IIS 配置集中式证书模块实现网站自动绑定证书文件

在 Windows 环境下如果采用 IIS 作为网站服务器时，常规的网站绑定 HTTPS 需要一个一个站点手动选择对应的证书绑定，而且证书过期之后更换证书时也是需要一个个重新绑定…

Python 2023年10月15日
0041
又一超好用的 Python 数据处理工具 Mito 前来报到

Mito是一款python编程语言集成的Excel数据处理工具，不仅能在线处理数据，更重要的能生成python处理数据过程的代码块。这里我们直接介绍 Mito 的安装过程，同样的…

Python 2023年8月24日
0058
Docker项目部署docker+flask+gunicorn

在Win10系统下利用Docker部署Gunicorn+Flask打造独立镜像首先简单看一下项目结构: manage.py是项目的入口文件，这里我们利用Sockert.io让Fl…

Python 2023年8月11日
0041
Windows上使用QEMU创建银河麒麟ARM64虚拟机完全手册

“好记性不如烂笔头。” —— 张溥 0x00 大纲 0x00 大纲 0x01 前言 0x02 物料准备 0x03 安装 QEMU 0x04 创建虚拟磁盘 0…

Python 2023年10月11日
00200
爬虫日记(23)：用scrapy快速地爬取蜂鸟网图片

前面的例子只使用几行代码，就可以快捷地下载了图片，这是使用工具的进步，也是时代的进步，更是我们思想的进步。因为商业的社会，快速地变现才能生存，才能更进一步去开发和研发新的东西。我们…

Python 2023年10月5日
0057
基于PyTorch的YOLOv5介绍

在PyTorch中使用YOLOv5YOLO是 “You only look once “的首字母缩写，是一个开源软件工具，它具有实时检测特定图像中物体的高效…

Python 2023年10月29日
0038
Django 测试平台搭建学习：admin 产品管理模块（一）

前言缺少全栈的练手项目，找了一本书《自动化平台测试开发：python测试开发实战》用来边做边练习，希望能坚持下来。中间几天又出去玩做了几天的废材，终究是不爱学习的人。第三章看了…

Python 2023年8月4日
0052
python pip安装seaborn sns以及失败解决方法 sns.load_dataset(“tips“)

python安装seaborn seaborn库是什么安装seaborn 失败的原因以及解决方法 * 网络原因 python版本依赖库不完整数据包不完整 – 解决…

Python 2023年8月31日
0050
Python中的sort()方法使用基础

参数解释：（1）iterable指定要排序的list或者iterable，不用多说；（2）cmp为函数，指定排序时进行比较的函数，可以指定一个函数或者lambda函数，如： s…

Python 2023年11月2日
0059
【机器学习】数据准备–python爬虫

前言我们在学习机器学习相关内容时，一般是不需要我们自己去爬取数据的，因为很多的算法学习很友好的帮助我们打包好了相关数据，但是这并不代表我们不需要进行学习和了解相关知识。在这里我们…

Python 2023年11月2日
0041
Docker容器获取宿主机信息

思路：在docker容器内安装ssh,sshpass服务,通过ssh连接到宿主机执行命令，获取宿主机信息（必须知道宿主机Ip和密码）步骤：安装服务 yum -y instal…

Python 2023年10月20日
0039
Pytorch模型model&data.to(device) | .cuda | .cpu()

模型model或数据data放到cpu或gpu上模型和数据需要在同一个设备上，才能正常运行： model和data都在cpu上 model和data都在gpu上 model = …

Python 2023年9月28日
0081
太空射击python

import random import pygame from os import path img_dir = path.join(path.dirname(__file__)…

Python 2023年11月1日
0027
项目中索引的真实应用场景-2022新项目

一、业务场景项目开发中，数据存储是一定少不了的，不管是存储关系型数据还是还是非关系型数据。可选择的范围也很广，比如mysql ，postgresql ，oracle,mongod…

Python 2023年10月24日
0031
python中的pygame弹球游戏代码_pygame实现弹球游戏

本文实例为大家分享了pygame实现弹球游戏的具体代码，供大家参考，具体内容如下 pygame弹球游戏写的很简陋 pip install pygame 安装pygame模块代码…

Python 2023年9月24日
0057

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

scrapy+selenium+超级鹰验证码识别登录古诗文网

文章目录

一、改写超级鹰api接口

二、用scrapy+selenium+超级鹰登录古诗文网

三、总结

大家都在看