requests模块

2023年6月8日上午5:32 • Linux • 阅读 106

掌握 headers参数的使用
掌握发送带参数的请求
掌握 headers中携带cookie
掌握 cookies参数的使用
掌握 cookieJar的转换方法
掌握超时参数timeout的使用
掌握代理ip参数proxies的使用
掌握使用verify参数忽略CA证书
掌握 requests模块发送post请求
掌握利用requests.session进行状态保持

前面我们了解了爬虫的基础知识，接下来我们来学习如何在代码中实现我们的爬虫

1. requests模块介绍

发送http请求，获取响应数据
pip/pip3 install requests

需求：通过requests向百度首页发送请求，获取该页面的源码
运行下面的代码，观察打印输出的结果

1.2.1-简单的代码实现
import requests

目标url
url = 'https://www.baidu.com'

向目标url发送get请求
response = requests.get(url)

打印响应内容
print(response.text)

2. response响应对象

观察上边代码运行结果发现，有好多乱码；这是因为编解码使用的字符集不同早造成的；我们尝试使用下边的办法来解决中文乱码问题

1.2.2-response.content
import requests

目标url
url = 'https://www.baidu.com'

向目标url发送get请求
response = requests.get(url)

打印响应内容
print(response.text)
print(response.content.decode()) # 注意这里！

response.text
类型：str
解码类型： requests模块自动根据HTTP 头部对响应的编码作出有根据的推测，推测的文本编码
response.content
类型：bytes
解码类型：没有指定
response.content.decode() 默认utf-8
response.content.decode("GBK")
常见的编码字符集
utf-8
gbk
gb2312
ascii （读音：阿斯克码）
iso-8859-1

response = requests.get(url)中response是发送请求获取的响应对象；response响应对象中除了text、content获取响应内容以外还有其它常用的属性或方法：

response.url响应的url；有时候响应的url和请求的url并不一致
response.status_code 响应状态码
response.request.headers 响应对应的请求头
response.headers 响应头
response.request._cookies 响应对应请求的cookie；返回cookieJar类型
response.cookies 响应的cookie（经过了set-cookie动作；返回cookieJar类型
response.json()自动将json字符串类型的响应内容转换为python对象（dict or list）

1.2.3-response其它常用属性
import requests

目标url
url = 'https://www.baidu.com'

向目标url发送get请求
response = requests.get(url)

打印响应内容
print(response.text)
print(response.content.decode())            # 注意这里！
print(response.url)                         # 打印响应的url
print(response.status_code)                 # 打印响应的状态码
print(response.request.headers)             # 打印响应对象的请求头
print(response.headers)                     # 打印响应头
print(response.request._cookies)            # 打印请求携带的cookies
print(response.cookies)                     # 打印响应中携带的cookies

3. requests模块发送请求

我们先写一个获取百度首页的代码

import requests

url = 'https://www.baidu.com'

response = requests.get(url)

print(response.content.decode())

打印响应对应请求的请求头信息
print(response.request.headers)

requests.get(url, headers=headers)

headers参数接收字典形式的请求头
请求头字段名作为key，字段对应的值作为value

从浏览器中复制User-Agent，构造headers字典；完成下面的代码后，运行代码查看结果

import requests

url = 'https://www.baidu.com'

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

在请求头中带上User-Agent，模拟浏览器发送请求
response = requests.get(url, headers=headers)

print(response.content)

打印请求头信息
print(response.request.headers)

我们在使用百度搜索的时候经常发现url地址中会有一个 ?，那么该问号后边的就是请求参数，又叫做查询字符串

直接对含有参数的url发起请求

import requests

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

url = 'https://www.baidu.com/s?wd=python'

response = requests.get(url, headers=headers)

1.构建请求参数字典

2.向接口发送请求的时候带上参数字典，参数字典设置给params

import requests

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

这是目标url
url = 'https://www.baidu.com/s?wd=python'

最后有没有问号结果都一样
url = 'https://www.baidu.com/s?'

请求参数是一个字典 即wd=python
kw = {'wd': 'python'}

带上请求参数发起请求，获取响应
response = requests.get(url, headers=headers, params=kw)

print(response.content)

网站经常利用请求头中的Cookie字段来做用户访问状态的保持，那么我们可以在headers参数中添加Cookie，模拟普通用户的请求。我们以github登陆为例：

从浏览器中复制User-Agent和Cookie
浏览器中的请求头字段和值与headers参数中必须一致
headers请求参数字典中的Cookie键对应的值是字符串

import requests

url = 'https://github.com/USER_NAME'

构造请求头字典
headers = {
    # 从浏览器中复制过来的User-Agent
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36',
    # 从浏览器中复制过来的Cookie
    'Cookie': 'xxx这里是复制过来的cookie字符串'
}

请求头参数字典中携带cookie字符串
resp = requests.get(url, headers=headers)

print(resp.text)

在打印的输出结果中搜索title，html中的标题文本内容如果是你的github账号，则成功利用headers参数携带cookie，获取登陆后才能访问的页面

上一小节我们在headers参数中携带cookie，也可以使用专门的cookies参数

import requests

url = 'https://github.com/USER_NAME'

构造请求头字典
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'
}
构造cookies字典
cookies_str = '从浏览器中copy过来的cookies字符串'

cookies_dict = {cookie.split('=')[0]:cookie.split('=')[-1] for cookie in cookies_str.split('; ')}

请求头参数字典中携带cookie字符串
resp = requests.get(url, headers=headers, cookies=cookies_dict)

print(resp.text)

使用requests获取的resposne对象，具有cookies属性。该属性值是一个cookieJar类型，包含了对方服务器设置在本地的cookie。我们如何将其转换为cookies字典呢？

在平时网上冲浪的过程中，我们经常会遇到网络波动，这个时候，一个请求等了很久可能任然没有结果。
在爬虫中，一个请求很久没有结果，就会让整个项目的效率变得非常低，这个时候我们就需要对请求进行强制要求，让他必须在特定的时间内返回结果，否则就报错。

import requests

url = 'https://twitter.com'
response = requests.get(url, timeout=3)     # 设置超时时间

proxy代理参数通过指定代理ip，让代理ip对应的正向代理服务器转发我们发送的请求，那么我们首先来了解一下代理ip以及代理服务器

前边提到proxy参数指定的代理ip指向的是正向的代理服务器，那么相应的就有反向服务器；现在来了解一下正向代理服务器和反向代理服务器的区别

为了让服务器以为不是同一个客户端在请求；为了防止频繁向一个域名发送请求被封ip，所以我们需要使用代理ip；那么我们接下来要学习requests模块是如何使用代理ip的

用法：

response = requests.get(url, proxies=proxies)

proxies的形式：字典
例如：

proxies = {
    "http": "http://12.34.56.79:9527",
    "https": "https://12.34.56.79:9527",
}

注意：如果proxies字典中包含有多个键值对，发送请求时将按照url地址的协议来选择使用相应的代理ip

在使用浏览器上网的时候，有时能够看到下面的提示（2018年10月之前的12306网站）：

运行下面的代码将会抛出包含 ssl.CertificateError ...字样的异常

import requests
url = "https://sam.huat.edu.cn:8443/selfservice/"
response = requests.get(url)

为了在代码中能够正常的请求，我们使用 verify=False参数，此时requests模块发送请求将不做CA证书的验证：verify参数能够忽略CA证书的认证

import requests
url = "https://sam.huat.edu.cn:8443/selfservice/"
response = requests.get(url,verify=False)

4. requests模块发送post请求

思考：哪些地方我们会用到POST请求？

登录注册（在web工程师看来POST 比 GET 更安全，url地址中不会暴露用户的账号密码等信息）
需要传输大文本内容的时候（ POST 请求对数据长度没有要求）

所以同样的，我们的爬虫也需要在这两个地方回去模拟浏览器发送post请求

response = requests.post(url, data)
data参数接收一个字典
*requests模块发送post请求函数的其它参数和发送get请求的参数完全一致

下面面我们通过金山翻译的例子看看post请求如何使用：

data = {
    'f': 'auto', # 表示被翻译的语言是自动识别
    't': 'auto', # 表示翻译后的语言是自动识别
    'w': '人生苦短' # 要翻译的中文字符串
}

了解requests模块发送post请求的方法，以及分析过移动端的百度翻译之后，我们来完成代码

import requests
import json

class King(object):

    def __init__(self, word):
        self.url = "http://fy.iciba.com/ajax.php?a=fy"
        self.word = word
        self.headers = {
            "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"
        }
        self.post_data = {
            "f": "auto",
            "t": "auto",
            "w": self.word
        }

    def get_data(self):
        response = requests.post(self.url, headers=self.headers, data=self.post_data)
        # 默认返回bytes类型，除非确定外部调用使用str才进行解码操作
        return response.content

    def parse_data(self, data):

        # 将json数据转换成python字典
        dict_data = json.loads(data)

        # 从字典中抽取翻译结果
        try:
            print(dict_data['content']['out'])
        except:
            print(dict_data['content']['word_mean'][0])

    def run(self):
        # url
        # headers
        # post——data
        # 发送请求
        data = self.get_data()
        # 解析
        self.parse_data(data)

if __name__ == '__main__':
    # king = King("人生苦短，及时行乐")
    king = King("China")
    king.run()
    # python标准库有很多有用的方法，每天看一个标准库的使用

5. 利用requests.session进行状态保持

requests模块中的Session类能够自动处理发送请求获取响应过程中产生的cookie，进而达到状态保持的目的。接下来我们就来学习它

requests.session的作用
自动处理cookie，即 下一次请求会带上前一次的cookie
requests.session的应用场景
自动处理连续的多次请求过程中产生的cookie

session实例在请求了一个网站后，对方服务器设置在本地的cookie会保存在session中，下一次再使用session请求对方服务器的时候，会带上前一次的cookie

session = requests.session() # 实例化session对象
response = session.get(url, headers, ...)
response = session.post(url, data, ...)

session对象发送get或post请求的参数，与requests模块发送请求的参数完全一致

使用requests.session来完成github登陆，并获取需要登陆后才能访问的页面

import requests
import re

构造请求头字典
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36',
}

实例化session对象
session = requests.session()

访问登陆页获取登陆请求所需参数
response = session.get('https://github.com/login', headers=headers)
authenticity_token = re.search('name="authenticity_token" value="(.*?)" />', response.text).group(1) # 使用正则获取登陆请求所需参数

构造登陆请求参数字典
data = {
    'commit': 'Sign in', # 固定值
    'utf8': '✓', # 固定值
    'authenticity_token': authenticity_token, # 该参数在登陆页的响应内容中
    'login': input('输入github账号：'),
    'password': input('输入github账号：')
}

发送登陆请求（无需关注本次请求的响应）
session.post('https://github.com/session', headers=headers, data=data)

打印需要登陆后才能访问的页面
response = session.get('https://github.com/1596930226', headers=headers)
print(response.text)

session = requests.session()

response = session.get(‘https://github.com/login‘, headers=headers)
authenticity_token = re.search(‘name=”authenticity_token” value=”(.*?)” />’, response.text).group(1) # 使用正则获取登陆请求所需参数

data = {
‘commit’: ‘Sign in’, # 固定值
‘utf8’: ‘✓’, # 固定值
‘authenticity_token’: authenticity_token, # 该参数在登陆页的响应内容中
‘login’: input(‘输入github账号：’),
‘password’: input(‘输入github账号：’)
}

response = session.get('https://github.com/1596930226', headers=headers)
print(response.text)

Original: https://www.cnblogs.com/Slience-me/p/16341829.html
Author: Slience_me
Title: requests模块

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/585863/

转载文章受原作者版权保护。转载请注明原作者出处！

Linux

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

QML 信号与响应方法的总结

如果面试过程中，面试官想了解你对 Qt 的理解有多少，少不了会涉及到信号槽这一块，毕竟这是 Qt 最经典的一项技术。刚开笔，我可能有点狂妄了。信号槽，分为两部分，信号和对信号响…

Linux 2023年6月6日
00104
青春浙江微信平台如何退出？如何重新登录？微信如何清除浏览器缓存，如何清除浏览器cookies?

青春浙江不能退出重新登录，有同学可能寻找解决方法，给大家贴出来：bug 解决办法：1. debugmm.qq.com/?forcex5=true 打开调试2. http://deb…

Linux 2023年6月14日
00122
使用多线程提高REST服务器性能

异步处理REST服务 1、使用Runnable异步处理Rest服务释放主线程，启用副线程进行处理，副线程处理完成后直接返回请求主要代码 import java.util.con…

Linux 2023年6月7日
00111
面试题目汇总

目录： 1、数字数组数字数组2、字符串字符串3、链表链表4、二叉树二叉树 5、堆栈堆栈 posted @2019-12-11 20:35 风御之举阅读(63 ) 评论() 编…

Linux 2023年6月13日
0083
shell加密

如何保护自己编写的shell程序要保护自己编写的shell脚本程序，方法有很多，最简单的方法有两种：1、加密 2、设定过期时间，下面以shc工具为例说明：一、下载安装shc工具s…

Linux 2023年5月28日
0080
人人都写过的5个Bug！

大家好，我是良许。计算机专业的小伙伴，在学校期间一定学过 C 语言。它是众多高级语言的鼻祖，深入学习这门语言会对计算机原理、操作系统、内存管理等等底层相关的知识会有更深入的了解，…

Linux 2023年5月27日
00126
Linux下info page指令

在所有的Unix Like系统当中，都可以利用man 来查询指令或者是相关文件的用法；但是，在Linux里面则又额外提供了一种在线求助的方法，那就是利用info这个好用的家伙啦！基…

Linux 2023年6月8日
0081
Linux同时输出到管道和标准输出

想使用Shell脚本对某文本文件中无序的一列数字排序并输出求和结果，文本如下所示： 421350 开头的命令只能输出求和结果，不能同时输出排序结果： [En] The comman…

Linux 2023年5月27日
0077
同一台电脑生成多份ssh私钥和公钥，映射多个GitHub账号

当我们使用 Git 进行代码版本控制时，经常出现一台电脑需要连接多个Git 账号的情况，此时需要在一台电脑上生成多份 ssh 私钥和密钥，同时映射多个 Git 账号；这里我们需要同…

Linux 2023年6月14日
0076
tar压缩提示file changed as we read it

压缩文件夹，过程中某个文件有变化，会提示 file changed as we read it 。不太确定是压缩到这里就中断了，还是压缩完，才提示的这个错误。测试一下做个实验，…

Linux 2023年6月8日
00163
python学习

python中的字符串以双引号或者单引号表示长度为L：第一个字节索引为0或-L 最后一个字节索引为L-1或-1 in是二元关系操作，用来判断左侧内容是否在右侧的集合中 float…

Linux 2023年6月6日
0096
cpu idle 状态查看【原创】

查看cpu idle的类型 cat /sys/devices/system/cpu/cpu0/cpuidle/state0/desc ARM WFI 查看cpu idle进入的次数…

Linux 2023年6月8日
00102
linux–文件系统

才开始接触linux是这样：这个是shell界面根目录下的文件： linux在路径中不使用盘符；采用的是虚拟目录（根目录’/’ 就是一个虚拟目录），…

Linux 2023年6月14日
0099
TortoiseGit使用

一：TortoiseGit安装以及配置 1.1、安装包 TortoiseGit以及配套安装包见链接： git下载链接 Download PuTTY TortoiseGit下载 …

Linux 2023年6月13日
0080
Go函数下篇：defer和闭包

package main import "fmt" func work() int { num := 10 defer func(i int) { i += 2…

Linux 2023年6月7日
0088
微信白名单获取

公司在微信WIFI登录项目中，需要在BRAS设备上添加微信服务器的IP地址到白名单列表中，以实现用户连接热点后，能够使用微信中的功能（如：添加公众号），但不能使用其他应用进行上网操…

Linux 2023年6月14日
00103

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30