1. 获取数据-requests.get()

1、爬虫的工作原理

获取数据–解析数据–提取数据–存储数据

1. 获取数据-requests.get()

2、获取数据

本质就是通过URL去向服务器发出请求,服务器再把相关内容封装成一个Response对象返回给我们,这是通过requests.get()实现 的。而我们获取到的Response对象 下有四个常用的方法(status_code、content、text、encoding)。

3、requests.get()

import requests #引入requests模块

res = requests.get(‘url’) # 向服务器请求数据,服务器返回的结果是个Response对象

print(type(res)) # 终端显示:

这代表着res是一个对象,属于requests.models.Response类。

3、response.status_code

用法:print(变量.status_code),

用来检查请求是否正确响应,如果响应状态码为200,即代表请求成功。

1. 获取数据-requests.get()

响应状态码表示服务器对请求的响应结果。例如,200代表服务器响应成功,403代表禁止访问,404代表页面未找到,408代表请求超时。浏览器会根据状态码做出相应的处理。在爬虫中,可以根据状态码来判断服务器的状态,如果状态码为200,则继续处理数据,否则直接忽略。

4、response.content

response.content能把Response对象的内容以二进制数据的形式返回,适用于图片、音频、视频的下载,示例:

import requests

#图片地址
URL=''https://img1.baidu.com/it/u=2076064484,1314795796&fm=253&fmt=auto&app=120&f=JPEG?w=531&h=309''
发出请求,并把返回的结果放在变量res中
res = requests.get(url)
把Reponse对象的内容以二进制数据的形式返回
pic = res.content

下载一个图片文件并命名为picture.jpg, 图片内容需要以二进制wb只写。
with open(r'C:\Users\Avery\Desktop\test\picture.jpg', 'wb') as f:
        # 获取pic的二进制内容,写入f
        f.write(pic)

这样我们图片就下载成功了!

5、response.text

response.text这个方法可以把Response对象的内容以字符串的形式返回,适用于文字、网页源代码的下载。示例如下:

import requests

文章地址
url = 'https://localprod.pandateacher.com/python-manuscript/crawler-html/sanguo.md'
发出请求,并把返回的结果放在变量res中
res = requests.get(url)
把Response对象的内容以字符串的形式返回
novel = res.text
#打印变量
print(novel[0:170])

6、response.encoding

response.encoding方法,它能帮我们定义Response对象的编码,示例如下:

import requests

文章地址
url = 'https://localprod.pandateacher.com/python-manuscript/crawler-html/sanguo.md'
发出请求,并把返回的结果放在变量res中
res = requests.get(url)
定义response对应的编码为utf-8
res.encoding = 'utf-8'
把Response对象的内容以字符串的形式返回
novel = res.text
打印变量
print(novel[0:170])

Original: https://blog.csdn.net/zhangke0426/article/details/123091882
Author: 一粒微尘_1
Title: 1. 获取数据-requests.get()

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/671680/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球