1. 获取数据-requests.get()

2023年7月5日上午11:26 • 人工智能 • 阅读 108

1、爬虫的工作原理

获取数据–解析数据–提取数据–存储数据

2、获取数据

本质就是通过URL去向服务器发出请求，服务器再把相关内容封装成一个Response对象返回给我们，这是通过requests.get()实现的。而我们获取到的Response对象下有四个常用的方法（status_code、content、text、encoding）。

3、requests.get()

import requests #引入requests模块

res = requests.get(‘url’) # 向服务器请求数据，服务器返回的结果是个Response对象

print(type(res)) # 终端显示：

这代表着res是一个对象，属于requests.models.Response类。

3、response.status_code

用法：print(变量.status_code)，

用来检查请求是否正确响应，如果响应状态码为200，即代表请求成功。

响应状态码表示服务器对请求的响应结果。例如，200代表服务器响应成功，403代表禁止访问，404代表页面未找到，408代表请求超时。浏览器会根据状态码做出相应的处理。在爬虫中，可以根据状态码来判断服务器的状态，如果状态码为200，则继续处理数据，否则直接忽略。

4、response.content

response.content能把Response对象的内容以二进制数据的形式返回，适用于图片、音频、视频的下载，示例：

import requests

#图片地址
URL=''https://img1.baidu.com/it/u=2076064484,1314795796&fm=253&fmt=auto&app=120&f=JPEG?w=531&h=309''
发出请求，并把返回的结果放在变量res中
res = requests.get(url)
把Reponse对象的内容以二进制数据的形式返回
pic = res.content

下载一个图片文件并命名为picture.jpg， 图片内容需要以二进制wb只写。
with open(r'C:\Users\Avery\Desktop\test\picture.jpg', 'wb') as f:
        # 获取pic的二进制内容,写入f
        f.write(pic)

这样我们图片就下载成功了！

5、response.text

response.text这个方法可以把Response对象的内容以字符串的形式返回，适用于文字、网页源代码的下载。示例如下：

import requests

文章地址
url = 'https://localprod.pandateacher.com/python-manuscript/crawler-html/sanguo.md'
发出请求，并把返回的结果放在变量res中
res = requests.get(url)
把Response对象的内容以字符串的形式返回
novel = res.text
#打印变量
print(novel[0:170])

6、response.encoding

response.encoding方法，它能帮我们定义Response对象的编码，示例如下：

import requests

文章地址
url = 'https://localprod.pandateacher.com/python-manuscript/crawler-html/sanguo.md'
发出请求，并把返回的结果放在变量res中
res = requests.get(url)
定义response对应的编码为utf-8
res.encoding = 'utf-8'
把Response对象的内容以字符串的形式返回
novel = res.text
打印变量
print(novel[0:170])

Original: https://blog.csdn.net/zhangke0426/article/details/123091882
Author: 一粒微尘_1
Title: 1. 获取数据-requests.get()

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/671680/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

图像处理之高通滤波器与低通滤波器

目录高频与低频区分：高通滤波器： 1.傅里叶变换：低通滤波器：总结：高频与低频区分：在了解图像滤波器之前，先谈一下如何区分图像的高频信息和低频信息，所谓高频就是该像素点…

人工智能 2023年7月25日
0077
如何成为一名数据分析师？

数据分析工作岗位：偏业务：数据分析师、商业分析、数据运营偏技术：数据分析工程师、数据开发工程师、数据挖掘、机器学习、数据科学不同行业数据指标含义短视频行业pv、uv等电商行业…

人工智能 2023年6月11日
0058
yolov5+deepsort目标检测与跟踪

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档 提示：这&#x91…

人工智能 2023年7月27日
0053
DataFrame对行列的基本操作实战

1、pandas对行列的基本操作命令： import numpy as np import pandas as pd from pandas import Sereis, Data…

人工智能 2023年6月2日
0087
知识图谱|学习笔记|《知识图谱概念与技术》肖仰华——第1章知识图谱概述

知识图谱概述文章目录知识图谱概述 * 1.1 知识图谱的基本概念 – 1.1.1 知识图谱的狭义概念 1.1.2 知识图谱的广义概念 1.2 知识图谱的历史沿革 &…

人工智能 2023年6月1日
0089
AI模型部署到Android端:模拟器App的生成与tensorflow模型的输入输出调试

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月23日
0092
python实现对语音信号的离散余弦变换（DCT）与离散余弦逆变换（IDCT）

python实现对语音的离散余弦变换与离散余弦逆变换离散余弦变换离散余弦逆变换调包实现离散余弦变换离散余弦变换（DCT）信号谱分量丰富、能量集中，且不需要对语音相位进行估…

人工智能 2023年5月25日
0088
【模式识别】Fisher线性判别实验报告之MATLAB仿真

一、参数 1.题设三个类，每个类均有10个样本，分别为w1，w2，w3，因此采用两两互相分类，最后得出结果； 2.三类样本的均值向量依次为m1，m2，m3； 3.三类样本的类内离…

人工智能 2023年7月3日
0068
DL之GRU：基于2022年6月最新上证指数数据集结合Pytorch框架利用GRU算法预测最新股票上证指数实现回归预测

DL之GRU：基于2022年6月最新上证指数数据集结合Pytorch框架利用GRU算法预测最新股票上证指数实现回归预测目录基于2022年6月最新上证指数数据集结合Pytorch…

人工智能 2023年6月17日
00103
详解FCOS《FCOS: Fully Convolutional One-Stage Object Detection》

文章目录 * – 0️⃣前言 – 1️⃣Introduction – 2️⃣FCOS原理 – + 2.1 FCOS网络结构及输出设计…

人工智能 2023年7月9日
0070
如何高效地存储与检索大规模的图谱数据？

本文分享自华为云社区《知识图谱的存储与检索》，原文作者：JuTzungKuei 。 1、概述背景：随着互联网的发展与普及，一个万物互联的世界正在成型。与此同时，数据呈现出爆炸式的…

人工智能 2023年6月1日
0094
python机器人库（robotics-toolbox-python）的运用

python机器人库（robotics-toolbox-python）的运用 Python 机器人库的运用文章目录 python机器人库（robotics-toolbox-pyt…

人工智能 2023年6月23日
0097
【AI全栈二】视频流多目标多类别无延迟高精度高召回目标追踪 YOLO+Deepsort 全解

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月2日
0063
sumo安装（版本1.11.0）和实例（Windows）

在准备运行实例之前，先在sumo的安装目录下新建一个文件夹project。在实现sumo交通模拟之前，需要配置好web和python环境。本人使用的web环境是sublime_t…

人工智能 2023年6月2日
0090
基于Laplacian图谱的短文本聚类算法

论文笔记：[1]孟海宁,冯锴,朱磊,张贝贝,童新宇,黑新宏.基于Laplacian图谱的短文本聚类算法[J].电子学报,2021,49(09):1716-1723. [Tencen…

人工智能 2023年6月3日
0064
Python将数据写入文本

Python将数据写入文本，目前遇到的是处理两种数据，一种是对string类型的数据写入，还有一种是对数组类型的数据进行写入 1.对string类型的内容进行写入创建文件对象我们…

人工智能 2023年7月6日
0098

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

1. 获取数据-requests.get()

大家都在看