python爬虫

Web请求过程

1、服务器渲染:在服务器那边直接把数据和html整合在一起,统一返回给浏览器

在页面源代码中能看到数据

2、客户端渲染:第一次请求只有一个html骨架,第二次请求拿到数据,进行数据展示(一般为XHR)

在页面源代码中看不到数据

HTTP协议

HTML(Hyper Text Makeup Language):超文本标记语言

HTTP对于请求和相应都把消息分为三个部分:( {}中表示在实际网页中的形式)

请求:

1、请求行:请求方式(get/post)、请求url地址、协议

{Request URL(在?前的是URL,在?后的是参数)、Request Method}

GET:一般用于查询东西(显式提交),请求方式一般是Query String Parameters(即在Request URL中?后的内容)

POST:一般用于修改东西(隐式提交),请求方式一般是Form Data

2、请求头:放一些服务器要求的附加信息(比如对数据的要求)

{Request Heads}(User-Agent(请求载体的身份标识)、Referer(防盗链)、Cookie(用户的登录状态))

3、请求体:放一些请求参数(比如搜索的内容)

相应:

1、状态行:协议、状态码(告诉我请求是否成功,比如200、404、500、302)

{Status code}

2、响应头:放一些客户端要求的附加信息(比如密钥)

{Response Heads}(Cookie、各种莫名其妙的字符串(一般都是token字样))

3、响应体:服务器返回的真正的客户端要用的内容(HTML、json)

一、re

结果为:

详细介绍请看python正则表达式

二、BeautifulSoup

结果为:

三、xpath

结果为:

# Web请求过程
"""
1、服务器渲染:在服务器那边直接把数据和html整合在一起,统一返回给浏览器
在页面源代码中能看到数据2、客户端渲染:第一次请求只有一个html骨架,第二次请求拿到数据,进行数据展示(一般为XHR)
在页面源代码中看不到数据<可用检查网页或者F12来查看>
"""
# HTTP协议
"""
Hyper Text Transfer Protocol:超文本传输协议,从万维网(wwwWorld Wide Web)服务器传输超文本到本地浏览器的传送协议HTML(Hyper Text Makeup Language):超文本标记语言HTTP对于请求和相应都把消息分为三个部分: # {}中表示在实际网页中的形式
请求:1、请求行:请求方式(get/post)、请求url地址、协议{Request URL(在?前的是URL,在?后的是参数)Request Method}
GET:一般用于查询东西(显式提交),请求方式一般是Query String Parameters(即在Request URL中?后的内容)
POST:一般用于修改东西(隐式提交),请求方式一般是Form Data
2、请求头:放一些服务器要求的附加信息(比如对数据的要求)
{Request Heads}(User-Agent(请求载体的身份标识)Referer(防盗链)Cookie(用户的登录状态))
3、请求体:放一些请求参数(比如搜索的内容)
相应:1、状态行:协议、状态码(告诉我请求是否成功,比如200404500302)
{Status code}
2、响应头:放一些客户端要求的附加信息(比如密钥)
{Response Heads}(Cookie、各种莫名其妙的字符串(一般都是token字样))
3、响应体:服务器返回的真正的客户端要用的内容(HTMLjson)
"""

Original: https://www.cnblogs.com/daxiangcai/p/16248813.html
Author: 大湘菜
Title: python爬虫

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/810498/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球