爬虫爬取网页基本的代码

2023年6月5日下午2:33 • Java • 阅读 171

import urllib.request,urllib.parse

strs = \
'''blackside_state=0; buvid4=93AB1303-E725-8C6C-9986-BD42F6123C8F98873-022012417-OiqJJgeV6VQWPbVT2qNDNg==;
b_nut=1650026964; buvid3=91665260-5783-B121-3A1A-493CE29373B664163infoc;
rpdid=|(k|YRJuu|lk0J'uYl||kYmYl; DedeUserID=515163213; DedeUserID__ckMd5=3dcc69f5ca845f22;
b_ut=5; _uuid=5410279A2-CF13-7686-10958-C148E9210D8DF21391infoc;
buvid_fp=8cc8e7ab9a2e8223fb6f7cf571569c3a; i-wanna-go-back=2;
hit-dyn-v2=1; CURRENT_BLACKGAP=0; LIVE_BUVID=AUTO7816510559632719;
fingerprint3=97b9714c6c2575eaac50b9664241605f; go_old_video=1; nostalgia_conf=2;
CURRENT_FNVAL=4048; CURRENT_QUALITY=80; fingerprint=6669eec625188139cf2cd625cf310b4b;
SESSDATA=8ef1b2e2,1678238412,9f657*91; bili_jct=5624e0df1821829446d0958af5e27508;
sid=8kbfybjf; bp_video_offset_515163213=703911862525231153; innersign=0; b_lsid=61E498EE_18324DFE75D; PVID=1'''

将参数封装到Request对象中
url = "https://pdai.tech/md/spring/spring-x-framework-helloworld.html"
headers = {
    "user-agent": '''Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36 Edg/105.0.1343.27'''}
这里需要将数据转换为二进制
data = bytes(urllib.parse.urlencode({"cookie":strs}),encoding="utf-8")
request = urllib.request.Request(url=url, data=data, headers=headers, method="GET")
response = urllib.request.urlopen(request, timeout=5)
print(response.read().decode())

Original: https://www.cnblogs.com/yfs1024/p/16675995.html
Author: 尼古拉斯_帅气
Title: 爬虫爬取网页基本的代码

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/570319/

转载文章受原作者版权保护。转载请注明原作者出处！

赞 (0)

0

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

MyBatis核心配置文件以及标签的说明

mybatis的核心配置文件，以及各个属性的介绍 <?xml version="1.0" encoding="UTF-8" ?>…

Java 2023年6月13日
0059
函数式编程-记忆化缓存

记忆化，是一种为了提高应用程序性能的FP技术。程序加速是通过缓存函数的结果实现的，避免了重复计算带来的额外开销。 1、现在我们使用Dictionary作为缓存结构打印结果：可以…

Java 2023年6月9日
0036
六度问题（转载）

What do Leonard Nimoy, Stana Katic, and Robert Downey Jr. have in common? They all have a …

Java 2023年5月30日
0070
idea maven项目中pom.xml文件无法自动补全标签

描述：在idea maven项目中的pom.xml中引入依赖输入回车之后解决：在file>setting中找到编辑器、文件类型、xml、添加 *.xml 即可完成。效果…

Java 2023年6月5日
0074
备忘录－－关于线程和IO知识

因为自己还在出差中，没时间深入学习，最近工作里又有对一些技术的思考，所以这里记录下来，等回去有时间可以按照这个思路进行学习，这里主要起到备忘的作用。 1.线程难学难在我们没有理解操…

Java 2023年5月30日
0048
Mysql 5.7开启binlog日志

Mysql 5.7开启binlog日志前言 binlog是MySQL的二进制日志，并且是MySQL中最重要的日志。binlog记录了对MySQL数据库执行更改的所有操作，包括对数…

Java 2023年6月15日
0085
ch03 Java基础

JAVA基础 JAVA基础数据类型类型转换变量类变量和实例变量的区别和联系常量变量命名规范运算符位运算包机制 JavaDoc 数据类型强类型语言要求变量的使用…

Java 2023年6月9日
0065
mybatis-plus忽略映射字段

mybatis-plus使用对象属性进行SQL操作，经常会出现对象属性非表字段的情况，忽略映射字段使用以下注解： @TableField(exist = false)：表示该属性不…

Java 2023年5月30日
0061
java基础二、类与继承

员工类 Employee，经理类：Manager public class Employee { private String name; private double sala…

Java 2023年6月16日
0082
JeeSite Spring Cloud安装搭建

引言 JeeSite Cloud 具备 JeeSite 4.x 的所有功能，是在 JeeSite 4.x 基础之上，完成的 Spring Cloud 分布式系统套件的整合。它利用 …

Java 2023年6月5日
0081
Java 设计模式 – Observer 观察者模式

说明都在注释： package ObserverModel; package ObserverModel; <span class="hljs-keyword&qu…

Java 2023年6月9日
0048
spring 定时任务@Scheduled

1、配置文件

Java 2023年5月30日
0044
Java: Excel导入导出

【相关文档】:EasyPoi教程 1. 依赖 <dependency> <groupid>cn.afterturn</groupid> <…

Java 2023年5月29日
00100
MongoDB高级应用之数据转存与恢复（5）

1、MongoDB索引 1.1、创建索引 db.books.ensureIndex{{number:1}} 创建索引同时指定索引的名字 db.books.ensureIndex({…

Java 2023年6月7日
0083
Nginx代理websocket配置(解决websocket异常断开连接tcp连接不断问题)

场景 SpringBoot+Vue整合WebSocket实现前后端消息推送： https://blog.csdn.net/BADAO_LIUMANG_QIZHI/article/d…

Java 2023年5月30日
0079
上传代码到GitHub仓库

上传代码到GitHub仓库准备工作意思是自从 21 年 8 月 13 后不再支持用户名密码的方式验证了，需要创建个人访问令牌(personal access token)。这…

Java 2023年6月16日
0077

亲爱的 Coder【最近整理，可免费获取】👉 最新必读书单 | 👏 面试题下载 | 🌎 免费的AI知识星球