爬虫基础

2023年6月11日上午8:59 • 数据库 • 阅读 76

1.爬虫是什么？

爬虫：一段自动抓取互联网信息的程序，从互联网上抓取对于我们有价值的信息。

2.爬虫原理

_3.第一个爬虫程序

1.扒取网页：

扒取网页和基本代码首先我们调用的是 urllib2 库里面的 urlopen 方法，传入一个 URL，这个网址是百度首页，协议是 HTTP 协议，当然你也可以把 HTTP 换做

FTP,FILE,HTTPS 等等，只是代表了一种访问控制协议，urlopen 一般接受三个参数，它的参数如下：urlopen(url, data, timeout)。

2.post方式数据传递：

我们引入了 urllib 库，现在我们模拟登陆 CSDN，当然上述代码可能登陆不进去，因为 CSDN 还有个流水号的字段，没有设置全，比较复杂在这里就不写上去了，在此只是说明登录的原理。一般的登录网站一般是这种写法。我们需要定义一个字典，名字为 values，参数我设置了 username 和 password，下面利用 urllib 的 urlencode 方法将字典编码，命名为 data，构建 request 时传入两个参数，url 和 data，运行程序，返回的便是 POST 后呈现的页面内容。注意上面字典的定义方式还有一种，下面的写法是等价的

3.GET方式数据传递：

GET 方式我们可以直接把参数写到网址上面，直接构建一个带参数的 URL 出来即可。

ps:你可以 print geturl，打印输出一下 url，发现其实就是原来的 url 加？然后加编码后的参数 http://passport.csdn.net/account/login?username=1016903103%40qq.com&password=XXXX

1.cookie :

Cookie，指某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据（通常经过加密）比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。

2.获取Cookie保存到文件 :

3.从文件中获取Cookie并访问 :

4.利用 cookie 模拟网站登录 :

以上程序的原理如下创建一个带有 cookie 的 opener，在访问登录的 URL 时，将登录后的 cookie 保存下来，然后利用这个 cookie 来访问其他网址。

1.正则表达式 :

正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，

组成一个”规则字符串”，这个”规则字符串”用来表达对字符串的一种过滤逻辑。

2.正则表达式的语法规则 :

Original: https://www.cnblogs.com/zzc1102/p/15995616.html
Author: and脱发周大侠
Title: 爬虫基础

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/599507/

转载文章受原作者版权保护。转载请注明原作者出处！

数据库

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

MySQL45讲之随机查询和临时表

本文介绍 MySQL 随机查询的工作流程、优化随机查询的方式、和临时表。工作流程根据下表结构建立 words 表，并通过过程插入 10000 条模拟数据。 CREATE TAB…

数据库 2023年5月24日
0084
Question08-查询没学过”张三”老师授课的同学的信息

* SELECT * FROM Student WHERE SID NOT IN ( SELECT DISTINCT Student.SID FROM Student , SC ,…

数据库 2023年6月16日
0091
小心陷入MySQL索引的坑

索引可以说是数据库中的一个大心脏了，如果说一个数据库少了索引，那么数据库本身存在的意义就不大了，和普通的文件没什么两样。所以说一个好的索引对数据库系统尤其重要，今天来说说MySQL…

数据库 2023年6月6日
0095
idea在git中拉去eclipse项目及配置环境

1、VCS—git from version Control url：git@10.11.xx.xx:xpress 项目源码存储位置随意 clone 2、引入jar包 …

数据库 2023年6月9日
0093
如何画出别人一看就懂的架构图？

技术传播的价值，不仅仅体现在通过商业化产品和开源项目来缩短我们构建应用的路径，加速业务的上线速率，也体现在优秀工程师在工作效率提升、产品性能优化和用户体验改善等经验方面的分享，以提…

数据库 2023年6月14日
0087
Linux–>组管理和权限管理

在Linux中的每一个用户必须属于一个组，不能独立于组外。在Linux中每个文件有，所有者，所在组，其他组的概念查看文件的所有者 ls -ahl 举例: 改变文件所有者 …

数据库 2023年6月14日
00138
IO流思维导图

IO流思维导图 IO思维导图总结总览: 1.文件 public boolean createNewFile() ：当且仅当具有该名称的文件尚不存在时，创建一个新的空文件。（几乎…

数据库 2023年6月16日
0093
数据库设计案例

简单构建设计数据库数据库设计案例描述:简单构建设计数据库 sql代码实现 /* 数据库设计案例 */ — 音乐表 CREATE TABLE Music ( title VAR…

数据库 2023年5月24日
00122
Java 考试系统项目源码 springboot mybaits vue.js 支持手机端考试

新增功能：培训学习模块， PDF电子课程、视频课程、直播课程（自己搭建直播流服务器）人脸识别(考试时验证，有开关)、补考开关组建试卷：创建试卷，题目、类型、总分、及格分数、时长…

数据库 2023年6月6日
0082
MyBatis(一)-入门

==>>MyBatis中文网 1、第一个 mybastis程序 1.1 导入jar包 3.4.1 5.1.47 org.mybatis mybatis ${mybati…

数据库 2023年6月16日
0090
在浏览器中Django项目的静态文件打不开的一个原因

2022-09-27 问题描述：编写Django代码时，设置了一个”static”文件夹，在里面放置了一张图片。在”setting&#8221…

数据库 2023年6月14日
00102
3、数组、集合、Lambda、Stream与Optional类

一、数组：数组保存在JVM堆内存中 1、数组的创建：（1）、一维数组创建方式一： //一维数组方式一 Integer[] array01 = {1,2,3}; System.o…

数据库 2023年6月6日
0098
Postman调用token配置为全局变量，适用于所有接口

操作方法 1.在Request区域→Tests区域填写调用方法 //在Postman的Tests填写以下代码，设置Postman的环境变量token方法：//断言返回200状态码…

数据库 2023年6月14日
00101
day02-MySQL基础知识

MySQL基本知识 1.数据库 1.1.创建数据库语法： CREATE DATABASE [IF NOT EXISTS] db_name [create_specificatio…

数据库 2023年6月11日
0096
break&continue&return

作用 1. 跳出整个循环体,进入循环下面的语句 2. 在多层嵌套循环中,break跳出内层循环 3. 可以使用带标签的break语句,跳出外层循环编码 //break终止循环 p…

数据库 2023年6月14日
00104
文件传输工具：FileZilla的使用

FileZilla FileZilla 是一款高效的 FTP 客户端工具。FileZilla 可以帮助您将本地计算机上的文件上传到虚拟主机实例中。 FileZilla 界面介绍如…

数据库 2023年6月11日
0089

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31