爬虫基础

1.爬虫是什么?

爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。

2.爬虫原理

_3.第一个爬虫程序

_

1.扒取网页 :

扒取网页和基本代码 首先我们调用的是 urllib2 库里面的 urlopen 方法,传入一个 URL,这个网址是百度首页,协议是 HTTP 协议,当然你也可以把 HTTP 换做

FTP,FILE,HTTPS 等等,只是代表了 一种访问控制协议,urlopen 一般接受三个参数,它的参数如下:urlopen(url, data, timeout)。

2.post方式数据传递 :

我们引入了 urllib 库,现在我们模拟登陆 CSDN,当然上述代码可能登陆不进去,因为 CSDN 还有个流水号的字段,没有设置全,比较复杂在这里就不写上去了,在此只是说明登录的原理。一般的登录网站一般是这种写法。 我们需要定义一个字典,名字为 values,参数我设置了 username 和 password,下面利用 urllib 的 urlencode 方法将字典编码,命名为 data,构建 request 时传入两个参数,url 和 data,运行程序,返回的便是 POST 后呈现的页面内容。 注意上面字典的定义方式还有一种,下面的写法是等价的

3.GET方式数据传递 :

GET 方式我们可以直接把参数写到网址上面,直接构建一个带参数的 URL 出来即可。

ps:你可以 print geturl,打印输出一下 url,发现其实就是原来的 url 加?然后加编码后的参数 http://passport.csdn.net/account/login?username=1016903103%40qq.com&password=XXXX

1.cookie :

Cookie,指某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据(通常经过加密) 比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。

2.获取Cookie保存到文件 :

3.从文件中获取Cookie并访问 :

4.利用 cookie 模拟网站登录 :

以上程序的原理如下 创建一个带有 cookie 的 opener,在访问登录的 URL 时,将登录后的 cookie 保存下来,然后利用这个 cookie 来访问其他网址。

1.正则表达式 :

正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,

组成一个”规则字符串”,这个”规则字符串”用来表达对字符串的一种过滤逻辑。

2.正则表达式的语法规则 :

Original: https://www.cnblogs.com/zzc1102/p/15995616.html
Author: and脱发周大侠
Title: 爬虫基础

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/599507/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球