1.爬虫是什么?
爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。
2.爬虫原理
_3.第一个爬虫程序
_
1.扒取网页 :
扒取网页和基本代码 首先我们调用的是 urllib2 库里面的 urlopen 方法,传入一个 URL,这个网址是百度首页,协议是 HTTP 协议,当然你也可以把 HTTP 换做
FTP,FILE,HTTPS 等等,只是代表了 一种访问控制协议,urlopen 一般接受三个参数,它的参数如下:urlopen(url, data, timeout)。
2.post方式数据传递 :
我们引入了 urllib 库,现在我们模拟登陆 CSDN,当然上述代码可能登陆不进去,因为 CSDN 还有个流水号的字段,没有设置全,比较复杂在这里就不写上去了,在此只是说明登录的原理。一般的登录网站一般是这种写法。 我们需要定义一个字典,名字为 values,参数我设置了 username 和 password,下面利用 urllib 的 urlencode 方法将字典编码,命名为 data,构建 request 时传入两个参数,url 和 data,运行程序,返回的便是 POST 后呈现的页面内容。 注意上面字典的定义方式还有一种,下面的写法是等价的
3.GET方式数据传递 :
GET 方式我们可以直接把参数写到网址上面,直接构建一个带参数的 URL 出来即可。
ps:你可以 print geturl,打印输出一下 url,发现其实就是原来的 url 加?然后加编码后的参数 http://passport.csdn.net/account/login?username=1016903103%40qq.com&password=XXXX
Cookie,指某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据(通常经过加密) 比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。
2.获取Cookie保存到文件 :
3.从文件中获取Cookie并访问 :
以上程序的原理如下 创建一个带有 cookie 的 opener,在访问登录的 URL 时,将登录后的 cookie 保存下来,然后利用这个 cookie 来访问其他网址。
1.正则表达式 :
正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,
组成一个”规则字符串”,这个”规则字符串”用来表达对字符串的一种过滤逻辑。
2.正则表达式的语法规则 :
Original: https://www.cnblogs.com/zzc1102/p/15995616.html
Author: and脱发周大侠
Title: 爬虫基础
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/599507/
转载文章受原作者版权保护。转载请注明原作者出处!