Python 网络数据采集（二）：抓取所有网页

2023年6月19日下午3:34 • 人工智能 • 阅读 93

作者：高玉涵
时间：2022.5.22 08:35
博客：blog.csdn.net/cg_i

不知前方水深浅。

在互联网上进行自动数据采集这件事情和互联网存在的时间差不多一样长。虽然 网络数据采集并不是新术语，但是多年以来，这件事情常见的称谓是 网页抓屏（screen scraping）、 数据挖掘（data mining）、 网络收割（Web harvesting）或其它类似的版本。今天大众好像更倾向于用”网络数据采集”，因此我使用这个术语用于文章标题，不过有时会把网络数据采集程序称为 网络爬虫（Web crawler）。之所以叫网络爬虫是因为它可以沿着网络爬行。它们的本质就是一种递归方式。为了找到 URL 链接，它必须首先要获取网页内容，检查这个页面的内容，再寻找另一个 URL，然后获取 URL 对应的网页内容，不断循环这一过程。

上一篇，例子只是处理单个页面（https://free.kuaidaili.com/free/inha/），只能算是人为简化的例子。从这里开始，我将处理一些现实问题，需要用爬虫遍历多个页面。

不过要注意的是：你可以这样重复采集网页，但并不意味着你一直都应该这么做。当你需要的所有数据都在一个页面上时，前面例子中的爬虫就足以解决问题了。使用网络爬虫的时候，你必须非常谨慎地考虑需要消耗多少网络流量，还要尽力思考能不能让采集目标的服务器负载更低一些。

网络数据采集一般有两种方式：
第一种，就是俗称的”爬虫”程序，这种方式就是模拟人操作浏览器的方式，在网站上一个链接，一个链接的去采集数据，这样会增大网站负载。而且，这种方式获取的数据也都非常的杂乱，需要花很多精力去整理，所以真正分析大数据的时候，工程师不到万不得已，是不会采用这种方式的。
第二种，就是目前我采用的方式，花时间分析网站格式，编写的程序采用更长、更具体选择标签、速度更快的方式。

计算机科学里曾经有个笑语：”如果你有一个问题打算用正则表达式（regular expression）来解决，那么就是两个问题了。”

当你费尽心思写一堆没必要又复杂的查找和过滤函数，其实你真正需要的就是一行正则表达式。之所以叫正则表达式，是因为它们可以识别正则字符串（reqular string）；也就是说，它们可以这么定义：”如果你给我的字符串符合规则，我就返回它”，或者是”如果字符串不符合规则，我就忽略它”。这在要求快速浏览大文档，以查找像电话号码和邮箱地址之类的字符串时是非常方便的。

正则表达式在实际中的一个经典应用是识别邮箱地址。虽然不同邮箱服务器的邮箱地址的具体规则不尽相同，但是我们还是可以创建几条能用规则。每条规则对应的表达式如下表第 2 列所示。

规则正则表达式1. 邮箱地址的第一部分至少包括一种内容：大写字母、小写字母、数字 0～9、点（.）、加号（+）或下划线（）[A-Za-z0-9.+]+：这个正则表达式简写非常智慧。例如，它用”A-Z”表示”任意 A～Z 的大写字母”。把所有可能的序列和符号放在中括号（不是小括号）里表示”括号中的符号里任何一个”。要注意后面的加号，它表示”这些符号都可以出现多次，具至少出现 1 次”2. 之后，邮箱地址会包含一个 @ 符号@：这个符号很直接。@ 符号必须出现在中间位置，有具仅有 1 次3. 在符号 @ 之后，邮箱地址还必须至少包含一个大写或小写字母[A-Za-z]+：可能只在域名的前半部分、符号 @ 后面用字母。而且，至少有一个字母4. 之后跟一个点号（.）.：在域名前必须有一个点号（.）5. 最后邮箱地址用 com、org、edu、net 结尾（实际上，顶级域名有很多种可能，但是作为示例演示这四个后缀够用了）。(com|org|edu|net)：这样列出了邮箱地址中可能出现在点号之后的字母序列

把上面的规则连接起来，就获得了完整的正则表达式：

[A-Za-z0-9\._+]+@[A-Za-z]+\.(com|org|edu|net)

表 2-1 用简单的说明和例子举了正则表达式的一些常用符号。这个列表并不是全部符号，别外可能在不同编程语言中会遇到一些变化。但是，这 12 个符号是 Python 的正则表达式中最常用的，可以用来查找和收集绝大多数数据类型。

表 2-1:正则表达式常用符号

符号含义例子匹配结果匹配前面的字符、子表达式或括号里的字符 0 次或多次abaaaaaaaa,

aaabbbbb,

bbbbbbbb+匹配前面的字符、子表达式或括号里的字符至少 1 次a+b+aaaaaaab,

aaabbbbb,

abbbbbbbb[]匹配任意一个字符（相当于”任先一个”）[A-Z]*APPLE,

CAPITALS,

QWERTY()表达式编组（在正则表达式的规则里编组会优先运行）(ab)aaabaab,

abaaab,

ababaaaaab{m,n}匹配前面的字符、子表达式或括号里的字符 m 到 n 次（包含 m 或 n）a{2,3}b{2,3}aabbb,

aaabbb,

aabb[^]匹配任意一个不在中括号里的字符[^A-Z]*apple,

lowercase,

qwerty|匹配任意一个由竖线分割的字符、子表达式（注意是竖线，不是大写字线 I）b(a|i|e)dbad，bid，bed.匹配任意单个字符（包括符号、数字和空格等）b.dbad，bzd，b$d，b d^指字符串开始位置的字符或子表达式^aapple,

asdf,

a\转义字符（把有特殊含义的字符转换成字面形式）

.|\$经常用在正则表达式的末尾，表示”从字符串的末端匹配”。如果不用它，每个正则表达式实际都带”.“模式，只会从字符串开头进行匹配。这个符号可以看成是 ^ 符号的反义词。[A-Z][a-z]*$ABCabc，

zzzyx，

Bob?!”不包含”。这个奇怪的组合通常放在字符或正则表达式前面，表示字符不能出现在目标字符串里。这个符号比较难用，字符通常会在字符串的不同部分出现。如果要在整个字符串中全部排除某个字符，就加上 ^ 和 $ 符号^((?![A-Z]).)*$no-caps-here,

$ymb01s a4ef!ne

如果你觉得前面介绍的正则表达式内容与本节主题有点儿脱节，那么这里就把它们连接起来。在抓取网页的时候，BeautifulSoup 和正则表达式总是配合使用的。其实，大多数支持字符串参数（比如，find(id=”aTagIdHere”)）都可以用正则表达式实现。

注意观察网页底部的跳转页面链接——它们的源代码形式如下：

<a href="/free/inha/1/" class="active">1</a>

如果我们想抓取所有标签的 URL 链接，非常直接的做法就是用 findAll(“a”) 抓取所有链接，对吗？那些明显”多余”的链接，比如，文档中心、帮助和支持等。总之，你不能仅用标签指向的网页来查找代理信息。

而且网页的布局也可能会变化，或者，因为某些原因，我们不想通过标签在网页中的位置来查找。那么当你想抓取随机分布在网站里的某个元素或数据时，就会出现问题。例如，一些网页的最上面可能有一张商品图片，但是在另一些网页上没有。

解决这类问题的办法，就是直接定位那些标签来查找信息。在本例中，我们直接通文件路径来查找：

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

html = urlopen('https://free.kuaidaili.com/free/inha/')
bsObj = BeautifulSoup(html.read(), 'html.parser')
for link in bsObj.findAll('a', href=re.compile('(/free/inha/)[0-9]+')):
    print(link['href'])

这段代码会打印出跳转含有代理信息页面的相对路径，都是以 /free/inha 开头，以数字结尾，其结果如下所示：

/free/inha/1/
/free/inha/2/
/free/inha/3/
/free/inha/4/
/free/inha/5/
/free/inha/4619/
/free/inha/4620/

正则表达式可以作为 BeautifulSoup 语句的任意一个参数，让你的目标元素查找工作极具灵活性。

到目前为止，我已经介绍过如何获取和过滤标签，以及获取标签里的内容。但是，在网络数据采集时你经常不需要查找标签的内容，而是需要查找标签属性。比如标签指向的 URL 链接包含在 href 属性中，这时获取标签属性就变得非常有用了。

对于一个标签对象，可以用下面的代码获取它的全部属性：

myTag.attrs

要注意这行代码返回的是一个 Python 字典对象，可以获取和操作这些属性。比如要 href 属性指定的超链接目标 URL 位置，可以用下面这行代码：

myTag.attrs['href']

上个例子中，如果你观察生成的一列链接，都是有规律以数字递增方式来区分页面，虽只获得了 7 条页面链接，幸运的是，未尾给出了最大页数，通过下面代码获取它。

links = bsObj.find('div', {'id':'listnav'}).findAll('a',
            href=re.compile('(/free/inha/)[0-9]+'))
pageCount = int(links[-1].get_text())
print(pageCount)

输出结果：

这里有一个技巧，在项目启动的时候，一定要花时间去比较”我要的链接”和”其它链接”的差异，如果你仔细观察那些指向跳转页面（不是指向其它内容页面）的链接，会发现它们都有三个共同点：

它们都在 id 是 listnav 的 div 标签里
URL 链接都以 /free/inha/
都以数字结尾

执行下面代码：

find('div', {'id':'listnav'}).findAll('a', href=re.compile('(/free/inha/)[0-9]+'))

输出结果：

/free/inha/1/
/free/inha/2/
/free/inha/3/
/free/inha/4/
/free/inha/5/
/free/inha/4619/
/free/inha/4620/

结果与先前的例子输出并无二异，这可能会让你感到迷惑。放着简便方式不用？我已不止一次说过，如无特别需求，请尽量”让标签的选择更具体”，你可以尝试去掉第一个 find 语句，再运行一遍程序，不出意外，输出的结果依然相同。但，你可以明显感觉到程序变”慢”了（相对于）。页面里标签越多，这种感觉会更加明显。所以让标签的选择更具体，除能提升程序的可靠性，还会提升采集速度（大部分情况下）。

'''
    &#x4F5C;&#x8005;&#xFF1A;&#x9AD8;&#x7389;&#x6DB5;
    &#x65F6;&#x95F4;&#xFF1A;2022.5.27 13:12
    &#x8BF4;&#x660E;&#xFF1A;&#x722C;&#x866B;&#x7B2C;&#x4E8C;&#x7248;
'''
import socket
import re
from urllib.request import urlopen
from urllib.error import HTTPError
from bs4 import BeautifulSoup

def getTable(bsObj):
    '''
        &#x83B7;&#x53D6;&#x8868;&#x683C;
        :param bs &#x5BF9;&#x8C61;
        :return &#x8FD4;&#x56DE;&#x8868;&#x683C;&#x5BF9;&#x8C61;
    '''
    try:
        table = bsObj.table
    except AttributeError as e:
        return None
    return table

def getAgentData(table):
    # &#x6293;&#x53D6;&#x5230;&#x4EE3;&#x7406;&#x6570;&#x636E;
    agent_data = []
    # &#x83B7;&#x53D6;&#x8868;&#x5934;
    theads = getThead(table)

    try:
        # &#x83B7;&#x53D6;&#x6240;&#x6709;&#x884C;
        rows = table.findAll('tr')
    except AttributeError as e:
        print("TR &#x6807;&#x7B7E;&#x672A;&#x627E;&#x5230;!")
        return None
    else:
        for row in rows:
            # &#x5B58;&#x653E;&#x4EE3;&#x7406;&#x4FE1;&#x606F;
            agent = {}
            for t in theads:
                # &#x9010;&#x884C;&#x67E5;&#x627E;&#x4E0E;&#x5217;&#x5BF9;&#x5E94;&#x7684;&#x6570;&#x636E;
                text = row.find('td', {'data-title':t})
                if text is not None:
                    agent.setdefault(t, text.get_text())
            if len(agent) != 0:
                agent_data.append(agent)
        return agent_data

def getThead(table):
    # &#x5B58;&#x653E;&#x83B7;&#x53D6;&#x7684;&#x8868;&#x5934;&#x503C;
    theads = []

    try:
        # &#x904D;&#x5386;&#x8868;&#x683C;&#x5934;&#x5B50;&#x6807;&#x7B7E;
        for h in table.thead.tr.children:
            # &#x63D0;&#x53D6;&#x6807;&#x7B7E;&#x5185;&#x7684;&#x503C;&#x53BB;&#x6389;&#x524D;&#x540E;&#x7A7A;&#x683C;
            text = h.get_text().replace(" ","")
            # &#x5FFD;&#x7565;&#x4E0D;&#x53EF;&#x89C1;&#x7684;&#x6362;&#x884C;&#x7B26;
            if text != '\n':
                theads.append(text)
    except AttributeError as e:
        print("TR &#x6807;&#x7B7E;&#x672A;&#x627E;&#x5230;!")
        return None
    else:
        return theads

def getUrl(url):
    '''
        &#x83B7;&#x53D6; URL
        :param url &#x5730;&#x5740;
        :return &#x8FD4;&#x56DE; bs &#x5BF9;&#x8C61;
    '''
    try:
        html = urlopen(url)
    except HTTPError as e:
        return None
    except socket.error as e:
        print('socket')
        return None
    try:
        bsObj = BeautifulSoup(html.read(), 'html.parser')
    except AttributeError as e:
        return None
    return bsObj

def getPageCount(bsObj):
    '''
        &#x83B7;&#x53D6;&#x5E95;&#x90E8;&#x8DF3;&#x8F6C;&#x9875;&#x9762;&#x6570;
    '''
    try:
        links = bsObj.find('div', {'id':'listnav'}).findAll('a',
            href=re.compile('(/free/inha/)[0-9]+'))
        pageCount = int(links[-1].get_text())
    except AttributeError:
        return None
    except ValueError:
        return None
    return pageCount

if __name__ == '__main__':
    # &#x514D;&#x8D39;&#x4EE3;&#x7406;
    url = 'https://free.kuaidaili.com/free/inha/'
    bsObj = getUrl(url)

    if bsObj == None:
        print(f"&#x8BBF;&#x95EE;&#xFF1A;{url} &#x5931;&#x8D25;&#x3002;")
        exit(1)

    pageCount = getPageCount(bsObj)
    if pageCount == None:
        print("&#x83B7;&#x53D6;&#x9875;&#x9762;&#x6570;&#x5931;&#x8D25;&#x3002;")
        exit(1)

    print(f"&#x76EE;&#x6807;&#xFF1A;{url} &#x5171;&#x53D1;&#x73B0;&#xFF1A;{pageCount} &#x4E2A;&#x9875;&#x9762;&#x3002;")
    user_choice = input('&#x662F;&#x5426;&#x7EE7;&#x7EED;(y/n):')
    if user_choice not in('y','Y'):
        exit(0)

    retry = 0   # &#x91CD;&#x8BD5;&#x6B21;&#x6570;,&#x907F;&#x514D;&#x8FDB;&#x5165;&#x6B7B;&#x5FAA;&#x73AF;
    while(True):
        if retry >= 3:
            exit(1)
        try:
            retry += 1
            user_count = input('&#x8BF7;&#x8F93;&#x5165;&#x9700;&#x8981;&#x722C;&#x53D6;&#x7684;&#x9875;&#x6570;(&#x9ED8;&#x8BA4;:3)')

            if user_count == "":
                user_count = 3
                break
            elif int(user_count) > pageCount:
                print("&#x8303;&#x56F4;&#x8D85;&#x8FC7;&#x6700;&#x5927;&#x503C;&#xFF01;")
                continue
        except ValueError:
            continue

    agent_list = [] # &#x4EE3;&#x7406;&#x5217;&#x8868;
    '''
        &#x7F51;&#x9875;&#x7D22;&#x5F15;&#x4ECE; 1 &#x5F00;&#x59CB;,
        user_count + 1,&#x662F;&#x4E3A;&#x4E86;&#x7B26;&#x53F7;&#x4EBA;&#x7C7B;&#x4E60;&#x60EF;,&#x4E0D;&#x7136;&#x4F1A;&#x5B58;&#x5728;&#x5DEE; 1
        range(...,&#x5230;&#x7ED3;&#x675F;&#x503C;,&#x4F46;&#x4E0D;&#x5305;&#x62EC;&#x7ED3;&#x675F;&#x503C;)
    '''
    for i in range(1, user_count + 1):
        bsObj = getUrl(url + str(i))
        if bsObj == None:
            print(f"&#x8BBF;&#x95EE;&#xFF1A;{url} &#x5931;&#x8D25;&#x3002;")
            exit(1)
        table = getTable(bsObj)
        if table == None:
            print(f"table &#x6807;&#x7B7E;&#x672A;&#x53D1;&#x73B0;&#x3002;")
            exit(1)
        print(f"&#x91C7;&#x96C6;&#x7B2C; {i} &#x9875;&#xFF0C;&#x5171; {user_count - i} &#x4E2A;&#x9875;&#x9762;&#x7B49;&#x5F85;&#x5904;&#x7406;&#xFF0C;", end="")
        agents = getAgentData(table)
        agent_list.extend(agents)
        print(f"&#x6210;&#x529F;&#x91C7;&#x96C6;&#x5230; {len(agent_list)} &#x6761;&#x6570;&#x636E;")

输出结果：

python craw_table2.py
&#x76EE;&#x6807;&#xFF1A;https://free.kuaidaili.com/free/inha/ &#x5171;&#x53D1;&#x73B0;&#xFF1A;4624 &#x4E2A;&#x9875;&#x9762;&#x3002;
&#x662F;&#x5426;&#x7EE7;&#x7EED;(y/n):y
&#x8BF7;&#x8F93;&#x5165;&#x9700;&#x8981;&#x722C;&#x53D6;&#x7684;&#x9875;&#x6570;(&#x9ED8;&#x8BA4;:3)
&#x91C7;&#x96C6;&#x7B2C; 1 &#x9875;&#xFF0C;&#x5171; 2 &#x4E2A;&#x9875;&#x9762;&#x7B49;&#x5F85;&#x5904;&#x7406;&#xFF0C;&#x6210;&#x529F;&#x91C7;&#x96C6;&#x5230; 15 &#x6761;&#x6570;&#x636E;
&#x91C7;&#x96C6;&#x7B2C; 2 &#x9875;&#xFF0C;&#x5171; 1 &#x4E2A;&#x9875;&#x9762;&#x7B49;&#x5F85;&#x5904;&#x7406;&#xFF0C;&#x6210;&#x529F;&#x91C7;&#x96C6;&#x5230; 30 &#x6761;&#x6570;&#x636E;
&#x91C7;&#x96C6;&#x7B2C; 3 &#x9875;&#xFF0C;&#x5171; 0 &#x4E2A;&#x9875;&#x9762;&#x7B49;&#x5F85;&#x5904;&#x7406;&#xFF0C;&#x6210;&#x529F;&#x91C7;&#x96C6;&#x5230; 45 &#x6761;&#x6570;&#x636E;

我们后面要建立的网络爬虫将顺着链接从一个页面跳到另一个页面，它们不再只在网站内部，而是跟着外链跳转，这将是一个新的挑战。相比单个域名采集，互联网采集要难得多——不同网站的布局迥然不同。这就意味着我们必须在要寻找的信息以及查找方式上都极具灵活。

Original: https://blog.csdn.net/cg_i/article/details/125002549
Author: 半点闲
Title: Python 网络数据采集（二）：抓取所有网页

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/639651/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python3.7安装、Anaconda安装、更新驱动CUDA11.7、安装GPU版本的pytorch

一、安装python3.7（安装其他版本的也可参考）二、Anaconda安装三、更新驱动四、安装GPU版本的pytorch 一、安装python3.7（安装其他版本的也可参考…

人工智能 2023年7月28日
0066
简单seq2seq代码使用tensorflow的LSTMCell构造循环decoder

好多预测模型的论文都是用seq2seq实现的，具体是LSTM_encoder将输入序列编码为一个tensor（又叫output、H或Y），同时保留序列状态state（又叫w或c）；…

人工智能 2023年5月24日
0098
Tensorflow 2 实战（kears）- 生成式对抗网络 – GAN、WGAN-GP

Tensorflow 2 实战（kears）- 生成式对抗网络 – GAN、WGAN-GP 一、背景介绍 * 1.1、数据集简介 1.2、模型简介二、”G…

人工智能 2023年5月26日
0090
【OpenCV-Python】：基于均值、中值、方框、双边和高斯滤波的图像去噪

✨博客主页：米开朗琪罗~🎈✨博主爱好：羽毛球🏸✨年轻人要：Living for the moment（活在当下）！💪🏆推荐专栏：【图像处理】【千锤百炼Python】【深度学习】【排…

人工智能 2023年5月26日
0065
图解机器学习算法(7) | 随机森林分类模型详解（机器学习通关指南·完结）

作者：韩信子@ShowMeAI 教程地址：https://www.showmeai.tech/tutorials/34 本文地址：https://www.showmeai.tech…

人工智能 2023年6月15日
0088
【ROS&GAZEBO】多旋翼无人机仿真（五）——位置控制器

【ROS&GAZEBO】多旋翼无人机仿真（一）——搭建仿真环境【ROS&GAZEBO】多旋翼无人机仿真（二）——基于rotors的仿真【ROS&GAZEBO…

人工智能 2023年6月10日
0082
【pandas数据分析】pandas功能和操作简单示例

文章目录导入包创建对象 * Series DataFrame 查看数据选择 * 获取数据按标签选择按位置选择布尔值索引设置值缺失值一些操作 * 数据统计应用（A…

人工智能 2023年7月7日
0079
利用matlab实现无约束最优化方法

目录 1.最速下降法 2.加速梯度法——最速梯度下降法的改进 3.Newton法—–多维 4.阻尼Newton法 5、FR共轭梯度法 6、变尺度法&#821…

人工智能 2023年6月16日
0047
黑马程序员最新版JavaWeb综合案例(前后端完整版)

JavaWeb 综合案例 1、功能介绍案例功能：用户登录（账号密码登录）用户注册（新用户注册账号）查询所有（查询所有品牌数据）新增品牌（增加新的品牌数据）修改品牌（修改…

人工智能 2023年7月31日
0051
python–敲击木鱼积累功德小项目

import pygame pygame.mixer.init() screen=pygame.display.set_mode((700,500)) pygame.display…

人工智能 2023年7月3日
00128
想带着学生做一个操作系统，可行性有多大？

有知乎网友提问如下: 想带着学生做一个操作系统，可行性有多大？个人觉得可行性非常大，如果只是做着来玩，让学生了解操作系统时如何实现的话。但是，如果你打算今后商业化的话，那就另当别…

人工智能 2023年6月28日
0079
D435i相机获取某一点深度图像的深度值（ROS实现以及官方API调用）

最近这段时间一直在研究intel的D435i相机，主要用来实现识别物体并反馈物体的深度值。特别强调一点，通常所说图片的深度信息、深度值指的就是深度图像中相机到物体的距离。由于初次使…

人工智能 2023年6月24日
0079
【弱监督文本分类】LOTClass：只有标签名称的文本分类方法

文章目录 0. 前言 1. LOTClass分类方法整体流程 2. LOTClass分类方法 * 2.1 Category Understanding via Label Name…

人工智能 2023年5月28日
0093
Ubuntu18.04安装Ros(最新最详细亲测)

文章目录安装前必看旧博文的前言一、版本选择二、下载步骤 * 1.检查Unbuntu的软件和更新源 2.设置Ros的下载源 3.安装ROS 4.设置环境变量 5.下载其他功能…

人工智能 2023年6月2日
00153
【深度学习】YOLOv5使用自己VOC数据集

常见的yolov5替换数据集，一般都是通过编写voc数据集转yolo格式的代码，且需要单独运行，本文介绍一种编写VOC.yaml方法，无需增加文件，即可完成数据集替换。针对绝缘子…

人工智能 2023年7月9日
00215
〖Python WEB 自动化测试实战篇⑤〗- selenium 元素定位详解 – (八大元素定位方式)

### 回答1： Python Web 自动化测试实战篇_是一本介绍如何使用 _Python_语言进行 _Web 自动化测试_的实用指南。本书从基础概念入手，详细讲解了 _Web…

人工智能 2023年7月4日
0064

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python 网络数据采集（二）：抓取所有网页

大家都在看