python爬虫多进程,多线程,协程以及组合应用的效率对比(multiprocessing库)–以爬取单本小说全文为例

2023年6月3日上午10:44 • Python • 阅读 83

本篇将测试爬取单本小说下：利用多进程，多线程，协程，以及多进程加多线程，多进程加协程组合应用的效率。

以爬取–笔趣阁–大道争锋为例，测试相关组合的性能。

多线程

代码如下：

python爬虫多进程,多线程,协程以及组合应用的效率对比(multiprocessing库)--以爬取单本小说全文为例

-*- coding: utf-8 -*-
"""
Created on Wed Mar  4 10:39:55 2020

@author: wenzhe.tian

多进程+多线程
多进程+协程
"""

book_name_list=['大道争锋']

####### 开始工作
import time
from concurrent.futures import ThreadPoolExecutor
import requests
from lxml import etree
import os
import urllib.parse as parse

save_path='D:\\bqg_novel\\'
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36'}
target_url='https://m.52bqg.com'
try:
    os.mkdir(save_path)
except:
    pass

### 定义两个函数获取书的url和章节的url
def get_chapter_content(i): # 根据章节url返回章节内容
    chapter_now=requests.get(target_url+i,headers)
    chapter_now.encoding='gbk'
    chapter_now=chapter_now.text; #源码
    #    chapter_now_ori=chapter_now #检测用
    chapter_now=etree.HTML(chapter_now)
    chapter_content='\n'.join(chapter_now.xpath('//div[@id="nr1"]/descendant::text()'))
    next_page_num=1
    while '下一页' in chapter_now.xpath('//div[@class="nr_page"]//td[@class="next"]/descendant::text()'):
        chapter_content=chapter_content.replace('本章未完，点击下一页继续阅读','').replace('-->>','').replace('&n','')
        next_page_num=next_page_num+1;
        chapter_now=requests.get(target_url+i.replace('.html','_'+str(next_page_num)+'.html'),headers)
        chapter_now.encoding='gbk'
        chapter_now=chapter_now.text; #源码
        #        chapter_now_ori=chapter_now #检测用
        chapter_now=etree.HTML(chapter_now)
        chapter_content_next='\n'.join(chapter_now.xpath('//div[@id="nr1"]/descendant::text()'))
        chapter_content_next=chapter_content_next.replace('本章未完，点击下一页继续阅读','').replace('-->>','').replace('&n','')
        chapter_content=chapter_content+chapter_content_next;
    return chapter_content

def get_chapter_link(i): ########## 确定章节的数目,爬取所有章节link ######
    global url_all,headers
    if i==0:
        req_next=requests.get(url_all,headers)
    else:
        req_next=requests.get(url_all+'/'+str(i+1),headers)
    req_next.encoding='gbk'
    html_next=etree.HTML(req_next.text)
    chapter_name_next=html_next.xpath('//ul[@class="last9"]//li[@class="even"]//a/descendant::text()|//ul[@class="last9"]//li//a/descendant::text()')
    chapter_url_next=html_next.xpath('//ul[@class="last9"]//li[@class="even"]/a/@href|//ul[@class="last9"]//li/a/@href')
    chapter_name=chapter_name_next[1:]
    chapter_url=chapter_url_next[1:]
    return chapter_name,chapter_url

################################# 对于所有章节的url内容爬取 #####################################
novel=[]

for k in book_name_list:
    start=time.time()
    url='https://m.52bqg.com/modules/article/waps.php?searchtype=articlename&searchkey='+parse.quote(k,encoding="gbk")+'&t_btnsearch='
    req=requests.get(url,headers)
    req.encoding='gbk'
    if 'book_' in req.url and 'search' not in req.url: #搜索结果不是清单则直接开始爬
        url_all=req.url
        url_all=url_all.replace('book','chapters')
    else: #是清单则判断是否有完全匹配项，若无则只爬榜1
        search_result=req.text
        html_search=etree.HTML(search_result)
        search_book=html_search.xpath('//div[@class="article"]/a/text()')
        search_book_url=html_search.xpath('//div[@class="article"]/a[1]/@href')
        if k in search_book:
            url_all=target_url+search_book_url[search_book.index(k)]
            url_all=url_all.replace('book','chapters')
        else:
            url_all=target_url+search_book_url[0]
            url_all=url_all.replace('book','chapters')

    # 根据书名判断章节页数
    req_all=requests.get(url_all,headers)
    req_all.encoding='gbk'
    html_all=etree.HTML(req_all.text)
    chapter_page_all=html_all.xpath('//table[@class="page-book"]//td/a/@href')
    chapter_page_all=chapter_page_all[1].split('/')
    chapter_page_all=int(chapter_page_all[-1])
    # 开始多线程抓取
    with ThreadPoolExecutor(250) as executor:
        # 根据章节页数,得到章节url
        chapter=list(executor.map(get_chapter_link,range(chapter_page_all)))
        chapter=list(zip(*chapter))
        chapter_url=list(chapter[1])
        chapter_name=list(chapter[0])
        chapter_url = sum(chapter_url, [])
        chapter_name = sum(chapter_name, [])
        chapter_all=list(executor.map(get_chapter_content,chapter_url))
    end=time.time()
    print("耗时: "+str(int(end-start))+'秒') #计时统计
    for i in range(len(chapter_all)):
        chapter_all[i]=chapter_name[i]+'\n'+chapter_all[i]
    target='/n'.join(chapter_all)
    f = open(save_path+'\\'+k+'.txt','a+',encoding='utf-8')
    f.read()
    f.write(target)
    f.close()
    print(k+'已完成')

View Code

耗时: 70s

协程

代码如下：

-*- coding: utf-8 -*-
"""
Created on Wed Mar  4 10:39:55 2020

@author: wenzhe.tian

"""

book_name_list=['大道争锋']

####### 开始工作

import gevent
from gevent import monkey,pool
pool=pool.Pool(200)
monkey.patch_all(thread=False)
import requests
import time
from lxml import etree
import os
import urllib.parse as parse

save_path='D:\\bqg_novel\\'
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36'}
target_url='https://m.52bqg.com'
try:
    os.mkdir(save_path)
except:
    pass

### 定义两个函数获取书的url和章节的url
def get_chapter_content(i): # 根据章节url返回章节内容
    chapter_now=requests.get(target_url+i,headers)
    chapter_now.encoding='gbk'
    chapter_now=chapter_now.text; #源码
    #    chapter_now_ori=chapter_now #检测用
    chapter_now=etree.HTML(chapter_now)
    chapter_content='\n'.join(chapter_now.xpath('//div[@id="nr1"]/descendant::text()'))
    next_page_num=1
    while '下一页' in chapter_now.xpath('//div[@class="nr_page"]//td[@class="next"]/descendant::text()'):
        chapter_content=chapter_content.replace('本章未完，点击下一页继续阅读','').replace('-->>','').replace('&n','')
        next_page_num=next_page_num+1;
        chapter_now=requests.get(target_url+i.replace('.html','_'+str(next_page_num)+'.html'),headers)
        chapter_now.encoding='gbk'
        chapter_now=chapter_now.text; #源码
        #        chapter_now_ori=chapter_now #检测用
        chapter_now=etree.HTML(chapter_now)
        chapter_content_next='\n'.join(chapter_now.xpath('//div[@id="nr1"]/descendant::text()'))
        chapter_content_next=chapter_content_next.replace('本章未完，点击下一页继续阅读','').replace('-->>','').replace('&n','')
        chapter_content=chapter_content+chapter_content_next;
    return chapter_content

def get_chapter_link(i): ########## 确定章节的数目,爬取所有章节link ######
    global url_all,headers
    if i==0:
        req_next=requests.get(url_all,headers)
    else:
        req_next=requests.get(url_all+'/'+str(i+1),headers)
    req_next.encoding='gbk'
    html_next=etree.HTML(req_next.text)
    chapter_name_next=html_next.xpath('//ul[@class="last9"]//li[@class="even"]//a/descendant::text()|//ul[@class="last9"]//li//a/descendant::text()')
    chapter_url_next=html_next.xpath('//ul[@class="last9"]//li[@class="even"]/a/@href|//ul[@class="last9"]//li/a/@href')
    chapter_name=chapter_name_next[1:]
    chapter_url=chapter_url_next[1:]
    return chapter_name,chapter_url

################################# 对于所有章节的url内容爬取 #####################################
novel=[]

for k in book_name_list:
    start=time.time()
    url='https://m.52bqg.com/modules/article/waps.php?searchtype=articlename&searchkey='+parse.quote(k,encoding="gbk")+'&t_btnsearch='
    req=requests.get(url,headers)
    req.encoding='gbk'
    if 'book_' in req.url and 'search' not in req.url: #搜索结果不是清单则直接开始爬
        url_all=req.url
        url_all=url_all.replace('book','chapters')
    else: #是清单则判断是否有完全匹配项，若无则只爬榜1
        search_result=req.text
        html_search=etree.HTML(search_result)
        search_book=html_search.xpath('//div[@class="article"]/a/text()')
        search_book_url=html_search.xpath('//div[@class="article"]/a[1]/@href')
        if k in search_book:
            url_all=target_url+search_book_url[search_book.index(k)]
            url_all=url_all.replace('book','chapters')
        else:
            url_all=target_url+search_book_url[0]
            url_all=url_all.replace('book','chapters')

    # 根据书名判断章节页数
    req_all=requests.get(url_all,headers)
    req_all.encoding='gbk'
    html_all=etree.HTML(req_all.text)
    chapter_page_all=html_all.xpath('//table[@class="page-book"]//td/a/@href')
    chapter_page_all=chapter_page_all[1].split('/')
    chapter_page_all=int(chapter_page_all[-1])
    # 开始协程抓取
    g_list=list(map(lambda x:gevent.spawn(get_chapter_link, x),range(chapter_page_all)))
    gevent.joinall(g_list)
    chapter=[]
    for g in g_list:
        chapter.append(g.value)
    chapter=list(zip(*chapter))
    chapter_url=list(chapter[1])
    chapter_name=list(chapter[0])
    chapter_url = sum(chapter_url, [])
    chapter_name = sum(chapter_name, [])
    g_list=list(map(lambda x:gevent.spawn(get_chapter_content, x),chapter_url))
    gevent.joinall(g_list)
    chapter_all=[]
    for g in g_list:
        chapter_all.append(g.value)
    end=time.time()
    print("耗时: "+str(int(end-start))+'秒') #计时统计
    for i in range(len(chapter_all)):
        chapter_all[i]=chapter_name[i]+'\n'+chapter_all[i]
    target='/n'.join(chapter_all)
    f = open(save_path+'\\'+k+'.txt','a+',encoding='utf-8')
    f.read()
    f.write(target)
    f.close()
    print(k+'已完成')

View Code

耗时： 103s

多进程调用多线程

代码如下：

# -- coding: utf-8 --
"""
Created on Wed Mar  4 10:39:55 2020
@author: wenzhe.tian
多进程+多线程
"""
####### 开始工作import timefrom concurrent.futures import ThreadPoolExecutorimport requestsfrom lxml import etreeimport osimport urllib.parse as parsefrom multiprocessing import Poolbook_name_list=['斗罗大陆3龙王传说']save_path='D:\bqg_novel\'headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36'}target_url='https://m.52bqg.com'try:    os.mkdir(save_path)except:    passnovel=[]
##### 定义两个函数获取书的url和章节的urldef get_chapter_content(i): # 根据章节url返回章节内容    chapter_now=requests.get(target_url+i,headers)    chapter_now.encoding='gbk'    chapter_now=chapter_now.text; #源码    #    chapter_now_ori=chapter_now #检测用    chapter_now=etree.HTML(chapter_now)    chapter_content='\n'.join(chapter_now.xpath('//div[@id="nr1"]/descendant::text()'))    next_page_num=1    while '下一页' in chapter_now.xpath('//div[@class="nr_page"]//td[@class="next"]/descendant::text()'):        chapter_content=chapter_content.replace('本章未完，点击下一页继续阅读','').replace('-->>','').replace('&n','')        next_page_num=next_page_num+1;        chapter_now=requests.get(target_url+i.replace('.html','_'+str(next_page_num)+'.html'),headers)        chapter_now.encoding='gbk'        chapter_now=chapter_now.text; #源码        #        chapter_now_ori=chapter_now #检测用        chapter_now=etree.HTML(chapter_now)        chapter_content_next='\n'.join(chapter_now.xpath('//div[@id="nr1"]/descendant::text()'))        chapter_content_next=chapter_content_next.replace('本章未完，点击下一页继续阅读','').replace('-->>','').replace('&n','')        chapter_content=chapter_content+chapter_content_next;    return chapter_content
def get_chapter_link(link): ########## 确定章节的数目,爬取所有章节link ######    i=link[0]    url_all=link[1]    if i==0:        req_next=requests.get(url_all,headers)    else:        req_next=requests.get(url_all+str(i+1),headers)    req_next.encoding='gbk'    html_next=etree.HTML(req_next.text)    chapter_name_next=html_next.xpath('//ul[@class="last9"]//li[@class="even"]//a/descendant::text()|//ul[@class="last9"]//li//a/descendant::text()')    chapter_url_next=html_next.xpath('//ul[@class="last9"]//li[@class="even"]/a/@href|//ul[@class="last9"]//li/a/@href')    chapter_name=chapter_name_next[1:]    chapter_url=chapter_url_next[1:]    return chapter_name,chapter_url
def run_proc(page):    with ThreadPoolExecutor(200) as executor:        # 根据章节页数,得到章节url        i=list(page[0])        for k in range(len(i)):            i[k]=[i[k],page[1]]        chapter=list(executor.map(get_chapter_link,i))        chapter=list(zip(*chapter))        chapter_url=list(chapter[1])        chapter_name=list(chapter[0])        chapter_url = sum(chapter_url, [])        chapter_name = sum(chapter_name, [])        chapter_all=list(executor.map(get_chapter_content,chapter_url))        for i in range(len(chapter_all)):            chapter_all[i]=chapter_name[i]+'\n'+chapter_all[i]    return chapter_all
################################# 对于所有章节的url内容爬取 #####################################if name == 'main':    for k in book_name_list:        start=time.time()        url='https://m.52bqg.com/modules/article/waps.php?searchtype=articlename&searchkey='+parse.quote(k,encoding="gbk")+'&t_btnsearch='        req=requests.get(url,headers)        req.encoding='gbk'        if 'book_' in req.url and 'search' not in req.url: #搜索结果不是清单则直接开始爬            url_all=req.url            url_all=url_all.replace('book','chapters')        else: #是清单则判断是否有完全匹配项，若无则只爬榜1            search_result=req.text            html_search=etree.HTML(search_result)            search_book=html_search.xpath('//div[@class="article"]/a/text()')            search_book_url=html_search.xpath('//div[@class="article"]/a[1]/@href')            if k in search_book:                url_all=target_url+search_book_url[search_book.index(k)]                url_all=url_all.replace('book','chapters')            else:                url_all=target_url+search_book_url[0]                url_all=url_all.replace('book','chapters')
    </span><span>#</span><span> &#x6839;&#x636E;&#x4E66;&#x540D;&#x5224;&#x65AD;&#x7AE0;&#x8282;&#x9875;&#x6570;</span>
    req_all=<span>requests.get(url_all,headers)
    req_all.encoding</span>=<span>&apos;</span><span>gbk</span><span>&apos;</span><span>
    html_all</span>=<span>etree.HTML(req_all.text)
    chapter_page_all</span>=html_all.xpath(<span>&apos;</span><span>//table[@class=&quot;page-book&quot;]//td/a/@href</span><span>&apos;</span><span>)
    chapter_page_all</span>=chapter_page_all[1].split(<span>&apos;</span><span>/</span><span>&apos;</span><span>)
    chapter_page_all</span>=int(chapter_page_all[-1<span>])

    </span><span>#</span><span> &#x5BF9;&#x5C0F;&#x8BF4;&#x9875;&#x4F7F;&#x7528;&#x8FDB;&#x7A0B;&#x5904;&#x7406;</span>
    count=<span>0
    page_list</span>=<span>[]
    </span><span>while</span> count&lt;<span>chapter_page_all:
        next_count</span>=count+10
        <span>if</span> next_count&gt;<span>chapter_page_all:
            next_count</span>=<span>chapter_page_all;
        page_list.append([range(count,next_count),url_all])
        count</span>=count+10<span>

    p </span>= Pool(4<span>)
    result</span>=<span>p.map(run_proc, page_list)
    p.close()
    p.join()
    chapter_all</span>=<span> sum(result,[])
    end</span>=<span>time.time()
    </span><span>print</span>(<span>&quot;</span><span>&#x8017;&#x65F6;: </span><span>&quot;</span>+str(int(end-start))+<span>&apos;</span><span>&#x79D2;</span><span>&apos;</span>) <span>#</span><span>&#x8BA1;&#x65F6;&#x7EDF;&#x8BA1;</span>


        target='/n'.join(chapter_all)
        f = open(save_path+'\'+k+'.txt','a+',encoding='utf-8')
        f.read()
        f.write(target)
        f.close()
        print(k+'已完成')View Code
耗时： 40s

多进程调用协程

代码如下：

# -- coding: utf-8 --
"""
Created on Wed Mar  4 10:39:55 2020
@author: wenzhe.tian
多进程+多线程多进程+协程"""
####### 开始工作import geventfrom gevent import monkeymonkey.patch_all(thread=False)import requestsimport timefrom lxml import etreeimport osimport urllib.parse as parsefrom multiprocessing import Pool
book_name_list=['大道争锋']save_path='D:\bqg_novel\'headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36'}target_url='https://m.52bqg.com'try:    os.mkdir(save_path)except:    passnovel=[]
##### 定义两个函数获取书的url和章节的urldef get_chapter_content(i): # 根据章节url返回章节内容    chapter_now=requests.get(target_url+i,headers)    chapter_now.encoding='gbk'    chapter_now=chapter_now.text; #源码    #    chapter_now_ori=chapter_now #检测用    chapter_now=etree.HTML(chapter_now)    chapter_content='\n'.join(chapter_now.xpath('//div[@id="nr1"]/descendant::text()'))    next_page_num=1    while '下一页' in chapter_now.xpath('//div[@class="nr_page"]//td[@class="next"]/descendant::text()'):        chapter_content=chapter_content.replace('本章未完，点击下一页继续阅读','').replace('-->>','').replace('&n','')        next_page_num=next_page_num+1;        chapter_now=requests.get(target_url+i.replace('.html','_'+str(next_page_num)+'.html'),headers)        chapter_now.encoding='gbk'        chapter_now=chapter_now.text; #源码        #        chapter_now_ori=chapter_now #检测用        chapter_now=etree.HTML(chapter_now)        chapter_content_next='\n'.join(chapter_now.xpath('//div[@id="nr1"]/descendant::text()'))        chapter_content_next=chapter_content_next.replace('本章未完，点击下一页继续阅读','').replace('-->>','').replace('&n','')        chapter_content=chapter_content+chapter_content_next;    return chapter_content
def get_chapter_link(link): ########## 确定章节的数目,爬取所有章节link ######    i=link[0]    url_all=link[1]    if i==0:        req_next=requests.get(url_all,headers)    else:        req_next=requests.get(url_all+str(i+1),headers)    req_next.encoding='gbk'    html_next=etree.HTML(req_next.text)    chapter_name_next=html_next.xpath('//ul[@class="last9"]//li[@class="even"]//a/descendant::text()|//ul[@class="last9"]//li//a/descendant::text()')    chapter_url_next=html_next.xpath('//ul[@class="last9"]//li[@class="even"]/a/@href|//ul[@class="last9"]//li/a/@href')    chapter_name=chapter_name_next[1:]    chapter_url=chapter_url_next[1:]    return chapter_name,chapter_url
def run_proc(page):    # 根据章节页数,得到章节url    i=list(page[0])    for k in range(len(i)):        i[k]=[i[k],page[1]]    g_list=list(map(lambda x:gevent.spawn(get_chapter_link, x),i))    gevent.joinall(g_list)    chapter=[]    for g in g_list:        chapter.append(g.value)    chapter=list(zip(*chapter))    chapter_url=list(chapter[1])    chapter_name=list(chapter[0])    chapter_url = sum(chapter_url, [])    chapter_name = sum(chapter_name, [])    g_list=list(map(lambda x:gevent.spawn(get_chapter_content, x),chapter_url))    gevent.joinall(g_list)    chapter_all=[]    for g in g_list:        chapter_all.append(g.value)
</span><span>for</span> i <span>in</span><span> range(len(chapter_all)):
    chapter_all[i]</span>=chapter_name[i]+<span>&apos;</span><span>\n</span><span>&apos;</span>+<span>chapter_all[i]
</span><span>return</span><span> chapter_all

################################# 对于所有章节的url内容爬取 #####################################
if name == 'main':
    for k in book_name_list:
        start=time.time()
        url='https://m.52bqg.com/modules/article/waps.php?searchtype=articlename&searchkey='+parse.quote(k,encoding="gbk")+'&t_btnsearch='
        req=requests.get(url,headers)
        req.encoding='gbk'
        if 'book_' in req.url and 'search' not in req.url: #搜索结果不是清单则直接开始爬
            url_all=req.url
            url_all=url_all.replace('book','chapters')
        else: #是清单则判断是否有完全匹配项，若无则只爬榜1
            search_result=req.text
            html_search=etree.HTML(search_result)
            search_book=html_search.xpath('//div[@class="article"]/a/text()')
            search_book_url=html_search.xpath('//div[@class="article"]/a[1]/@href')
            if k in search_book:
                url_all=target_url+search_book_url[search_book.index(k)]
                url_all=url_all.replace('book','chapters')
            else:
                url_all=target_url+search_book_url[0]
                url_all=url_all.replace('book','chapters')
    </span><span>#</span><span> &#x6839;&#x636E;&#x4E66;&#x540D;&#x5224;&#x65AD;&#x7AE0;&#x8282;&#x9875;&#x6570;</span>
    req_all=<span>requests.get(url_all,headers)
    req_all.encoding</span>=<span>&apos;</span><span>gbk</span><span>&apos;</span><span>
    html_all</span>=<span>etree.HTML(req_all.text)
    chapter_page_all</span>=html_all.xpath(<span>&apos;</span><span>//table[@class=&quot;page-book&quot;]//td/a/@href</span><span>&apos;</span><span>)
    chapter_page_all</span>=chapter_page_all[1].split(<span>&apos;</span><span>/</span><span>&apos;</span><span>)
    chapter_page_all</span>=int(chapter_page_all[-1<span>])

    </span><span>#</span><span> &#x5BF9;&#x5C0F;&#x8BF4;&#x9875;&#x4F7F;&#x7528;&#x8FDB;&#x7A0B;&#x5904;&#x7406;</span>
    count=<span>0
    page_list</span>=<span>[]
    </span><span>while</span> count&lt;<span>chapter_page_all:
        next_count</span>=count+10
        <span>if</span> next_count&gt;<span>chapter_page_all:
            next_count</span>=<span>chapter_page_all;
        page_list.append([range(count,next_count),url_all])
        count</span>=count+10<span>

    p </span>= Pool(4<span>)
    result</span>=<span>p.map(run_proc, page_list)
    p.close()
    p.join()
    chapter_all</span>=<span> sum(result,[])
    end</span>=<span>time.time()
    </span><span>print</span>(<span>&quot;</span><span>&#x8017;&#x65F6;: </span><span>&quot;</span>+str(int(end-start))+<span>&apos;</span><span>&#x79D2;</span><span>&apos;</span>) <span>#</span><span>&#x8BA1;&#x65F6;&#x7EDF;&#x8BA1;</span>


        target='/n'.join(chapter_all)
        f = open(save_path+'\'+k+'.txt','a+',encoding='utf-8')
        f.read()
        f.write(target)
        f.close()
        print(k+'已完成')View Code
耗时： 60s
简单的看出多核应用大于单核，多线程当然好于无线程(不要受GIL锁对多线程误解，效率明显是提高的)
本测试中开多线程效率（线程数250）是要大于协程的。
下篇将会对全站小说爬取的多进程多线程调用总结以及scrapy应用的对比。
欢迎交流指正。有任何疑问直接丢评论区。

Original: https://www.cnblogs.com/techs-wenzhe/p/12550451.html
Author: 冻雨冷雾
Title: python爬虫多进程,多线程,协程以及组合应用的效率对比(multiprocessing库)–以爬取单本小说全文为例

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/564522/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于Pytorch实现的声音分类

前言本项目是基于Pytorch的声音分类项目，旨在实现对各种环境声音、动物叫声和语种的识别。项目提供了多种声音分类模型，如EcapaTdnn、PANNS、ResNetSE、CAM…

Python 2023年9月7日
0050
Python | Pandas数据清洗与画图

准备数据 2016年北京PM2.5数据集数据源说明：美国驻华使馆的空气质量检测数据数据清洗 1. 导入包 import numpy as np import matplotlib…

Python 2023年8月7日
0045
Python爬虫常用正则re.findall的使用

1、单字符表达 . : 除换行以外所有字符 [] ：[aoe] [a-w] 匹配集合中任意一个字符 \d ：数字 [0-9] \D : 非数字 \w ：数字、字母、下划线、中文 \…

Python 2023年8月3日
0032
现代检测技术课程实验编程：最小二乘法应用编程

现代检测技术课程实验编程：最小二乘法应用编程一、最小二乘法编程题目描述二、最小二乘法编程题目要求三、什么是最小二乘法四、最小二乘法编程步骤 4.1、界面的设计 4.2、 …

Python 2023年9月26日
0038
Pandas 实现excel类似vlookup 的匹配功能 (apply, merge, join)

Excel的vlookup功能在数据量太大的前提下就挺难用的，所以还是需要pandas搞定下面是用pandas实现匹配的方法如下图，假如我有一个表全是印尼文 A有另一张在goo…

Python 2023年8月18日
0033
〖Python接口自动化测试实战篇⑤〗- 接口自动化测试必备基础 – http协议

### 回答1： Python Web 自动化测试实战_篇是一本介绍如何使用 _Python_语言进行Web _自动化测试_的实用指南。本书从 _基础_概念入手，详细讲解了W…

Python 2023年8月2日
0055
Pandas groupby分组操作详解

在数据分析中，经常会遇到这样的情况：根据某一列（或多列）标签把数据划分为不同的组别，然后再对其进行数据分析。比如，某网站对注册用户的性别或者年龄等进行分组，从而研究出网站用户的画像…

Python 2023年8月7日
0029
centos7+django+uwsgi+vue 项目搭建

1.安装anaconda 安装bzip2，系统中可能已经自带 yum -y install bzip2 下载anaconda3 wget https://mirrors.tuna….

Python 2023年8月4日
0040
18.自定义标签及模板中的使用【由浅入深】

紧接上文——《17.自定义过滤器及模板中的使用（实战通过自定义过滤器实现内置过滤器lower和cut的功能）》，本文来讲一讲自定义标签！！！自定义标签：源码学习：templat…

Python 2023年8月5日
0061
Python代码块及输入输出

3.7 Python代码块及输入输出分别引入了关键字和运算符，表达式由运算符和操作数组成。该语句由关键字、标识符和表达式组成。代码块由几个语句组成。 [En] The keywo…

Python 2023年5月24日
0068
python中plot的参数_python plot函数参数 python matplotlib数据作图

Python matplotlib 画曲线图可以指定y轴具体值吗？不喧，不吵，静静地守着岁月；不怨，不悔，淡淡的对待自己。 y轴默认会有数值，你是需要自定义吗可以使用yticks…

Python 2023年9月6日
0046
Python 学习笔记（六）–线程

1.自定义进程自定义进程类，继承Process类，重写run方法（重写Process的run方法）。 from multiprocessing import Process im…

Python 2023年5月25日
0075
在C++中，为什么部分程序员喜欢在循环中写‘++i’而不是‘i++’？

自入行以来，无论是查阅资料、技术博客亦或是同事间的技术交流，都有一个共识: 在循环的时候，务必使用前置操作符，因为其性能优于后置操作符，久而久之，这个就像一个不成文的规定，大家都在…

Python 2023年10月7日
0045
爬虫日记(21)：使用Pipeline模块写入文件二

前面学习了Pipeline模块写入文件，这个例子非常简单，一学就会，不过这个例子也有一个重要的缺陷，对于一般的数据量也许感觉不出来，如果对于数百万，或者数千万的量级就会体现出来。不…

Python 2023年10月4日
0027
Pytest学习笔记（1）-快速入门

快速入门 Pytest特点 Pytest是Python的一个第三方单元测试库。它的目的是让单元测试变得更容易，并且也能扩展到支持应用层面复杂的功能测试，特点有：入门简单，易上手，…

Python 2023年9月13日
0035
Python绘制多因子柱状图到底有多简单

Original: https://www.cnblogs.com/123456feng/p/16199490.htmlAuthor: 蚂蚁ailingTitle: Python绘…

Python 2023年5月24日
0060

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

python爬虫多进程,多线程,协程以及组合应用的效率对比(multiprocessing库)–以爬取单本小说全文为例

以爬取–笔趣阁–大道争锋为例，测试相关组合的性能。

大家都在看