django+vue+nginx+frp搭建漫画网站之爬虫部分新增站点漫画狂cartoonmad（四）

2023年8月6日上午2:14 • Python • 阅读 142

地址：http://www.iewoai.com/

django+vue+nginx+frp搭建漫画网站之爬虫部分新增站点漫画狂cartoonmad（四）

; 1、背景

看了下记录，已经有一个月没有新增爬虫站点了，懈怠了懈怠了/抱头。

这次要整的网站是http://www.cartoonmad.com，漫画数目不多，在一万以下，属于比较简单的网站。貌似是使用ASP（Active Server Pages 动态服务器页面）写的，详情可以查看[1]，是许多年前语言了，但问题不大，只要能看到就能爬。网站也是老牌网站（据说），有些是目前vomic漫画上没有的，资源质量也还不错。只是页面加载慢和网页结构比较不规范，但这并不影响爬虫的编写。

2、步骤

爬虫主要使用python的scrapy和requests库，由于是第八个爬取的漫画站点了，早已有了一套爬取流程。主要流程为：找最大id、详情页、章节信息、图片信息。

0、首先查看robots协议（没有，过）

如果有的话，还是建议爬取别人站点时遵循robots协议的内容，合理设置请求频率和爬取页面，做一个友好的爬虫~~（如果有sitemap等地址的话，也有利于分析页面）~~

1、寻找最大id

为了减轻爬虫逻辑，最好的办法就是找规律，比如找到爬取页的最大id、列表页最大页数、接口参数的最大值。漫画详情页地址为：https://www.cartoonmad.com/comic/5292.html， 5292就是该漫画的id了，那只需找到最大id即可。一般站点会有最新上架的漫画页面，这个站点也不例外：https://www.cartoonmad.com/comic99.html，第一个就是最新的漫画，max_id为 8783。

编写获取max_id的代码如下：

  # 获取最新的漫画id
  def get_max_id(self):
      url = 'https://www.cartoonmad.com/comic99.html'
      r = requests.get(url)
      r.encoding = r.apparent_encoding
      temp = etree.HTML(r.text).xpath('//a[@class="a1"]/@href')[0]
      max_id = re.findall(r'\d+', temp)[0]
      return int(max_id)

并编写 start_requests函数：

  def start_requests(self):
      max_id = self.get_max_id()
      while max_id >= 0:
          comic_id = max_id
          url = f'https://www.cartoonmad.com/comic/{max_id}.html'
          print(f'正在爬取[{url}]')
          yield scrapy.Request(url, callback=self.parse_main, meta={'comic_id': str(comic_id)})
          max_id -= 1

2、详情页信息

漫画主要采集的包括：标题，简介，关键，分类，作者名称等

页面结构清晰，但是dom树比较糟糕，使用xpath提取时用了不少的 contains（只贴出xpath，其他处理参考完整代码）：

标题： //*[contains(text(), "簡介")]/text()
简介： //*[contains(text(), "簡介")]/..//td//text()
关键字： //*[contains(@href, "/tag.asp")]/text()
分类： //*[contains(text(), "漫畫分類")]/..//a/text()
作者名称： //*[contains(text(), "原創作者：")]/text()
星级： //span[contains(@class, "vstar")]/@class
封面图： //*[@class="cover"]/../img/@src

全部信息如下：

3、章节信息

主要采集章节名称，图片数目，章节下标，是否更新主表（只有在最新一章节的时候采需要更新到主表里去）等，这部分也同样是xpath，具体不再赘述，详情参考完整代码。不过部分页面上显示的章节信息并不完整。

4、图片信息

这个站点的图片信息比较简单，没有接口也没有什么反爬。不过图片是通过重定向获取到真实地址的，且一页只有一张图片，且手机端也是，还有广告（体验极差），但还是能通过获取最大页码去拼接图片地址的方式得到所有的真实页图片地址。这样从详情页进来爬取完一个章节的所有图片，只需要请求三次即可：详情业+章节页 + 重定向。

再次建议编写爬虫时，尽量减少请求的次数，这样可以降低被爬取方的服务器压力和提升爬取方的爬取效率

先获取第一张图的src和总页数：

  first_src = self.vcrawl('//img[contains(@src, "?file=")]/@src', response)
  page_all = response.xpath('//select/option/text()').extract()
  if first_src and page_all:
      page_all = re.findall(r'\d+', page_all[-1])
      if page_all:
          meta['page_all'] = int(page_all[0])
          # print(first_src)
          yield scrapy.Request(first_src, callback=self.parse_page, meta=meta)

构造请求，并在 parse_page中获取到重定向之后的real_src，并拼接出所有图片地址：

page_all = response.meta['page_all']
real_src = response.url
real_src_head = real_src.rsplit('/', 1)[0]
real_src_end = real_src.rsplit('/', 1)[-1].split('.')[-1]

for i in range(1, page_all+1):
    sort_index = i
    page_url = f'{real_src_head}/{i:03}.{real_src_end}'

部分结果如下：

到此爬取结束。

3、总结

像此类小众网站一般不会有反爬措施，而且数据量小，基本能找到构造url或者图片地址的办法。但还是要注意爬取频率，我一般都会在各站点的爬虫中指定爬取频率，类似：

· custom_settings = { 'RANDOMIZE_DOWNLOAD_DELAY': True, 'DOWNLOAD_DELAY': 1, }</p> <p>

且行且珍惜，下一站爬取动漫屋：http://www.dm5.com/manhua-list-pay0/

参考资料：

ASP 简介https://www.w3school.com.cn/asp/asp_intro.asp

Original: https://blog.csdn.net/weixin_44762688/article/details/119039002
Author: teacup12138
Title: django+vue+nginx+frp搭建漫画网站之爬虫部分新增站点漫画狂cartoonmad（四）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/736600/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

chapter06_坐标轴的定制_大数据2003_02

向任意位置添加坐标轴 add_axes/axes(arg=(None【subplot（111）】/4-tuple【四个0-1的浮点型元组left/bottom确定坐标轴的位置；wi…

Python 2023年9月6日
0025
NumPy数值基础

一：NumPy多维数组 1.创建数组 #创建数组 data1=np.array([1,2,3,4]) print(data1) #创建等差数组 data4=np.linspace(…

Python 2023年8月27日
0043
python绘图库matplotlib：刻度线的方向调整, in, out, inoutpython绘图库matplotlib：画线的标志marker的设置——类型/

前文相关： python绘图库matplotlib：画线的标志marker的设置——类型/size/空心/边线颜色及大小/显示marker超出边界部分由于工作需要经常用matpl…

Python 2023年5月25日
0078
sanic/flask + openpyxl 实现excel文件上传解析

介绍 openpyxl的基本使用和web应用中前端上传文件，后端（sanic）解析存入数据库。 1 openpyxl 简单使用 openpyxl是用于读取/写入excel 文件的P…

Python 2023年8月10日
0037
python pd groupby用法_DataFrame.groupby()所见的各种用法详解

groupby的函数定义： DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, gro…

Python 2023年8月6日
0061
NumPy字符串处理函数

NumPy 提供了许多字符串处理函数，它们被定义在用于处理字符串数组的 numpy.char 这个类中，这些函数的操作对象是 string_ 或者 unicode_ 字符串数组。如…

Python 2023年8月28日
0030
python中boolean是什么意思_python的~在使用boolean时发生了什么？

在pandas数据帧中，我有一系列布尔值。为了筛选布尔值为真的行，我可以使用：df[df.column_x] 我想为了只过滤列为False的行，我可以使用：df[~df.colum…

Python 2023年8月8日
0039
7个你可能从未使用过的Python隐藏技巧

Python 是每个程序员都喜欢的语言，因为它易于编码和易于阅读的语法。但是，你知道 python 有一些很酷的技巧可以用来让事情变得更简单吗？在今天的内容中，我将与你分享7 个你…

Python 2023年10月30日
0024
matplotlib.pyplot.hist 参数介绍

matplotlib.pyplot.hist(x, bins=None, range=None, density=False, weights=None, cumulative=F…

Python 2023年9月6日
0055
Scrapy-redis爬取51Job数据

Scrapy-redis爬取51Job数据一、工具 python3 scrapy-redis redis 二、准备工作（一）安装各个模块项目中使用到工具主要是Python3和…

Python 2023年10月2日
0044
OpenCV-Python实战（14）——人脸检测详解（仅需6行代码学会4种人脸检测方法）

OpenCV-Python实战（14）——人脸检测详解（仅需6行代码学会4种人脸检测方法） * – 0. 前言 – 1. 人脸处理简介 – 2….

Python 2023年9月17日
0064
1228（不定积分，matplotlib,leetcode21,26）

数学基础篇（不定积分） 1.不定积分 1.1不定积分的定义不定积分就是求导的逆运算，但是不定积分F(x)是一个代表元，他的导数是f(x),但他不唯一。 ; 1.2 初等函数的不定…

Python 2023年9月3日
0043
Python之Cartopy地图绘图包的学习与使用

🗺 🌏Cartopy地图绘图包—— “专为地理空间数据处理而设计，以生成地图和其他地理空间数据分析。”，是在PROJ、pyshp、shapely、GEOS等…

Python 2023年8月3日
0061
pytest零基础入门到精通（04）conftest文件详解

conftest的作用首先， conftest.py 的文件名称是固定的， pytest 会自动识别该文件，我们可以理解成一个专门存放 fixture 的配置文件。一个工程下可…

Python 2023年9月10日
0043
Python 程序员过中秋Python+pygame 制作拼图小游戏（附源码：5源码）

Python 程序员过中秋Python+pygame 制作拼图小游戏（附源码：5源码）又是一年中秋至一花好月圆夜，佳文当共鉴。Python+ pygame制作拼图小游戏; 制作…

Python 2023年8月3日
0079
ChatGPT使用初体验

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年11月4日
0058

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30