python编程获取《续蜀山剑侠传》目录信息：目录名称和网址

2023年5月25日上午9:36 • Python • 阅读 95

原创

PurpleEndurer2022-07-20 16:19:55博主文章分类：Python ©著作权

文章标签 大数据 python 网页 HTML html 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者PurpleEndurer的原创作品，请联系作者获取转载授权，否则将追究法律责任

一直很欣赏武侠小说宗师还珠楼主李寿民的扛鼎之作《蜀山剑侠传》，可惜由于种种原因，《蜀山剑侠传》并未写完。这着实令还珠迷们扼腕，也有不少人继写了《蜀山剑侠传》，但是良莠夹杂，其中有一位退休公务员写的《续蜀山剑侠传》相对来说是按照还珠楼主的思路续写的，并且在网上连载了，于是想把它从网上down下来保存为txt文件。顺便练习一下Python编程。

首先要获取目录信息，主要是目录名称和网址。通过分析连载网站的网页源代码，编写Python代码如下：

-*- coding:UTF-8 -*-import urllib.request, sysimport redef openUrl(url):   try:      page = urllib.request.urlopen(url, data=None, timeout=5)   except urllib.error.HTTPError as e:     print(e.code)     print(e.reason)     return ''   except urllib.error.URLError as e:     print(e.reason)     return ''   else:          html = page.read().decode('utf-8')     return htmldef getList(html, tag):   i = html.find(tag)   if i == -1:      print ('没有找到' + tag)     return ''   else:      con = html[i+len(tag):]      #print ("前30个字符：" + con[:30])      tag = 'ul'     tag_pat = r'(?+ tag + '>).*?(?= + tag + '>)'       tag_ex = re.compile(tag_pat, re.M|re.S)       con = re.findall(tag_ex, con)      #con = html.split('正文')     #print (con[0])     return con[0]def printList(list, host):   #获取text   res = r'(.*?)'   t =  re.findall(res, list, re.S|re.M)   #获取href   res_url = r"(?   h = re.findall(res_url, list, re.I|re.S|re.M)      for i in range(len(t)):     print (str(i+1) + '\t' + t[i] + '\t' + host + h[i])def main():   url = 'http://www.mengxi.net/book/263745/index.html'   i = url.index('/', 7)   host = url[0 : i]   print ('打开' + url)   html = openUrl(url)   if len(html) > 0:      tag = '正文'      list = getList(html, tag)     printList(list, host)main()

程序运行结果如下：

赞
收藏
评论
*举报

上一篇：我用杀毒软件的历史

下一篇：Windows7电脑启动时提示文件winload.exe无法验证其数字签名，错误代码0xc0000428的解决方法

Original: https://blog.51cto.com/endurer/5497180
Author: endurer
Title: python编程获取《续蜀山剑侠传》目录信息：目录名称和网址

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/513359/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

我去！Python 不愧是脚本之王，这 23 种命令行用法你全部 get 了吗？

1. 快速打印函数的调用栈在阅读源码的时候，有时候我们想要看整个程序的调用栈是怎样的？比较常规的做法是使用全局搜索函数，一层一层往上走，效率非常之低。而我习惯了使用 pdb …

Python 2023年8月2日
0042
密码学奇妙之旅、01 CFB密文反馈模式、AES标准、Golang代码

CFB密文反馈模式 CFB密文反馈模式属于分组密码模式中的一种。加密步骤生成用于异或的密钥流。其弥补了 ECB电子密码本模式的不足（明文中的重复排列会反映在密文中，通过删除替…

Python 2023年10月20日
0056
GEE（python）将图像转为numpy，并通过gdal重新输出为图像

为了实现这个功能，真的找了很多很多的资料。这里感谢吴秋生老师在github和YouTube上的分享。接下来分享我的代码（ps：使用的编译器是jupyter lab，使用的数据是上一…

Python 2023年8月25日
0059
【机器学习】李宏毅——浅谈机器学习原理+鱼与熊掌兼得的深度学习简述

如何评判一个训练集的好坏如果我们希望得到一个训练集，并且用该训练集所训练出来的模型，在训练集上的误差和在整个数据空间上的误差相距较小，即写成如下表达式： [L(h^{train…

Python 2023年10月24日
0048
pygame怎么让背景图片和窗口一样大小_什么是投标总价？投标总价大小写不一样怎么办？…

招投标是一项基本建设领域的国家规定，目的作用不再细说，反正是为了国家好百姓好，我们在进行招投标的时候，经常会听到投标总价这个词，大家真的了解这个词的含义吗？今天小编就给大家讲讲什么…

Python 2023年9月25日
0055
git命令

1、把代码提交到gitee,完全可行，详细操作 1.创建仓库 git init 2.连接仓库 git remote add origin 仓库地址 3.先把仓库都东西更新到本地 g…

Python 2023年9月30日
0038
Flask框架——MongoEngine使用MongoDB数据库

目录 MongoEngine 安装配置映射文档添加数据添加单条数据添加多条数据查询数据修改数据删除数据上篇文章我们学习了Flask框架——Bootstrap-Fl…

Python 2023年8月11日
0056
一些python数据处理方法总结

import numpy import pandas as pd #画图设置 import matplotlib.pyplot as plt plt.rcParams[‘font….

Python 2023年8月21日
0081
入门Python，看完这篇就行了！

转载请注明出处❤️ 作者：测试蔡坨坨原文链接：caituotuo.top/3bbc3146.html 你好，我是测试蔡坨坨。众所周知，Python语法简洁、功能强大，通过简单的…

Python 2023年10月21日
0031
机器学习实验：主成分分析PCA

介绍（Introduction）在本次实验中，将实现主成分分析方法，并使用它获得人脸图像的低维表示。本次实验需要用到的数据集包括： ex4data1.mat -2D 仿真数据集…

Python 2023年8月29日
0052
【机器学习】李宏毅——Explainable ML(可解释性的机器学习)

在前面的学习之中，我们已经学习了很多的模型，它能够针对特定的任务，接受我们的输入并产生目标的输出。但我们并不满足于此，我们甚至希望机器告诉我们，它是如何得到这个答案的，而这就是可…

Python 2023年10月24日
0045
python教程鱼c_鱼c python 教程爬虫

鱼c import requests from bs4 import BeautifulSoup import re def get_pages_url(): url = &#82…

Python 2023年9月22日
0049
python matplotlib中axes与subplot的区别是什么

1.axes subplot axis 先说第一个疑惑 Axes – Subplot – Axis 之间到底是个什么关系？因为我是努力在看英文的教程，所以…

Python 2023年9月3日
0064
《头号玩家》AI电影调研报告（三）

【 AR 市场正在迅猛增长】据《工业增强现实现状2017》报告中所述，AR不再只是值得期待的新兴技术。2018年，投资此类技术已成为很多组织机构的关键战略，尤其是对于涉及复杂的制…

Python 2023年10月26日
0047
华为组播配置实验，PIM-DM组播配置实验

一、配置VLAN，并将端口加入VLAN LSW5: system vlan batch 10 to 100 int g 0/0/1 port link-type trunk por…

Python 2023年6月10日
0083
Python 堆排序法

一、堆：是一种数据结构，一种叫做完全二叉树的数据结构。二、堆的性质： 1、大顶堆：每个节点的值都大于或者等于它的左右子节点的值。大顶堆性质：arr[i] >= arr[…

Python 2023年5月25日
0048

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python编程获取《续蜀山剑侠传》目录信息：目录名称和网址

大家都在看