用python将网上的文章转存为PDF文档，保存电脑上慢慢看

2023年5月24日上午12:45 • Python • 阅读 62

import requests
import parsel
import pdfkit
import os
import re

html_str = """



    
    Document


{article}


"""

def change_title(title):
    """
    python学习交流群：279199867
    替换标题中的特殊字符
    :param title: 传入文章标题
    :return: 返回一个替换掉特殊字符的标题
    """
    """
    使用re.compile()将正则表达式的字符串形式编译为一个对象，通过该对象提供的一些列方法对文本
    进行匹配查找
    re.sub() 第一个参数对应的正则表达式，第二个参数为要替换成的字符串， 第三个参数为源字符串
    """
    pattern = re.compile(r"[\/\\\:\*\?\"\\|]")  # '/ \ : * ? " < > |'
    new_title = re.sub(pattern, "_", title)  # 替换为下划线
    return new_title

for page in range(1, 11):
    """
    发送请求的url地址，唯一资源定位符
    headers: 请求头 把python伪装成浏览器对服务器发送请求， 然后服务器会给我们返回一个响应数据
        请求头所加的参数都是可以在开发者工具中的headers里面的request headers中找到的
        比如 user-agent：代表着浏览器的信息
            cookies：用户的信息 常用于检测是否有登陆账号
            host：域名
            referer：常说的防盗链，告诉服务器是从哪个网页跳转过来的
    请求方式：可以通过开发者工具中headers里面的数据看到是什么样的请求方式
        get请求： 是可以直接从服务器上面获取数据
        post请求：需要向服务器发送一个数据 比如说(搜索/登陆)
    response：响应对象
    状态码： 200表示请求成功 300：重定向 跳转 400：通常是url网址不对 500 一般是服务器问题
    获取网页文本数据 response.text 获取网页json字典数据 response.json() 获取网页二进制数据 response.content
    """
    url = 'https://blog.csdn.net/qdPython/article/list/{page}'
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'
    }
    response = requests.get(url=url, headers=headers)
    """
    把 html 字符串数据转换成一个 Selector 对象
    Selector 就具有一系列数据解析的方法  css/xpath/re
    类选择器 都是使用圆点.开头
    ID选择器 是使用#开头
    属性选择器：
        ::text获取标签里面的文本数据
        ::attr(xxx) 获取标签内某一个属性的数据
        get() 从 Selector 对象中提取第一个数据, 直接返回字符串数据给我们
        getall() 从 Selector 对象中提取提取所有数据, 返回一个列表
    """
    selector = parsel.Selector(response.text)
    href = selector.css('.article-list div.article-item-box a::attr(href)').getall()
    for link in href:
        response_1 = requests.get(url=link, headers=headers)
        selector_1 = parsel.Selector(response_1.text)
        title = selector_1.css('#articleContentId::text').get()
        content = selector_1.css('#content_views').get()
        new_title = change_title(title)
        # 创建文件保存地址以及保存文件的名字 和格式
        pdf_path = 'pdf\\' + new_title + '.pdf'
        html_path = 'pdf\\' + new_title + '.html'
        # str.format() 字符串格式化方法
        html = html_str.format(article=content)
        """
        with open   打开文件时, 当文件对象引用完毕之后会自动关闭文件
        html_path：文件保存路径以及名字格式
        mode：保存方式 w 写入 如果你不写mode默认是r 读
        encoding： 编码
        as f 重命名 可以自定义
        f = open()
        f.writer()
        f.close()
        """
        with open(html_path, mode='w', encoding='utf-8') as f:
            f.write(html)
            print('正在保存：', title)
        # exe 文件存放的路径
        config = pdfkit.configuration(wkhtmltopdf='C:\\Program Files\\wkhtmltopdf\\bin\\wkhtmltopdf.exe')
        # 把 html 通过 pdfkit 变成 pdf 文件
        pdfkit.from_file(html_path, pdf_path, configuration=config)
        os.remove(html_path)

Original: https://www.cnblogs.com/hahaa/p/16309447.html
Author: 轻松学Python
Title: 用python将网上的文章转存为PDF文档，保存电脑上慢慢看

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/499497/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

django订阅gerrit事件流数据

from cmback.settings import GERRIT_HOSTNAME, GERRIT_URL, GERRIT_PORT, G_USERNAME, G_PASSWO…

Python 2023年5月24日
0039
ERROR: Cannot find command ‘git‘ – do you have ‘git‘ installed and in your PATH

虚拟环境中，在配置coco数据集的API时出现以下错误 (py37) C:\Users\HASEE>pip install git+https://github.com/ph…

Python 2023年8月2日
0072
Python | NumPy | 3D 数据可视化 – 散点图

本文介绍如何使用NumPy相关的数据实现数据的3D散点图可视化。Updated: 2022 / 03 / 06 Python | NumPy | 3D 数据可视化 – …

Python 2023年8月24日
0054
conda创建虚拟环境时报错: InvalidArchiveError(‘Error with archive /usr/local/Anaconda3

错误我在使用conda进行虚拟环境创建的时候，弹出来一大堆错误信息，每一条大概是这样的。InvalidArchiveError(‘Error with archive …

Python 2023年9月7日
0076
opencv

import cv2 as cv import sys import time 指定视屏存储解码格式 fourcc = cv.VideoWriter_fourcc(*’XVID’)…

Python 2023年6月6日
0056
pandas进阶–Dataframe的drop_duplicates方法(数据去重)

文章目录欢迎关注公众号【Python开发实战】，免费领取Python学习电子书！ Dataframe的drop_duplicates方法 * drop_duplicates方法介…

Python 2023年8月9日
0066
用python制作飞机大战_Python制作AI且mini版飞机大战

下载W3Cschool手机App，0基础随时随地学编程导语大家新年快乐呀~~~ T_T 大年三十终于偷得半日清闲想起来有些日子没更公众号了~~~ So，来更一波文章hhhhh~~…

Python 2023年9月25日
0042
『德不孤』Pytest框架 — 14、Pytest参数化

软件测试中，输入相应值，检查期望值，是常见测试方法。在自动化测试中，一个测试用例对应一个测试点，通常一组测试数据是无法完全覆盖测试范围的，所以需要参数化来传递多组数据。 Unit…

Python 2023年9月14日
0041
如何将列表中的子列表以列或者以行的形式写入Excel中

学习目标：掌握Python Excel操作模块XlsxWriter之写入行worksheet.write_row()掌握Python Excel操作模块XlsxWriter之写入…

Python 2023年8月21日
0057
代码演示傅里叶合成演示

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档傅里叶演示前言一、涉及公式 * 资料来源：二、实践 * 1.环境 2.完整代码总结 * 保存MP4 前言 …

Python 2023年9月3日
0062
毕设模拟之母婴商城（实训总结报告）

母婴商城 1.摘要 1.1选题依据在2021年五月的最后一天，三胎开放政策如晴天霹雳般出现，在某些人一胎还没有生的时候，国家已经开放三胎政策了。80,90的人们是响应国家号召的主…

Python 2023年8月3日
0078
微信小程序 | 小程序组件化开发

🖥️ 微信小程序专栏：小程序组件化开发🧑‍💼 个人简介：一个不甘平庸的平凡人🍬✨ 个人主页：CoderHing的个人主页🍀 格言: ☀️ 路漫漫其修远兮,吾将上下而求索☀️👉 …

Python 2023年11月4日
0053
虚拟环境搭建

虚拟环境搭建我们进行开发的时候虚拟环境搭建尤为重要，我们如果需要的python解释器模块版本不一样可以采用这个办法 pycharm中搭建命令创建虚拟环境比如centos没有图…

Python 2023年11月3日
0056
数组增加一个元素、增加一列、增加一行——Python & Matlab

1 引言 2 Matlab实现方式 3 Python实现方式 4 补充说明 4.1 数组赋值 4.2 append()函数 Matlab和Python在处理数组时有很多不同点，比如…

Python 2023年8月22日
0091
(Ipython)Matplotlib 中将二叉树可视化

（注意之前代码有错误目前已更新）最近学习黑红二叉树，我想如果把二叉树可视化在操作的时候如果出错会比较容易发现。在网上搜了一圈只有比较简单的ascii 的代码。自己用Ipyth…

Python 2023年9月1日
0031
深度学习之深L层神经网络

声明本文参考(8条消息) 【中文】【吴恩达课后编程作业】Course 1 – 神经网络和深度学习 – 第四周作业(1&2)_何宽的博客-CSDN博…

Python 2023年10月25日
0044

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

用python将网上的文章转存为PDF文档，保存电脑上慢慢看

大家都在看