黑科技编程开发，利用Python使图片完美去除水印

2023年11月9日下午10:59 • Python • 阅读 45

网上下载的 pdf 学习资料有一些会带有水印，非常影响阅读。比如下面的图片就是在 pdf 文件上截取出来的。

安装模块

干货主要有：

① 200 多本 Python 电子书（和经典的书籍）应该有
② Python标准库资料（最全中文版）
③ 项目源码（四五十个有趣且可靠的练手项目及源码）
④ Python基础入门、爬虫、网络开发、大数据分析方面的视频（适合小白学习）
⑤ Python学习路线图（告别不入流的学习）

PIL：Python Imaging Library 是 python 上非常强大的图像处理标准库，但是只能支持 python 2.7，于是就有志愿者在 PIL 的基础上创建了支持 python 3的 pillow，并加入了一些新的特性。

<span class="hljs-attribute">pip install pillow</span>

pymupdf 可以用 python 访问扩展名为.pdf、.xps、.oxps、.epub、.cbz或.fb2的文件。还支持了许多流行的图像格式，包括多页TIFF图像。

<span class="hljs-attribute">pip install PyMuPDF</span>

导入需要用到的模块

from <span class="hljs-type">PIL <span class="hljs-keyword">import Image
from itertools <span class="hljs-keyword">import product
<span class="hljs-keyword">import fitz
<span class="hljs-keyword">import os</span></span></span></span></span>

获取图片的 RGB

pdf 去水印的原理和图片去水印的原理差不多，小编先从去除上面那张图片的水印开始。

学过计算机的小伙伴们都知道，计算机中用 RGB 代表红绿蓝，用 (255, 0, 0) 表示红色，(0, 255, 0) 表示绿色，(0, 0, 255) 表示蓝色，(255, 255, 255) 表示白色，(0, 0, 0) 表示黑色，去水印的原理就是将水印的颜色变成白色(255, 255, 255)。

首先获取图片宽和高，用 itertools 模块获取宽和高的笛卡尔积作为像素点。每个像素点的颜色都由前三位的 RGB 和第四位的 Alpha 通道构成。Alpha 通道不需要，只要 RGB 数据。

<span class="hljs-attr">def <span class="hljs-string">remove_img():
    <span class="hljs-attr">image_file = <span class="hljs-string">input("&#x8BF7;&#x8F93;&#x5165;&#x56FE;&#x7247;&#x5730;&#x5740;&#xFF1A;")

    <span class="hljs-attr">img = <span class="hljs-string">Image.open(image_file)
    </span></span></span></span></span></span>

图片去水印

用微信截图的方式查看水印像素点的 RGB。

可以看到水印的 RGB 是 (210, 210, 210)，这里用 RGB 的和超过 620 就判定是水印点，此时将像素颜色替换为白色。最后保存图片。

rgb = img.getpixel(<span class="hljs-keyword">pos)[:<span class="hljs-number">3]
<span class="hljs-keyword">if(sum(rgb) >= <span class="hljs-number">620):
    img.putpixel(<span class="hljs-keyword">pos, (<span class="hljs-number">255, <span class="hljs-number">255, <span class="hljs-number">255))

img.save(<span class="hljs-string">'d:/qsy.png')
</span></span></span></span></span></span></span></span></span>

示例结果：

PDF 去水印

PDF 去水印的原理和图片去水印的原理大致相同，用 PyMuPDF 打开 pdf 文件后，将 pdf 的每一页都转换为图片 pixmap，pixmap 有它自己的 RGB，只需要将 pdf 水印中的 RGB 改为(255, 255, 255) 最后保存为图片。

def remove_pdf():
    page_num = <span class="hljs-number">0
    pdf_file = input(<span class="hljs-string">"&#x8BF7;&#x8F93;&#x5165; pdf &#x5730;&#x5740;&#xFF1A;")
    pdf = fitz.open(pdf_file);
    <span class="hljs-keyword">for page in pdf:
        pixmap = page.get_pixmap()
        <span class="hljs-keyword">for <span class="hljs-keyword">pos in product(range(pixmap.width), range(pixmap.height)):
            rgb = pixmap.pixel(<span class="hljs-keyword">pos[<span class="hljs-number">0], <span class="hljs-keyword">pos[<span class="hljs-number">1])
            <span class="hljs-keyword">if(sum(rgb) >= <span class="hljs-number">620):
                pixmap.set_pixel(<span class="hljs-keyword">pos[<span class="hljs-number">0], <span class="hljs-keyword">pos[<span class="hljs-number">1], (<span class="hljs-number">255, <span class="hljs-number">255, <span class="hljs-number">255))
        pixmap.pil_save(f<span class="hljs-string">"d:/pdf_images/{page_num}.png")
        <span class="hljs-keyword">print(f<span class="hljs-string">"&#x7B2C;{page_num}&#x6C34;&#x5370;&#x53BB;&#x9664;&#x5B8C;&#x6210;")
        page_num = page_num + <span class="hljs-number">1
</span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span>

示例结果：

图片转为 pdf

图片转 pdf 需要注意的是图片的排序，数字文件名必须先转换为 int 类型后排序。用 PyMuPDF 模块打开图片后将图片用 convertToPDF() 函数转成单页的 pdf。插入到新的 pdf 文件中。

def pic2pdf():
    pic_dir = <span class="hljs-built_in">input(<span class="hljs-string">"&#x8BF7;&#x8F93;&#x5165;&#x56FE;&#x7247;&#x6587;&#x4EF6;&#x5939;&#x8DEF;&#x5F84;&#xFF1A;")

    pdf = fitz.<span class="hljs-built_in">open()
    img_files = sorted(<span class="hljs-built_in">os.listdir(pic_dir),key=lambda x:int(str(x).split(<span class="hljs-string">'.')[<span class="hljs-number">0]))
    <span class="hljs-keyword">for img <span class="hljs-keyword">in img_files:
        <span class="hljs-built_in">print(img)
        imgdoc = fitz.<span class="hljs-built_in">open(pic_dir + <span class="hljs-string">'/' + img)
        pdfbytes = imgdoc.convertToPDF()
        imgpdf = fitz.<span class="hljs-built_in">open(<span class="hljs-string">"pdf", pdfbytes)
        pdf.insertPDF(imgpdf)
    pdf.save(<span class="hljs-string">"d:/demo.pdf")
    pdf.<span class="hljs-built_in">close()
</span></span></span></span></span></span></span></span></span></span></span></span></span></span></span>

总结

pdf 和图片上恼人的水印终于可以在强大的 python 面前消失了。小伙伴们学会了吗？

Original: https://www.cnblogs.com/sn5200/p/15883571.html
Author: Python可乐的呀
Title: 黑科技编程开发，利用Python使图片完美去除水印

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/814996/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

我的个人微信也迅速接入了 ChatGPT

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年11月5日
0038
mac conda安装

目录安装把anaconda的路径配置到系统环境变量中默认base环境新建虚拟环境对虚拟环境中安装额外的包配置国内镜像源清华源：中科大源: 与他人分享虚拟环境的配置 …

Python 2023年9月8日
0041
跟着李沐老师做BERT论文逐段精读（笔记）

论文地址；中文翻译；代码地址；视频地址；本篇大部分内容来源。只做整理补充，推荐去看李沐老师原视频，讲的真的很好建议学习顺序：5min全局理解->李沐老师论…

Python 2023年10月28日
0056
django.views.generic通用视图的CreateView, ListView, UpdateView, DetailView, DeleteView用法

导入： from django.views.generic import CreateView, ListView, UpdateView, DetailView, DeleteV…

Python 2023年8月5日
0043
Django 系列官方教程[3]Views and templates

续第二章，这里开始创建视图一、概述视图是Django应用程序中的一种”类型”的网页，通常提供特定的功能并具有特定的模板。例如，在博客应用程序中，可能有以…

Python 2023年8月5日
0058
BUUCTF(6)

[WesternCTF2018]shrine 1 import flask import os app = flask.Flask(__name__) app.config[‘FL…

Python 2023年8月12日
0049
用户登录模块——基于Django框架的天天生鲜电商网站项目系列博客（四）

系列文章目录需求分析——基于Django框架的天天生鲜电商网站项目系列博客（一）网站框架搭建——基于Django框架的天天生鲜电商网站项目系列博客（二）用户注册模块——基于D…

Python 2023年8月6日
0056
CCF-CSP真题《202209-3—防疫大数据》思路+python题解

想查看其他题的真题及题解的同学可以前往查看：CCF-CSP真题附题解大全试题编号：202209-3试题名称：防疫大数据时间限制：1.0s内存限制：512.0MB问题描述：题目背…

Python 2023年8月1日
0042
【C++】打开C++的大门

目录前言 1.什么是C++ 2.C++的发展史 3.C++关键字（C++98） 4.命名空间 * 4.1命名冲突 4.2命名空间定义 4.3命名空间使用 5.输入输出 6.缺省参…

Python 2023年11月5日
0038
点击让球消失

import pygameimport randomimport sysfrom pygame.locals import* pygame.init() screen = pyga…

Python 2023年9月18日
0045
解密负载均衡技术和负载均衡算法

什么是负载均衡技术负载均衡器是一种软件或硬件设备，它起到了将网络流量分散到一组服务器的作用，可以防止任何一台服务器过载。负载均衡算法就是负载均衡器用来在服务器之间分配网络流量的逻…

Python 2023年10月15日
0042
关于superset集成到自己的项目中

下载&安装方式一：pip install apache-superset 方式二：https://github.com/apache/superset.git 搭建虚拟环…

Python 2023年8月10日
0049
【Django学习笔记 – 4】：路由

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月5日
0040
反常积分敛散性的比较判别法专题（及常用反常积分）

反常积分敛散性的比较判别法文章目录 1.比较判别法的一般形式 2.比较判别法的极限形式 3.常用结论 * ①常用反常积分一（p积分） ②常用反常积分二(q积分) ③常用反常积分三…

Python 2023年10月8日
0053
网站开发笔记——（django入门篇）

文章目录一，准备环节二，创建项目三，创建一个应用程序四，配置项目五，配置Mysql数据库六，app内Model模型七，实现Web端访问八，测试九，命令合集一，准…

Python 2023年8月6日
0060
python 学习笔记——线性回归预测模型

线性回归预测模型一元线性回归 * 一元线性回归图一元线性回归参数多元线性回归 * 分类变量的处理回归模型的假设性检验 * 模型的显著性检验——F检验回归系数的显著性检验—…

Python 2023年8月1日
0078

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

黑科技编程开发，利用Python使图片完美去除水印

大家都在看