字符验证码识别干扰线处理

2023年7月20日上午4:30 • 人工智能 • 阅读 81

Python的 `PIL` 库

python imaging library是Python平台的图像处理标准库，我们在图像处理时不仅可以使用 opencv， PIL也是可以的。

from PIL import Image

img = Image.open("123.jpg")

width, height = img.size()

r, g, b = img.getpixel((15, 9))

img.save('456.png')

PIL还可以做图片剪裁，模糊等其他操作，并且 PIL还可以打开 opencv打不开的图片;

我曾遇到过使用 opencv打开为None，而使用 PIL可以打开的图片，但是使用 PIL保存会提示： cannot write mode P as JPEG。

后查资料发现， PIL模块打开图片分为以下模式：

1             1位像素，黑和白，存成8位的像素
L             8位像素，黑白
P             8位像素，使用调色板映射到任何其他模式
RGB           3×8位像素，真彩
RGBA          4×8位像素，真彩+透明通道
CMYK          4×8位像素，颜色隔离
YCbCr         3×8位像素，彩色视频格式
I             32位整型像素
F             32位浮点型像素

可以先将模式为 P的图片先转化为 RGB模式再保存。


print(img.mode)

img = img.convert("RGB")
img.save("456.png")

因为 PIL在处理像素方面比较方便，而 opencv在模糊处理等方面更为便捷，所以经常可能需要两者联合使用，这里记录一种两种对象互相转换的方式（不用保存文件做中转）

PILImage直接读取二进制流

from PIL import Image
from io import BytesIO

img = Image.open(BytesIO(image_content))

OpenCV cv2直接读取二进制流

import cv2
import numpy as np

img = cv2.imdecode(np.frombuffer(image_content, np.uint8), cv2.IMREAD_COLOR)

将Image对象转换为二进制流

from PIL import Image
from io import BytesIO

out = BytesIO()

img.save(out, format="JPEG")
image_content = out.getvalue()

将 cv2对象转换为二进制流

import cv2

res, out = cv2.imencode('.jpg', img)
image_content = out.tobytes()

掌握了上面四种技巧，就可以直接将任一种对象转换为二进制流，再以二进制流的形式读取即可。

验证码数据增强

通常在使用神经网络识别图像时，可以对图片进行翻转、平移、缩放、旋转等一系列操作以达到扩充数据集的目的，虽然对于验证码也可以使用类似的方式来扩充数据集，但是具体操作方式与普通图像有一定的区别，一般图像可能是识别一整个物体之类的，而验证码需要识别其中的数个字符（一般为4~6个），首先翻转平移之类的操作就不适合验证码，例如6翻转变成了9，这将会对模型训练起到反作用，平移也可能导致丢失字符；缩放和旋转是可以对验证码进行的操作，但是幅度不宜过大，不同的验证码图片即便字符大小有区别，应该也是很微小的，并且验证码字符常常有倾斜的可能，但是我们也不宜将其倾斜幅度过大，否则也有可能将一个倾斜的6变成一个倾斜的9。

数据增强一般用于训练数据不足的情况，当训练数据比较充足时，使用数据增强提升可能很小。

from keras.preprocessing.image import ImageDataGenerator

train_datagen = ImageDataGenerator(rotation_range=10, zoom_range=0.05)

验证码图片去除干扰线

像上面这种形式的验证码，有比较明显的干扰线，并且大部分的干扰线有个明显的特征，颜色比验证码字符的颜色更鲜艳一些，所以可以考虑 根据像素值分布来去除绝大部分的干扰线，windows自带的画图软件有个很好用的功能叫”颜色选取器”，使用方式如下：

点击箭头指向的选项：

然后将鼠标放到你选取的图片的某个区域处，再点击颜色编辑，就可以看到这个颜色的 RGB 值

以下是我简单看了一些颜色的 RGB值：

经过观察，很容易发现大多数情况下，干扰线的颜色 R和 G的值比较大，而验证码字符的颜色 B的值较大（或者至少可以说验证码字符的 R和 G的值比较小），那只要找到这样一个分界值，就可以把干扰线去掉了。我这里找个一个粗略的边界值，展示一下代码实现方式：

def process_img(img_list: list, img_path: str):
    for img in img_list:
        path = f'{img_path}{img}'
        image = Image.open(path)
        for i in range(image.size[0]):
            for j in range(image.size[1]):
                r, g, b = image.getpixel((i, j))

                if r > 110 or g > 100:
                    image.putpixel((i, j), (255, 255, 255))

        image.save(f'img_new/{img}')

麻瓜库

最近开源了一个白嫖的 OCR库，可以用来识别单行的印刷体文字或者验证码字符，具体查看官方文档，我有使用它测试上面那种验证码字符的识别准确率，简单写下过程：

安装： pip install muggle-ocr

使用：

import muggle_ocr

sdk = muggle_ocr.SDK(model_type=muggle_ocr.ModelType.Captcha)

text = sdk.predict(image_bytes=captcha_bytes)
print(text)

直接使用这个麻瓜库的识别准确率在0.64左右，但是经过我上面的干扰线处理，准确率可以提升至 0.85左右。

这篇文章写的比较早了，后来又出现了一个库ddddocr，可以支持字符验证码、滑动验证码甚至一些点选验证码的识别，感兴趣的同学可以自行尝试。

我的gtihub博客地址：https://forchenxi.github.io/

另外，如果对投资理财感兴趣的同学，可以关注我的微信公众号：运气与实力。

Original: https://blog.csdn.net/qq_40691189/article/details/124482779
Author: 在路上的工程师
Title: 字符验证码识别干扰线处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/704231/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

KGNN-LS 2019 (KDD) Knowledge-aware Graph Neural Networks with Label Smoothness Regularization for Re

知识图谱作为一种异构网络，节点表示实体，诸如物品，产品，以及他们的属性，特征；边对应为实体之间的关系，知识图谱可以获取一系列实体之间的关系和结构信息。因此，知识图谱提供了不同物品之…

人工智能 2023年6月1日
0071
TensorFlowX.Y核心基础与AI模型设计08：高级tf.Estimator 二元分类、模型训练与预测

目录零、 Estimator 基本结构 * 0.1、预创建的 Estimator 0.2、自定义的 Estimator 0.3、定义模型函数 – 0.3.1、函数体结…

人工智能 2023年7月2日
0050
做一个简单网页(做一个简单网页多少钱)

怎样做一个简易的网页？做一个简单网页多少钱做一个简易的普通网页比较容易。当然，制作的方法有好几种，有的是直接写代码、有的是用绘图软件绘制页面再导出网页、常用的是使用网页制作软件做…

人工智能 2023年7月29日
0057
NanoDet代码逐行精读与修改（四）动态软标签分配：dynamic soft label assigner

–neozng1@hnu.edu.cn 4. Dynamic Soft Label Assigner 4.1. 初始化和参数 4.2. 筛除不在ground truth…

人工智能 2023年7月9日
0065
“OSError: [WinError 1455]页面文件太小，无法完成操作。”解决方案

“OSError: [WinError 1455]页面文件太小，无法完成操作”解决方案引言 1 问题原因 2 解决方案引言某次在Windows系统上跑…

人工智能 2023年7月3日
0079
main.py: error: the following arguments are required:

Table of Contents Summary of gdb . . . . . . . . . . . . . . . . . . . . . . . . . . . . ….

人工智能 2023年7月5日
0071
resnet18实现cifar10分类

实验步骤搭建resnet18网络数据集加载模型训练和改进分析评估 Kaggle提交网络构建实验初期拟采用torchvision中实现的resnet18作为网络结构，为了…

人工智能 2023年7月12日
0046
React-RouterV6版本的使用

文章目录 React-RouterV6 * – + 简介 react-routerV6版本和V5版本的区别路由使用路由重定向声明式导航和编程式导航嵌套路由动态…

人工智能 2023年6月26日
00112
机器学习（多元线性回归）

多元线性回归一元线性回归是单特征（一个自变量，一个因变量），方程为：当考虑多个特征时，就得到了多元线性回归，方程为：同一元线性回归，可以得到多元线性回归的 cost func…

人工智能 2023年6月17日
00102
机器学习笔记-基于TorchHub和YOLOv5和SSD的目标检测

一、关于对象检测对象检测是一个很有意思的领域。让机器识别图像中物体的确切位置有各种各样的关键用途。从人脸检测系统到帮助自动驾驶汽车安全导航，不胜枚举。 1、YOLO YOLO …

人工智能 2023年7月23日
0069
【Computer Vision】图像数据预处理详解

; 【Computer Vision】图像数据预处理详解活动地址：CSDN21天学习挑战赛作者简介：在校大学生一枚，华为云享专家，阿里云星级博主，腾云先锋（TDP）成员，云曦智…

人工智能 2023年6月17日
0091
使用TorchScript和libtorch进行模型推理[附C++代码]

模型部署方式有很多，libtorch和TorchScript也是部署的一种方式，由pytorch官方提供将pytorch模型转换为TorchScript方法： Tracing a…

人工智能 2023年5月28日
0077
AI绘图–Disco Diffusion使用指南+本地化保姆级教程

文章封面为个人AI绘图训练结果项目传送门：传送门（谷歌警告）该项目为免费使用的AI绘图项目，并且可以在本地搭建部署环境。 AI绘图对于人脸处理仍处于较为实现困难的阶段，因此该…

人工智能 2023年6月26日
0086
tensorflow1.14和numpy版本对应

tensorflow是1.14.0版本。应该使用pip uninstall numpy卸载所有的numpy，再安装1.16.4即可 pip install -U scikit-im…

人工智能 2023年5月23日
00156
论文阅读 Enhancing knowledge graph embedding with relational constraints

Enhancing knowledge graph embedding with relational constraints 利用关系约束增强知识图嵌入发表于：Neurocom…

人工智能 2023年6月1日
00102
Conv2d函数详解（Pytorch）

本文是基于Pytorch框架下的API ：Conv2d（）。该函数使用在二维输入，另外还有Conv1d（）、Conv3d（），其输入分别是一维和三维。下面将介绍Conv2d（）的参…

人工智能 2023年7月12日
0062

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

字符验证码识别干扰线处理

Python的 PIL 库

验证码数据增强

验证码图片去除干扰线

麻瓜库

大家都在看

Python的 `PIL` 库