爬虫系列：爬虫验证码识别

2023年11月3日上午1:16 • Python • 阅读 30

虽然大多数人对单词”CAPTCHA”都很熟悉，但是很少人知道它的具体含义：全自动区分计算机和人类的图灵测试（Completely Automated Public Turing test to tell Computers and Humans Apart）。它的奇怪缩写似乎表示，它一直在扮演着十分奇怪的角色。其目的是为了阻止网站访问，而不是让访问更通畅，它经常让人类和非人类的网络机器人深陷验证码识别的泥潭不能自拔。

图灵测试首次出现在阿兰·图灵（Alan Turing）1950 年发表的论文”计算装置与智能”（Computing Machinery and Intelligence）中。他在论文中描述了这样一种场景：一个人可以和其他人交流，也可以通过计算机终端和人工智能程序交流。如果一番对话之后这个人不能区分人和人工智能程序，那么就认为这个人工智能程序通过了图灵测试，图灵认为这个人工智能程序就可以真正地”思考”所有的事情。

令人啼笑皆非的是，60多年以后，我们开始用这些原本测试程序的题目来测试我们自己。Google 的 reCAPTCHA 难得令人发指，作为目前最具有安全意识的流行网站，Google 拦截了多达 25% 的准备访问网站的正常人类用户。

母外面画一个方框，而不会重叠在一起。
图片没有背景色、线条或其他对 OCR 程序产生干扰的噪点。
虽然不能因一个图片下定论，但是这个验证码用的字体种类很少，而且用的是 sans-serif（无衬线字体）字体（像”4″和”M”）和一种手写形式的字体（像”m””C”和”3″）。
白色背景色与深色字母之间的对比度很高。

上面验证码只做了一点点改变，就让 OCR 程序很难识别。

字母和数据都使用了，这会增加待搜索字符的数量。
字母随机的倾斜程度会迷惑 OCR 软件，但是人类还是很容易识别的。
那个比较陌生的手写字体很有挑战性，背景加了一些噪点，同时”M”和”Y”都进行了变换，计算机需要进行额外的训练才能识别。

用下面的代码运行 Tesseract 识别图片：

E:\Tesseract-OCR>tesseract.exe "E:\&#x6211;&#x7684;&#x6587;&#x6863;\My Pictures\Saved Pictures\image_captcha_example.max_239x290.png" "E:\&#x6211;&#x7684;&#x6587;&#x6863;\My Pictures\Saved Pictures\1.txt"

我们得到的结果是一个空文本文件，有换行符。

要训练 Tesseract 识别一种文字，无论是晦涩难懂的字体还是验证码，你都需要向 Tesseract 提供每个字符不同形式的样本。

做这个枯燥的工作可能要花好几个小时的时间，你可能更想用这点儿时间找个好看的视频或电影看看。首先要把大量的验证码样本下载到一个文件夹里。下载的样本数量由验证码的复杂程度决定，我在训练集里一共放了100个样本（一共 500 个字符，平均每个字符 8 个样本；a~z 大小写字母加 0~9 数字，一共 62 个字符），应该足够训练的了。

提示：建议使用验证码的真实结果给每个样本文件命名（即 4MmC3.jpg）。这样可以帮你一次性对大量的文件进行快速检查——你可以先把图片调成缩略图模式，然后通过文件名对比不同的图片。这样在后面的步骤中进行训练效果的检查也会很方便。

第二步是准确地告诉 Tesseract 一张图片中的每个字符是什么，以及每个字符的具体位置。这里需要创建一些矩形定位文件（box file），个验证码图片生成一个矩形定位文件。一个验证码图片的矩形定位文件如下所示：

A 11 5 46 36 0
c 47 9 69 32 0
r 75 10 94 32 0
E 105 8 131 43 0

第一列符号是图片中的每个字符，后面的4个数字分别是包围这个字符的最小矩形的坐标（图片左下角是原点（0,0）,4个数字分别对应每个字符的左下角 x 坐标、左下角 y 坐标、右上角 x 坐标和右上角 y 坐标），最后一个数字”0″表示图片样本的编号。

显然，手工创建这些图片矩形定位文件很无聊，不过有一些工具可以帮你完成。

矩形定位文件必须保存在一个 .box 后缀的文本文件中。和图片文件一样，文本文件也是用验证码的实际结果命名（例如：4MmC3.box）。另外，这样便于检查 .box 文件的内容和文件的名称，而且按文件名对目录中的文件排序之后，就可以让 .box 文件与对应的图片文件的实际结果进行对比。

你还需要创建大约 100 个 .box 文件来保证你有足够的训练数据。因为 Tesseract 会忽略那些不能读取的文件，所以建议你尽量多做一些矩形定位文件，以保证训练足够充分。如果你觉得训练的 OCR 结果没有达到你的目标,或者 Tesseract 识别某些字符时总是出错，多创建一些训练数据然后重新训练将是一个不错的改进方法。

创建完满载 .box 文件和图片文件的数据文件夹之后，在做进一步分析之前最好备份一下这个文件夹。虽然在数据上运行训练程序不太可能删除任何数据，但是创建.box 文件用了你好几个小时的时间，来之不易，稳妥一点儿总没错。此外,能够抓取一个满是编译数据的混乱目录，然后再尝试一次，总是好的。

完成所有的数据分析工作和创建 Tesseract 所需的训练文件，一共有六个步骤。有一些工具可以帮你处理图片和 .box 文件，不过目前 Tesseract 3.02 还不支持。

这个解决方案的主要配置方式和步骤都在 main 方法（目前，作者已经在 GitHub 中将示例代码修改为 init 方法,符合 Python 的类定义原则）和 runAll 方法里：

你需要动手设置的只有三个变量。

LanguageName

Tesseract 用三个字母的语言缩写代码表示识别的语言种类。可能大多数情况下，你都会用”eng”表示英语（English）。

fontName

表示你选择的字体名称，可以是任意名称，但必须是一个不包含空格的单词。

directory

表示包含所有图片和 .box 文件的目录。建议你使用文件夹的绝对路径，但是如果你使用相对路径，可能需要以Python 代码运行的目录位置为原点。如果你使用绝对路径，就可以在电脑的任意位置运行代码了。让我们再看看runAll 里每个函数的用法。

createFontFile 创建了一个 font_properties 文件，让 Tesseract 知道我们要创建的新字体：

captchaFont 0 0 0 0 0

这个文件包括字体的名称，后面跟着若干 1 和 0，分别表示应该使用斜体、加粗或其他版本的字体（用这些属性训练字体是一个很好玩儿的练习）。

cleanImages 首先创建所有样本图片的高对比度版本，然后转换成灰度图，并进行一些清理，让 Tesseract 更容易读取图片文件。如果你要处理的验证码图片上面有一些很容易过滤掉的噪点，那么你可以在这里增加一些步骤来处理它们。

<languagename>.<fontname>.exp<filenumber>.box

<languagename>,<fontname>.exp<filenumber>.tiff
</filenumber></fontname></languagename></filenumber></fontname></languagename>

extractUnicode 函数会检查所有已创建的 .box 文件，确定要训练的字符集范围。抽取出的 Unicode 会告诉你一共找到了多少个不重复的字符，这也是一个查询字符的好方法，如果你漏了字符可以用这个结果快速排查。

之后的三个函数， runShapeClustering、 runMfTraining 和 runCtTraining 分别用来创建文件 shapetable、 pfftable 和 normproto。它们会生成每个字符的几何和形状信息，也为 Tesseract 提供计算字符若干可能结果的概率统计信息。

最后，Tesseract 会用之前设置的语言名称对数据文件夹编译出的每个文件进行重命名（例如： shapetable 被重命名为 eng.shapetable），然后把所有的文件编译到最终的训练文件 eng.traineddata 中。

你需要动手完成的唯一步骤,就是用下面的 Linux 和 Mac 命令行把刚刚创建的 eng-traineddata 文件复制到 tessdata 文件夹里，Windows 系统类似：

$cp /path/to/data/eng.traineddata $TESSDATA_PREFIX/tessdata

经过这些步骤之后，你就可以用这些 Tesseract 训练过的验证码来识别新图片了。

Original: https://www.cnblogs.com/pdflib/p/16207493.html
Author: 爬虫程序大魔王
Title: 爬虫系列：爬虫验证码识别

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/810586/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数据采集与存储案例——基于python爬虫框架Scrapy的爬取网络数据并存储MySQL数据库

此案例需要预先安装pymsqlpython3.7.4scrapy2.7.1 一、安装scrapy框架 1、使用pip命令安装scrapy pip install scrapy 在这…

Python 2023年10月2日
0060
python pytest的作用_Pytest简介与如何执行已标签用例

说明：pytest简介，方便以后查阅。一、pytest简介 pytest: 基于unittest之上的单元测试框架(可用于接口、WEB等) pytest作用：可以自动发现测试模…

Python 2023年9月12日
0054
pandas使用

https://www.runoob.com/pandas/pandas-tutorial.html 一、什么是pandas，能做什么 Pandas 是 Python 语言的一个扩…

Python 2023年8月16日
0040
C#不提升自己程序的权限实现操作注册表

1. 绪论 2. 主体思路 3. C#实现 3.1 检测是否注册 3.2 替换参数写入reg文件并执行 3.3 更新注册表 4. 总结绪论当我们编写了自己的C#程序，有程序自定…

Python 2023年10月13日
0038
django 数据迁移–在已有数据表的情况下，django如何与已有的数据库表映射

问题：mysql 数据库中存在数据库表： user 在编写django 后端接口操作时，未在models.py中创建表相关类此时，如何在直接使django与user 建立映射关系…

Python 2023年6月3日
0065
django

URL 介绍 URL定义 URL 即统一资源定位符 Uniform Resource Locator 作用: 用来表示互联网上某个资源的地址。说明: 互联网上的每个文件都有一个唯…

Python 2023年8月6日
0039
Python flask渲染模板注入

2018-TokyoWesterns-Web-shrine 参考链接： https://blog.csdn.net/Onlyone_1314/article/details/121…

Python 2023年8月10日
0041
Python：用pyinstrument做性能分析

导引在计算密集型计算或一些Web应用中，我们常常需要对代码做性能分析。在Python中，最原始的方法即是使用 time包中的 time函数(该函数以秒为计时单位)： from t…

Python 2023年10月28日
0041
数据合并聚合笔记

文章目录在pandas中类似的分组的操作 DataFrameGroupBy对象简单的索引操作：动手在pandas中类似的分组的操作 df.groupby(by=&#8221…

Python 2023年8月17日
0062
【基于OpenAI的ChatGPT】搭建属于自己的微信聊天机器人(附带注册英国手机号码方式)

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 弹尽粮绝，会员救园：…

Python 2023年10月12日
0033
重新整理 .net core 实践篇 ———— linux 上线篇 [外篇]

前言简单整理一个linux 简单上线。这个是该系列的外篇，该系列继续更新。献给刚学的人。正文安装实例 dotnet new webapp -n AspNetCoreDemo…

Python 2023年10月17日
0034
电商项目部署—-shoppe项目（基于Django）

文章目录 0. 打包Vue项目 1. 配置环境 2. 迁移项目到云服务器 3. 使用uWSGI启动Django项目 4. 配置nginx反向代理 5. nginx管理静态文件 6….

Python 2023年8月5日
0032
python selenium 多个页面对象类使用同一个webdriver（即只打开一个浏览器窗口）

1 class BasePage(): 2 """selenium基类""" 3 4 def __init__(self…

Python 2023年6月10日
0082
Python数据分析学习笔记（二）——数据清洗及特征处理

一、缺失值的观察与处理通常拿到的数据中含有很多缺失值，需要经过数据清洗达到可以分析的标准。处理缺失值一般有三种思路：将缺失值置为一个常数使用函数DataFrame.filln…

Python 2023年8月16日
0056
一条Sql的执行过程

🚀 优质资源分享 🚀 学习路线指引（点击解锁）知识定位人群定位进阶级本课程是python flask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。入…

Python 2023年8月9日
0075
智能流程机器人助你“聚划算”

摘要：RPA可以模拟人工进行操作，比如平时的登录，操作文件，抓取数据，调用api，与数据库进行交互等操作，从而实现一系列自动化的实现。相信大家都知道最近的数字员工非常火，比如我们…

Python 2023年10月29日
0036

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

爬虫系列：爬虫验证码识别

大家都在看