自然场景下特定人工标识的识别

2023年6月11日上午12:55 • 人工智能 • 阅读 80

在自然场景下检测并识别出五类特定标识（特定标志是用蓝色A4纸打印）。输入为自然场景下的图像，输出为该图像中该标识对应的数字标号。对于五类之外的样本输出数字0，达到字母识别分类.

（1）Python的Opencv库调用，百度OCR字符识别
（2）K均值聚类，HSV蓝色区域提取，矩形形态比计算

1. 总体方案

对于字母的识别采用两步走，分别为图像截取和字母识别分类，首先将图片进行聚类之后提取蓝色区域，再根据形态比截取出矩形A4纸区域，然后对截取后的图像进行优化处理。再调用OCR字符识别AIP，对截取后的图像进行识别分类。

2.具体实施

（1）人工标识提取：根据训练样本设计思路，我们只需要将图片中的蓝色联通区域提取出来即可。将原始图片转化为HSV图像，根据HSV各个通道的阈值，根据HSV阈值表，设置蓝色阈值参数。 cv2.inRange(hsv,blue_lower,blue_upper)函数用来判断图像中每个像素是否在[low,upper]之间，如果是，则对应的像素赋值为255，即白色，其余的赋值为0，即黑色。

但是从提取出蓝色区域后的图像可以看出，虽然可以看出来图片中有一些白色噪点，以及字母矩形框周围有毛边。因此考虑对图像进行降噪优化。首先对提取蓝色区域后的图像进行模糊化操作，将小的白色噪点过滤掉。再将图片进行二值化处理，只有0和1表示。对于字母矩形框周围的毛边，采用腐蚀和膨胀处理。其中腐蚀操作可以腐蚀图像中的白色像素，从而消除白色小斑点，而膨胀处理将剩余的白色像素扩张并增长回去。经过优化操作之后，噪点和白边可见明显地去除

之后查找轮廓，将轮廓转换为矩形， cv2.minAreaRect()函数可以将连续区域的像素点集合用最小矩形框出来。然后根据矩形的坐标，原图标注，并进行裁剪，即可得到目标区域。

发现此时错误框取了车玻璃，因此分析如何过滤掉车窗。从直观看，字母的蓝色区域和车窗的黑色区域应该很容易识别，但是根据HSV表可以看出，黑色和蓝色的各个通道阈值有交叉。通常思路为改变HSV取值范围，从而更精准地只提取出字母所在的蓝色矩形区域。但是考虑颜色相近时，以及光照的影响等，手动调参较为繁琐，鲁棒性差。因此考虑聚类，将原始图像的蓝色区域更加明显，聚类后的图像进行之前的提取步骤。由于聚类后的图像由于采用均值聚类，蓝色聚类中心附近的周围像素点均赋值为蓝色，因此颜色更加均匀。如下图可以看出，聚类后的矩形标注过滤掉了车窗，最后只截取了字母矩形框。

但是在后续图像处理中，发现有些图片背景中会有与字母矩形框颜色相同的区域。此时会框取出诸多蓝色矩形区域。

此时考虑在本次任务中，字母矩形框时标准A4纸，因此可以设计形态比，通过设置矩形区域长度、宽度、长宽比阈值过滤背景干扰。此过程在于通过读取训练样本中的每个图片中字母矩形的长度和和宽度，由于拍摄远近不同，因此不同图片的长宽可能相差较大，但是长宽比是基本一定的，因此加入长宽比阈值进行判断。整个判断的公式如下：

if h1-h2>0 and l1-l2>0:
   if h1-h2>150 and h1>0 and h2>0 and l1>0 and l2>0 and h1-h2<800 and l1-l2>250 and l1-l2<1000 and abs(float((l1-l2)/(h1-h2)-1.5))<0.3:

其中h1，h2分别代表矩形的最高点和最低点，l1和l2分别代表矩形水平方向的最远点和最近点。h1-h2代表宽度，l1-l2代表长度。通过设置形态比后，可以准确唯一截取出字母矩形。在接下来的OCR字符读取环节中，由于截取的矩形边缘有白色条纹影响，如图11所示，出现错误多识别现象。因此采取向内截取的方法，将标注出的矩形区域，向内部多截取一部分。在此实验中，采用宽度向内截取60，长度向内截取80。重新截取后的图像如图12。

最后将训练集中的图片字母均提取出，可见达到了较好的效果。

但是仍会出现一种情况，即当字母矩形区域与背景蓝色区域是连通时，如图14所示，用形态比框取矩形区域不再适用，考虑OCR具有较为强大的识别能力，因此此类问题简化为截取原始图像的2/3区域，再进行识别。

（2）OCR字符识别：调用百度OCR字符识别API text=client.basicGeneral(image)，进行字母识别。虽然OCR字符识别是全方位的，但是由于在自然场景中有诸多干扰。当测试图片中字母较歪时，会难以识别。因此加入循环旋转识别。如下图可见当对图片进行两次10°旋转后，能准确读取字母。


import os
from aip import AipOcr
from PIL import Image
import glob
import cv2
import numpy as np
import time
import matplotlib.pyplot as plt

config = {

'appId':'23492925',
'apiKey':'xjGgjAde0RT8i7vG27Y9wr23',
'secretKey':'ke7yfqSW8hmiyW7EVBolAM2H0PXn0O0g'
}
client = AipOcr(**config)
def get_file_content(filePath):
    with open(filePath,'rb') as fp:
        return fp.read()

for i in range(246,248):

    img= "test/"+str(i)+".jpg"

    try:
        image = Image.open(img)

    except:
        print('Open Error! Try again!')
        continue
    else:
        print("image"+str(i))
        """ 读取图片 """
        img=cv2.imread(img)

        '''下列代码为聚类'''
        Z = img.reshape((-1,3))

        Z = np.float32(Z)

        criteria = (cv2.TERM_CRITERIA_EPS + cv2.TERM_CRITERIA_MAX_ITER, 10, 1.0)
        K = 8
        ret,label,center=cv2.kmeans(Z,K,None,criteria,10,cv2.KMEANS_RANDOM_CENTERS)

        center = np.uint8(center)
        res = center[label.flatten()]

        img = res.reshape((img.shape))

        '''聚类结束'''

        hsv=cv2.cvtColor(img,cv2.COLOR_BGR2HSV)

        blue_lower=np.array([100,50,50])
        blue_upper=np.array([124,255,255])
        mask=cv2.inRange(hsv,blue_lower,blue_upper)

        blurred=cv2.blur(mask,(9,9))

        ret,binary=cv2.threshold(blurred,127,255,cv2.THRESH_BINARY)

        kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (21, 7))
        closed = cv2.morphologyEx(binary, cv2.MORPH_CLOSE, kernel)

        '''
        腐蚀操作将会腐蚀图像中白色像素，以此来消除小斑点，
        而膨胀操作将使剩余的白色像素扩张并重新增长回去。
        '''
        erode=cv2.erode(closed,None,iterations=4)

        dilate=cv2.dilate(erode,None,iterations=4)

        contours, hierarchy=cv2.findContours(dilate.copy(), cv2.RETR_EXTERNAL,cv2.CHAIN_APPROX_SIMPLE)

        res=img.copy()

        cut=0
        for con in contours:

            rect=cv2.minAreaRect(con)

            box=np.int0(cv2.boxPoints(rect))

            cv2.drawContours(res,[box],-1,(0,0,255),2)

            h1=max([box][0][0][1],[box][0][1][1],[box][0][2][1],[box][0][3][1])
            h2=min([box][0][0][1],[box][0][1][1],[box][0][2][1],[box][0][3][1])
            l1=max([box][0][0][0],[box][0][1][0],[box][0][2][0],[box][0][3][0])
            l2=min([box][0][0][0],[box][0][1][0],[box][0][2][0],[box][0][3][0])

            if h1-h2>150 and h1>0 and h2>0 and l1>0 and l2>0 and h1-h2<800 and l1-l2>250 and l1-l2<1000 and abs(float((l1-l2)/(h1-h2)-1.5))<0.3:

                temp=img[h2+30:h1-30,l2+40:l1-40]
                cut=1
        if cut==0:

            print('不能框图，截取中间部位')
            piclevel = Image.open("test/"+str(i)+".jpg")
            w = piclevel.width
            h = piclevel.height
            w_center=int(w/2)
            h_center=int(h/2)

            w_l=int(w/3)
            h_l=int(h/3)
            temp=img[w_center-w_l:w_center+w_l,h_center-h_l:h_center+h_l]

        cv2.imwrite("./pic/"+str(i)+".jpg", temp)

    '''开始进行识别'''

    pic= "pic/"+str(i)+".jpg"

    try:
        image = Image.open(pic)

    except:
        print('Open Error! Try again!')
        continue
    else:

        """ 读取图片 """

        result=""
        for k in range(8):
            time.sleep(0.5)
            image_1=get_file_content(pic)
            '''basicGeneral一般精度5000张限制'''
            text = client.basicGeneral(image_1)
            '''高精度500张限制'''

            result = text["words_result"]
            if len(result)!=0:
                break
            image_1 = Image.open(pic)
            image_1=image_1.rotate(5)
            image_1.save(pic)
            print("rotate:",k+1)
        for j in result:
            print(j["words"])
        '''以下用来进行识别和保存二进制txt文件'''
        if len(result)==0:
            num=0
        elif len(result)>1:
            num=0
        elif len(result)==1:
            for p in result:
                if p["words"]=='A':
                    num=1
                elif p["words"]=='B':
                    num=2
                elif p["words"]=='C':
                    num=3
                elif p["words"]=='D':
                    num=4
                elif p["words"]=='E':
                    num=5
                else:
                    num=0
        with open("20053057.txt",'a') as f:
            f.write(str(num))
            f.write('\n')
            f.close()

Original: https://blog.csdn.net/misjiayang/article/details/124342669
Author: 刘加油要努力
Title: 自然场景下特定人工标识的识别

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/598368/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

科大讯飞语音转文字_满足语音转文字刚需后讯飞SR301录音笔还有哪些缺点不想让你知道…

对于经常需要整理录音的人来说，其中的苦处恐怕只有TA自己知道。自己整理文字时，费时费力，而要请专业的速记，速记费又是一笔很大的开支。不过，随着语音识别及AI技术的发展，几年前，市…

人工智能 2023年5月27日
00105
神经网络预测模型基本原理与编程实现

原理数据归一化把数据经过处理后使之限定在一定的范围内。比如通常限制在区间[0, 1]或者[-1, 1] 为什么要归一化？奇异样本数据：指相对于其他输入样本特别大或特别小的样本…

人工智能 2023年7月13日
0077
基于神经网络的微博情绪分类

本文仅供参考目录任务说明一、基于 Bert 的文本表示及文本分类方法二、实验原理三、具体步骤 1.构建句子向量 1.1导入库 1.2加载bert模型 1.3读取数据 1….

人工智能 2023年7月1日
0076
图神经网络中的注意力机制

图神经网络中的注意力机制本文讨论了 GNN 中常用的注意力机制，相关论文有： Graph Attention Networks How Attentive are Graph A…

人工智能 2023年7月13日
0050
跟数据打交道的人都得会的这8种数据模型，满足工作中95%的需求

“小王，你把这些用户数据分析下，分别打个价值标签给我，我们制定一下618的营销活动。” 这时候你拿着用户数据一脸懵？打标签？从哪几个维度？脑海里仿佛有很多想…

人工智能 2023年7月16日
0049
【零基础-3】PaddlePaddle学习Bert

概要【零基础-1】PaddlePaddle学习Bert_ 一只博客-CSDN博客https://blog.csdn.net/qq_42276781/article/details…

人工智能 2023年5月31日
0071
深度学习：目标分割｜UNet网络模型及案例实现

1 UNet网络架构 UNet网络由左编码部分，右解码部分和下两个卷积+激活层组成编码部分从图中可知：架构中是由4个重复结构组成：2个3×3卷积层，非线形ReLU层和…

人工智能 2023年6月20日
00123
python实现共轭梯度算法

python实现共轭梯度优化算法一、共轭梯度算法简介二、实现共轭梯度方法的两块重要积木 * 1.共轭方向的确定 2.方向优化步长的确定 note 三、共轭梯度算法优化过程四、…

人工智能 2023年6月13日
0089
2021-4月Python 机器学习——中文新闻文本标题分类(简单容易版)

试题说明任务描述基于THUCNews数据集的文本分类， THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档，参赛者需要根…

人工智能 2023年7月2日
00102
［Python进阶］Python闭包的深入浅出

文章目录 * – 前提准备 – 函数闭包 – 闭包的使用方式 – 闭包的理论讲解 – 闭包的代码验证 – 闭…

人工智能 2023年7月6日
0074
【编程教室】Python绘制冬奥吉祥物“冰墩墩”

大家好，欢迎来到 Crossin的编程教室！这两天，随着北京冬奥会的开幕，吉祥物”冰墩墩”可是火出了圈，多少人排长队都买不到。据说甚至有人把价格炒到了几…

人工智能 2023年6月4日
0078
协同过滤算法的基本原理是什么

协同过滤算法的基本原理协同过滤算法是一种常见的推荐系统算法，它基于用户之间或项目之间的相似性进行推荐，通过分析用户的历史行为、评分或者偏好，找到与其兴趣相似的其他用户或项目，然后…

人工智能 2024年1月2日
0051
pandas DataFrame拼接

在 pandas模块中，通常我们都需要对类型为 DataFrame的数据进行操作，其中最为常见的操作便是拼接了。比如我们将两个 Excel表格中的数据读入，随后拼接完成后保存进一个…

人工智能 2023年7月6日
0073
R语言：多因素Cox回归森林图 (基于forestplot包) 森林图 cox可视化

本期开始介绍Cox回归模型可视化。之前学习过的的临床回归模型可视化方法主要是森林图和列线图 (Nomogram)。计划是介绍一下单因素、多因素、亚组分析、其他类型森林图绘制；列线图…

人工智能 2023年6月16日
0074
【深度学习】使用d2l包和相关环境配置的一些血泪心得

目录一引言 * 写给: 以下: 二关于anaconda的配置 * 1 anaconda的安装过程 2 d2l包和pytorch包的下载 – 1 创建新环境 2 添…

人工智能 2023年7月30日
0069
数字传输 | 任意位数的汉明码hamming code编码+产生误差+纠错（原理+python代码实现）

由于网上搜到关于汉明码矩阵计算的资料比较少，基本上都是（7,4）居多，有些还是用class定义的，感觉很不友好。现在就来补充一点资料吧。汉明码基础知识关于汉明码手算基本过程，大…

人工智能 2023年7月7日
0055

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

自然场景下特定人工标识的识别

1. 总体方案

2.具体实施

大家都在看