Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network

2023年5月31日上午10:42 • 人工智能 • 阅读 66

TextSnake和PSENet是为检测曲线而设计的文本实例，也广泛出现在自然场景中。然而，复杂的管道和大量的卷积运算，这通常会减慢他们的推理速度

像素聚集网络(PAN)，它配备了一个低计算成本的分割头和一个可学习的后处理。更具体地说，分割头由特征金字塔增强模块(FPEM)和特征融合模块(FFM)组成。FPEM是一个可级联的U形模块，它可以引入多级信息来指导更好的分割。FPEM能够通过融合低水平和高水平信息来增强不同尺度的特征，且计算开销最小。FFM可以将不同深度的FPEMs所给出的特征收集到一个最终的特征中进行分割。可学习的后处理是通过像素聚集(PA)实现的，PA可以通过预测的相似度向量精确地聚集文本像素。

为了提高效率，分段网络的主干必须是轻量级的。但是，轻量级主干通常具有较小的感受野和较弱的表征能力， 提出了segmentation head，功能金字塔增强模块(FPEM)和特征融合模块(FFM)。利用特征融合模块(FFM)将 不同深度的FPEMs产生的特征融合成最终的特征进行分割，该网络还预测每个文本像素的相似性向量，因此同一文本实例中 像素与核的相似度向量之间的距离很小

F1,F2,…Fn有不同的深度，低层和高层的语义信息对于语义分割同样重要，抛弃向上取整后concatenate(通道数4x128xnc)，减慢最终的预测速度，采取 首先通过元素加法将相应的比例特征图组合起来。然后 对添加后的特征映射进行上采样，并将其连接成一个只有(通道数4×128)

借用了聚类的思想，从内核重构完整的文本实例。文本实例的内核是集群中心。文本像素是要聚类的样本。文本像素和同一文本实例的内核之间的距离很小

第二个式子中，一个表示像素p的相似度向量，另一个表示kernel ki的相似度向量，计算方式为

不同核之间应该保持足够的距离，因此计算公式为

Ldis控制各个核之间的dis不小于3

在测试阶段，我们使用预测的相似度向量将文本区域中的像素引导到相应的核。PA后处理步骤如下：

i) 在核分割结果中寻找连通分量，每个连通分量都是一个核。
ii)对于每个内核Ki，有条件地合并其预测文本区域中的相邻文本像素(4向)其相似向量的欧氏距离小于d
iii)重复步骤ii)直到没有合格的邻居文本像素

Original: https://blog.csdn.net/weixin_42411502/article/details/122153250
Author: Tsukinousag1
Title: Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/550592/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

机器学习算法一之基于K均值聚类算法实现数据聚类及二维图像像素分割

K均值聚类算法 1.含义及原理 K均值(k-means)聚类算法，顾名思义首先给定K个初始均值作为聚类中心，然后通过分析其他n-k个点同K个聚类中心的距离进行分类，然后对集群求取新…

人工智能 2023年5月31日
0090
[ML]（回归和分类）

文章目录误差从哪来？ * Error的来源估测 – 估测变量x的偏差和方差为什么会有很多的模型? 怎么判断？ – 偏差大-欠拟合方差大-过拟合模型…

人工智能 2023年7月1日
0062
分类算法————朴素贝叶斯算法

目录 1，概率基础 2，贝叶斯公式 3，朴素贝叶斯算法 4，文本分类 4.1 拉普拉斯平滑系数 5.API 6，案例：20类新闻分类 7，总结 1，概率基础联合概率：包含多个…

人工智能 2023年7月2日
00109
HMM隐马尔科夫模型

隐马尔科夫模型(HMM) 隐马尔可夫模型是关于时序的概率模型，描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测而产生观测随机序列的过程。隐藏的马尔…

人工智能 2023年5月23日
0071
YOLOv5输入端（一）—— Mosaic数据增强|CSDN创作打卡

入门小菜鸟，希望像做笔记记录自己学的东西，也希望能帮助到同样入门的人，更希望大佬们帮忙纠错啦~侵权立删。一、原理分析二、代码分析 1、主体部分——load_mosaic 2、l…

人工智能 2023年5月26日
00105
SQL 聚合查询

SQL 为什么要支持聚合查询呢？这看上去是个幼稚的问题，但我们还是一步步思考一下。数据以行为粒度存储，最简单的 SQL 语句是 select * from test，拿到的是整个…

人工智能 2023年7月16日
0084
用python爬取全国和全球疫情数据，并进行可视化分析(过程详细代码可运行)

用Python爬取最新疫情数据这次重大疫情，每时每刻数据都有可能变化，这篇博文将为大家讲解如何爬取实时疫情数据，并且分析数据，作出数据可视化的效果。报告梗概：对中国疫情分析 …

人工智能 2023年7月4日
00111
Python之DataFrame基础用法

引入库 import pandas as pd import numpy as np pandas官方文档：https://pandas.pydata.org/pandas-doc…

人工智能 2023年7月7日
0047
NoveAI本地环境搭建、AI作画

鉴于按照别人的教程安装过程中遇到各种问题,极其痛苦,所以还是自己也整理总结一份. 1 diffusion vs GAN 所谓扩散算法diffusion是指先将一幅画面逐步加入噪点，…

人工智能 2023年6月24日
0087
R语言中三线表是什么？使用table1包绘制（生成）三线表实战

R语言中三线表是什么？使用table1包绘制（生成）三线表实战目录 R语言中三线表是什么？使用table1包绘制（生成）三线表实战 Original: https://blog….

人工智能 2023年6月19日
0078
GitHub 23.6k星资源之机器学习必读100篇论文清单：高引用、分类全、覆盖面广

文章目录项目评价标准包含内容 * Understanding / Generalization / Transfer Optimization / Training Techn…

人工智能 2023年7月1日
0087
数据处理笔记5:循环读取excel中的各sheet

因为需要读取和处理的sheet表格比较多, 尝试重构并循环读取. 之前参考的博客代码有一点问题, 踩坑了, 所以重新整理一篇. 参考: https://blog.csdn.net/…

人工智能 2023年7月8日
0066
智源社区AI周刊No.109：ChatGPT预示大模型取代搜索引擎；Stable Diffusion2.1发布，8k高清图像生成…

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月31日
0073
联邦学习激励机制

联邦学习激励机制每日一诗：《杂兴其二》清 · 张廷玉我闻昔人言，苛政猛如虎。又诵《魏风》篇，硕鼠况贪取。嗟哉牧民人，煌煌绾圭组。乃以父母称，而为众所苦。驺虞有仁心，麟趾中规矩。…

人工智能 2023年6月25日
0082
豆瓣评分9.4，邱锡鹏教授蒲公英书姊妹篇《神经网络与深度学习：案例与实践》重磅来袭…

“我不能创造的东西，我就不理解（ What I cannot create, I do not understand）．”这是诺贝尔物理奖获得者理查德 ·费…

人工智能 2023年7月13日
0063
【yolov4-tiny】三、NNIE小结

序【yolov4-tiny】一、darknet-＞caffe【yolov4-tiny】二、pytorch-＞onnx-＞caffe 前文使用两种途径将yolov4-tiny转为c…

人工智能 2023年7月14日
0070

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network

大家都在看