PaddleOCR学习（一）PaddleOCR安装与测试

2023年7月5日下午6:54 • 人工智能 • 阅读 78

各种OCR算法试了一圈，还是PaddleOCR比较完善，集成度高，而且各种调试、测试、各种backbone的更改都要方便许多，非常的接地气。网上也有许多paddleocr的相关教程，但是说实话，有很多不清晰的地方，像我这样接触深度学习算法的新手，很多东西都搞不清楚，导致浪费不少时间，趁着网络在训练，我想做一份最最详细的PaddleOCR算法新手教程，确保初次接触深度学习的新手也能快速搞懂。

一、安装PaddleOCR

首先去github下载：https://github.com/PaddlePaddle/PaddleOCR，然后找个文件夹解压。

接下来需要配置PaddleOCR所需的环境，我是win10+anaconda，如果是linux的教程网上也很多，比win10简单多了，就不写了。

首先，推荐新建一个环境：

conda create -n paddle38 python=3.8

接下来，安装PaddlePaddle，推荐使用清华源：

pip install paddlepaddle -i https:

如果要使用gpu版的，安装paddlepaddle-gpu：

pip install paddlepaddle-gpu

然后是安装shapely，但是需要先从https://www.lfd.uci.edu/~gohlke/pythonlibs/下载shapely安装包 Shapely‑1.7.1‑cp38‑cp38‑win_amd64.whl，将其复制到 F:\Anaconda3\envs\paddle38\libs文件夹下（根据自己新建的环境的位置修改），然后在anaconda Prompt中，cd到该目录下，执行：

pip install Shapely‑1.7.1‑cp38‑cp38‑win_amd64.whl

最后cd到刚才解压的PaddleOCR文件夹中，执行：

pip install -r requirements.txt

至此，安装就完成了，我用的是pycharm，记得到pycharm中，将PaddleOCR项目的环境改为paddle38。

PaddleOCR-develop文件夹目录下应该有以下文件：

这是我已经安装完的文件夹，里面有些文件夹是最初没有的，比如demo、inference、pretrain_models、results、train_data等，这些后面会讲，不影响。

二、试用官方的模型

完成PaddleOCR安装之后，推荐先用官方模型对自己的数据进行下测试看看效果，官方预训练模型的下载地址为：
https://github.com/PaddlePaddle/PaddleOCR/blob/develop/README_ch.md

如图，我下载的是超轻量OCR模型，检测、方向分类、识别的推理模型我都下载了，在PaddleOCR目录下新建一个inference文件夹，用于存放这些模型：

接下来就可以准备开始测试自己的图片了，官方也给出了快速开始的教程：
https://github.com/PaddlePaddle/PaddleOCR/blob/develop/doc/doc_en/quickstart_en.md

可以使用如下命令进行单张图片的测试：
这里有两种方法：
（1）直接在paddle-develop文件夹目录下打开cmd，然后conda activate paddle38，在输入以下指令；
（2）在anaconda Prompt中先conda activate paddle38，再一路cd到paddle-develop文件夹下。

python tools/infer/predict_system.py --image_dir="./doc/imgs/11.jpg"
                                      --det_model_dir="./inference/ch_ppocr_mobile_v1.1_det_infer/"
                                      --rec_model_dir="./inference/ch_ppocr_mobile_v1.1_rec_infer/"
                                      --cls_model_dir="./inference/ch_ppocr_mobile_v1.1_cls_infer/"
                                      --use_angle_cls=True
                                      --use_space_char=True

有的网上教程前面是python3开头，不知道为什么，反正在我的环境里跑不起来，甚至没有任何报错反应。

如果不想使用命令运行，而是想在pycharm中使用run的话，需要在代码中进行修改，需要修改的代码在PaddleOCR-develop/tools/infer文件夹下：

这里面，predict_det是检测文本用的，predict_rec是识别文本用的，而predict_system是既检测又识别。另外，这几个预测文件共用一个参数配置文件utility.py，需要更改的参数如下：

注意这些需要修改的参数在utility文件中不是连续的
是否使用gpu
parser.add_argument("--use_gpu", type=str2bool, default=True)
图片位置（图片位置相对于utility文件位置比较遥远，也可以使用绝对路径）
parser.add_argument("--image_dir", type=str, default="../../demo/sample4.jpg")
检测模型路径
parser.add_argument("--det_model_dir", type=str, default="../../inference/ch_ppocr_mobile_v1.1_det_infer/")
识别模型路径
parser.add_argument("--rec_model_dir", type=str, default="../../inference/ch_ppocr_mobile_v1.1_rec_infer")
字典路径（ic15_dict.txt是英文字典，ppocr_keys_v1.txt是中文字典，检测一般不区分中英文，但是识别需要区分中英文）
parser.add_argument(
        "--rec_char_dict_path",
        type=str,
        default="../../ppocr/utils/ic15_dict.txt")
分类模型
parser.add_argument("--cls_model_dir", type=str, default="../../inference/ch_ppocr_mobile_v1.1_cls_infer")
字体路径
def draw_ocr_box_txt(image,
                     boxes,
                     txts,
                     scores=None,
                     drop_score=0.5,
                     font_path="../../doc/simfang.ttf"):
字体路径
def text_visual(texts,
                scores,
                img_h=400,
                img_w=600,
                threshold=0.,
                font_path="../../doc/simfang.ttf"):

修改完这些文件后，运行predict_system文件，即可，输出结果的位置在predict_system中修改：

draw_img_save = "../../results"

这样即可输出到PaddleOCR-develop/results文件夹中。

同样的，如果只进行文本检测（不识别），运行predict_det，输出结果同样修改。

Original: https://blog.csdn.net/weixin_42708301/article/details/119864744
Author: 鲸落于北
Title: PaddleOCR学习（一）PaddleOCR安装与测试

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/672353/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

使用PyTorch进行小样本学习的图像分类

近年来，基于深度学习的模型在目标检测和图像识别等任务中表现出色。像ImageNet这样具有挑战性的图像分类数据集，包含1000种不同的对象分类，现在一些模型已经超过了人类水平上。但…

人工智能 2023年6月29日
0083
看懂RTK定位，这一篇就够啦！

说到定位，相信大家一定不会觉得陌生。如今我们所处的信息时代，人人都有手机。每天，我们都会用到与地图和导航有关的APP。这些APP，就是基于定位技术的。说到定位技术呢，大家又肯定…

人工智能 2023年6月25日
0072
【opencv-python测量物体的实际大小】使用opencv-python测量物体的实际大小

效果 ; 第一步，进行轮廓提取，将图片转化为灰度图，然后进行高斯模糊，模糊后提取轮廓，然后进行膨胀收缩使轮廓更加的清晰 def getContours(img): img = cv…

人工智能 2023年6月17日
00224
评价指标reacll@10,mrr@10,ndcg@10,hit@10的含义

在知识图谱补全和推荐系统中常用到recall,mrr,ndcg,hit的评价指标知识图谱补全也成为链接预测，是用来预测三元组（h，r，t）中缺失实体h，t或r的任务，对于每一个缺…

人工智能 2023年6月26日
00131
基于Python的这个库，我实现了“隔空操物“

🚀 作者：”大数据小禅” 大数据领域作者，华为认证云享专家，阿里云专家博主🚀 文章简介：本篇文章的实战部分中主要使用到了 MediaPipe 与 Ope…

人工智能 2023年7月5日
0081
spaCy的方法进行训练一个新的招投标实体标注模型

前言 NER标注的中文名为命名实体识别，与词性标注一样是自然语言处理的技术基础之一。NER标注是指对现实世界中某个对象的名称的识别，例如法国、Donald Trump或者微信。在这…

人工智能 2023年5月28日
00127
Git命令快速入门（建议收藏）

目录一、简介二、基本场景Git用法三、工作区、暂存区、本地仓库、远程仓库四、常用命令用法 * git clone git add git commit git status…

人工智能 2023年6月26日
0068
机器学习实战（八）——预测数值型数据：回归

机器学习实战（八）——预测数值型数据：回归一、用线性回归找到最佳拟合曲线 1、线性回归与非线性回归线性回归：具体是可以将输入项分别乘上一些常量，然后再进行求和得到输出非线性回…

人工智能 2023年6月17日
0061
进阶版的Pandas数据分析神器：Polars

相信对于不少的数据分析从业者来说呢，用的比较多的是 Pandas以及 SQL这两种工具， Pandas不但能够对数据集进行清理与分析，并且还能够绘制各种各样的炫酷的图表，但是遇到数…

人工智能 2023年7月18日
0051
CVAT——计算机视觉标注工具

CVAT——计算机视觉标注工具一、CVAT简介 CVAT 是用于计算机视觉的强大、有效、免费、在线、交互式视频和图像注释工具 Intel团队正在使用它来注释数百万个具有不同属性的…

人工智能 2023年7月26日
00163
回归预测基于ELMAN递归神经网络预测及其matlab代码实现

文章目录 1. ELMAN神经网络的简介和算法描述 * 1.1 Elman网络介绍 1.2 Elman结构组成 1.3 ELMAN训练界面的参数解读 2. 建立ELMAN神经网络的…

人工智能 2023年6月16日
0071
pyspark使用KMeans聚类

01.导入模块，生成对象 from pyspark.sql import SparkSession from pyspark.ml.feature import VectorAss…

人工智能 2023年7月17日
0060
Softmax回归模型

Softmax回归模型一般用于分类任务，它的输出值个数等于标签里的类别数。w权重参数等于输入特征值*输出值个数，偏差参数b等于输出值个数。Softmax回归同线性回归一样是一个单层…

人工智能 2023年6月17日
00109
深度学习 Day 18——利用卷神经网络实现猫狗识别 Ⅱ

深度学习 Day 18——利用卷神经网络实现猫狗识别 Ⅱ 文章目录深度学习 Day 18——利用卷神经网络实现猫狗识别 Ⅱ * 一、前言二、我的环境三、前期工作 &#8211…

人工智能 2023年6月28日
00100
机器学习笔记 – 使用pytorch + yolov5训练自定义数据集

### 回答1： Yolov5_是一种用于 _目标检测_的深度学习模型，在 _Pytorch_框架下 _训练_它可以产生自己的 _数据集，用于对不同类型的目标进行定位和识别。这个 …

人工智能 2023年7月10日
0070
七、VGG16实现鸟类数据库分类

文章目录 * – 前文 – 加利福尼亚理工学院鸟类数据库分类 – + 数据生成器 + 图像显示 + VGG模型构建 + VGG模型编译与拟合 +…

人工智能 2023年5月26日
0084

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

PaddleOCR学习（一）PaddleOCR安装与测试

大家都在看