百度PaddleOCR文字识别库下载安装保姆级教程

2023年5月28日下午12:57 • 大数据 • 阅读 204

文字目录

1.PaddleOCR是什么？
2.特性
3.安装总流程（安装步骤在第四单元）
*
1.首先安装PaddlePaddle库（深度学习框架）
2.安装shapely库（依赖的库）
3.安装PaddleOCR（要使用的库）
4.安装步骤（win or mac）
*
1.检查安装环境
–
- 检查环境方法
2.升级pip到最新版（选做）
3.安装飞浆学习框架PaddlePaddle
4.安装依赖库shapely
5.安装PaddleOCR
5.测试

1.PaddleOCR是什么？

PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库，助力使用者训练出更好的模型，并应用落地。
飞桨文字识别开发套件PaddleOCR，旨在打造一套丰富、领先且实用的OCR工具库，开源了基于PP-OCR实用的超轻量中英文OCR模型、通用中英文OCR模型，以及德法日韩等多语言OCR模型。并提供上述模型训练方法和多种预测部署方式。同时开源文本风格数据合成工具Style-Text和半自动文本图像标注工具PPOCRLable

2.特性

1.PPOCR系列高质量预训练模型，准确的识别效果
轻量ppocr_mobile移动端系列:检测(2.6M)+方向分类器(0.9M)＋识别(4.6M) = 8.1M。通用ppocr_server系列:检测（47.2M) +方向分类器(0.9M)＋识别(107M) = 155.1M
超轻量压缩ppocr_mobile_slim系列:检测（1.4M) +方向分类器(0.5M)＋识别(1.6M) = 3.5M·支持中英文数字组合识别、竖排文本识别、长文本识别
2.支持多语言识别:韩语、日语、德语、法语
3.支持用户自定义训练，提供丰富的预测推理部署方案·支持PIP快速安装使用
4.可运行于Linux、Windows、MacOS等多种系统

3.安装总流程（安装步骤在第四单元）

1.首先安装PaddlePaddle库（深度学习框架）

飞桨（PaddlePaddle）以百度多年的深度学习技术研究和业务应用为基础，集深度学习核心训练和推理框架、基础模型库、端到端开发套件、丰富的工具组件于一体的深度学习框架

2.安装shapely库（依赖的库）

Shapely is a Python package for set-theoretic analysis and manipulation of planar features using (via Python’s ctypes module) functions from the well known and widely deployed GEOS library.

Shapely是一个Python包，用于使用(通过Python的ctypes模块)GEOS库中的函数对平面特性进行集论分析和操作
https://shapely.readthedocs.io/en/latest/manual.html#introduction

3.安装PaddleOCR（要使用的库）

飞桨文字识别开发套件PaddleOCR，旨在打造一套丰富、领先且实用的OCR工具库，开源了基于PP-OCR实用的超轻量中英文OCR模型、通用中英文OCR模型，以及德法日韩等多语言OCR模型。并提供上述模型训练方法和多种预测部署方式。同时开源文本风格数据合成工具Style-Text和半自动文本图像标注工具PPOCRLable

4.安装步骤（win or mac）

1.检查安装环境

要使用PaddleOCR，必须要有paddle深度学习框架，而其深度学习框架有环境要求。
目前飞桨支持的环境（博客写于2021年10月5日）

Windows 7/8/10专业版/企业版(64bit)
GPU版本支持CUDA 10.1/10.2/11.0/11.2，且仅支持单卡
Python 版本 3.6+/3.7+/3.8+/3.9+(64 bit)
pip 版本20.2.2或更高版本(64 bit)

检查环境方法

1.检查Python版本

python --version

2.检查pip版本

python -m pip --version

3.检查cuda版本
要记住自己的cuda版本，一会安装的时候有用

2.升级pip到最新版（选做）

python3 -m pip install --upgrade pip

3.安装飞浆学习框架PaddlePaddle

如果您的计算机没有 NVIDIA® GPU，请安装CPU版的PaddlePaddle

python3 -m pip install paddlepaddle==2.0.0b0 -i https://mirror.baidu.com/pypi/simple

如果您的机器安装了 NVIDIA® GPU，记住版本号，进入链接网站查询后下载。

选择自己的系统→选择pip（ 即使安装conda了也使用pip，下载方便一些 ）→选择自己的cuda版本→打开cmd安装
我的版本是11.2
百度PaddleOCR文字识别库下载安装保姆级教程

但是提示 非安培架构使用10.2好些，RTX2060是图灵架构和我一样的不用百度了

; 4.安装依赖库shapely

注意，windows环境下，建议从这里单机蓝字下载shapely安装包完成安装， 直接通过pip安装的shapely库可能出现[winRrror 126] 找不到指定模块的问题。
根据提供的shapely文件名判断哪个版本是符合你的：第一看cp36 cp37 cp39这一部分，代表的是你python版本，如你装的是python3.7那就选择cp37（后缀m不用在意）；第二看最后位数，64位就选win_amd64，32位就选win32

其是whl文件，whl文件安装方法见博客点击这里

; 5.安装PaddleOCR

pip install paddleocr

5.测试

代码

from paddleocr import PaddleOCR, draw_ocr

ocr = PaddleOCR(use_angle_cls=True, lang="ch")
img_path = 'perfect.jpg'
result = ocr.ocr(img_path, cls=True)
for line in result:
    print(line)

from PIL import Image

image = Image.open(img_path).convert('RGB')
boxes = [line[0] for line in result]
txts = [line[1][0] for line in result]
scores = [line[1][1] for line in result]
im_show = draw_ocr(image, boxes, txts, scores, font_path='/path/to/PaddleOCR/doc/simfang.ttf')
im_show = Image.fromarray(im_show)
im_show.save('result.jpg')

结果示意图

如果编译时遇到报错
报错内容：
RuntimeError: (PreconditionNotMet) The third-party dynamic library (cublas64_102.dll;cublas64_10.dll) that Paddle depends on is not configured correctly.

可以使用这个博主的文章解决文章地址

Original: https://blog.csdn.net/sika_deer/article/details/120631075
Author: 寒幕小怪
Title: 百度PaddleOCR文字识别库下载安装保姆级教程

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531656/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

adb shell使用教程+sqlite3使用示例

文章目录一、关于adb shell的理解二、adb shell的使用 * 1.进入adb shell的一般方法 2.进入adb shell更简易的方法三、使用sqliet3操…

大数据 2023年11月11日
0057
【自然语言处理】【数据增强】PromDA：应用于低资源NLU任务的、基于prompt的数据增强方法

PromDA：应用于低资源NLU任务的、基于Prompt的数据增强方法原始论文地址：[2202.12499] PromDA: Prompt-based Data Augmenta…

大数据 2023年5月28日
0076
微服务设计（三）—服务调用Feign及服务熔断机制Hystrix

一、Ribbon概述 Netflixfa 发布的一个负载均衡器，有助于控制HTTP和TCP客户端行为。在SpringCloud中，Ribbon提供了客户端负载均衡的功能，Ribb…

大数据 2023年6月3日
0079
寻找领域不变量：从生成模型到因果表征

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped …

大数据 2023年6月3日
0080
MySQL 数据迁移到 TiDB

摘要：由于mysql的数据存储容量有限，考虑使用TiDB替代mysql，需要部署TiDB，将mysql数据迁移到TiDB。原来的FineBI是直接连的MySQL，后期使用FineB…

大数据 2023年11月13日
0050
Windows用户态程序高效排错 — Heap和Stack [转帖]

平坦内存空间中的层次结构：Heap和Stack 本小结主要介绍Heap相关的崩溃和内存泄漏，和如何使用pageheap来排错。首先介绍heap的原理，不同层面的内存分配，接下来通过…

大数据 2023年6月3日
0092
Redis：内存淘汰机制

大数据 2023年11月15日
0037
Flink1.13-java版教程（基础）

课程结构导航第一章 Flink简介 1.Flink起源与设计理念 2.Flink在企业的应用 3.Flink的优势 4.数据处理框架的演变 5.流处理的应用场景 6.Flink分…

大数据 2023年5月24日
0083
Text Mining5.9一款用于文本挖掘的软件

软件来源微信公众号【学术点滴】【1】Text Mining5.9中文版软件核心功能： (1)多个文本自定义分词频次统计词云图绘制主题聚类 (2)单个大文本自定义分词频次统…

大数据 2023年5月28日
00125
大数据之Hive:regexp_extract函数

一、正则的通配符简介符号含义实列/做为转意，即通常在”/”后面的字符不按原来意义解释如” * “匹配它前面元字符0次或多次，/a/…

大数据 2023年11月12日
0044
我是如何将一个老系统的kafka消费者服务的性能提升近百倍的

kafka作为一种高吞吐量的分布式发布订阅消息系统，在业务系统中被广泛的使用。如果问你，如何提高kafka队列中的消息消费速度呢？答案很简单，topic多分几个分片，然后使用消费…

大数据 2023年5月28日
0082
2021年初寒假训练第24场 B. 庆功会（搜索）

NOIP结束之后，为了庆祝同学们取得的优异成绩，学校决定召开一次 Party。发邀请函的工作交到了你的手上。为了能让这次Party开得圆满顺利，对于这次邀请的同学们有两个要求：首先…

大数据 2023年5月24日
0070
Android 让Activity部分透明、并作出流畅的进场动画

现在界面半透明是很常见的，比如网易云下的界面： [En] It is now common to make an interface partially transparent, …

大数据 2023年5月24日
00139
windows下使用rancheros和virtualBox搭建docker环境 (ngixn+php)

2020-9-15 20:51:55 星期二概述: rancherOS是一个精简版的Linux系统, 他安装后默认将docker需要的东西也都给装上了. 用 virtualBox…

大数据 2023年5月29日
0076
生物大分子平台（11）

2021SC@SDUSC 本周了解了bert的基本概念 bert是一种预训练模型。假设A网络已经有一个数据集，先用A网络对数据集进行学习，得到一组参数，然后保存以备后用，当一个新任…

大数据 2023年5月28日
0069
离线数仓建设，企业大数据的业务驱动与技术实现丨03期直播回顾

原文链接：离线数仓建设，企业大数据的业务驱动与技术实现丨 03 期直播回顾视频回顾：点击这里课件获取：点击这里一、离线数仓建设背景但企业在数字化转型…

大数据 2023年5月26日
0093

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31