Python使用PaddleOCR本地进行视频字幕识别

2023年7月19日上午9:25 • 人工智能 • 阅读 58

本文简述了利用OpenCV库以及PaddleOCR库对视频预定位置进行字幕提取并整合识别，在实际工程中，可以调用OCR的识别输出接口进行识别内容的批量保存。

后续改进方向参考：

1.PaddleNLP进行识别文本纠错。

2.选取合适的方式做到字幕截取不重不漏：

简便思路可以采用高密度切图的方式，重复识别的文字内容在后续进行去重。而实际应用中应当采用识别前预处理的方式，从而减少重复识别带来的时间消耗。

切图后文字识别前的去重方式，可以参考我的另一篇图像相似度判别的小文章，主要原理是采用图像HASH值判别相似度的方式。

3.针对不同视频可以自动选择不同的字幕位置。

4.当字幕质量较低，如没有浅灰色背景条衬托时，简单二值化处理是否能继续适用的探讨。

一、参考内容

1：PaddleOCR

GitHub – PaddlePaddle/PaddleOCR: Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices)Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices) – GitHub – PaddlePaddle/PaddleOCR: Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices) Python使用PaddleOCR本地进行视频字幕识别 https://github.com/PaddlePaddle/PaddleOCR ;2：参考博客

基于图像识别和文字识别用 Python 提取视频字幕_XnCSD的博客-CSDN博客_视频文字识别基于图像识别和文字识别用 Python 提取视频字幕本文介绍使用 Python 基于图像识别提取视频中的字幕，并使用文字识别将字幕转为纯文本。本文以权力的游戏第一季第一集作为示例。本文主要使用 OpenCV 读取视频并进行图像处理，需安装以下依赖的库：pip install opencv-pythonpip install Pillowpip install numpy1、使用 op… Python使用PaddleOCR本地进行视频字幕识别 https://blog.csdn.net/XnCSD/article/details/89376477 ;

二、部分代码及思路

1：本demo所需的库

import os
from cv2 import cv2
from PIL import Image
from paddleocr import PaddleOCR, draw_ocr

2：视频字幕示例

可以看到字幕部分存在部分其他文字干扰，不建议整帧识别。本demo不涉及字幕位置判断的相应功能，而是直接截取字幕位置进行处理，效果如下。

但是实际OCR识别时，会被背景文字所干扰，我们还需要调用CV库中二值化函数进行筛选处理，效果如下：

此时肉眼观察效果较好，但是直接进行OCR识别会出现”拆字”的问题，原因可能为图片过于细长，不适合预训练好的图片参数，而且考虑到每行字幕均会参与识别，OCR调用频率过高的问题，尝试将字幕进行上下拼接

for i in range(3, 10):
    i = i * 700  # i代表随便抽取的某些帧
    videoCap.set(cv2.CAP_PROP_POS_FRAMES, i)  # 设置要获取的帧号
    TorF, frame = videoCap.read()
    # 直接截取字幕所在位置，效果如上图
    np_img = frame[870:955, :]
    # 将字幕段进行颜色处理，未达到阈值的颜色将会变为白色背景
    retVal, bw_img = cv2.threshold(np_img, 245, 245, cv2.THRESH_BINARY_INV)
    np_pic_list.append(bw_img)

拼接效果如下，经过拼接的图片调用识别函数，可以达到事半功倍的效果。

识别效果如下，准确率较高。测试句子中”干旱”变为”干早”，其实paddleNLP库中也有文本纠错功能，可以尝试后续添加相应预训练集以及相关功能函数进行识别错误纠正。

三、demo源码

import os
from cv2 import cv2
from PIL import Image
from paddleocr import PaddleOCR, draw_ocr

读入视频
video_filename = r'F:\pycharm_project\OCR\video\demo.mp4'
videoCap = cv2.VideoCapture(video_filename)
切换图片保存目录
os.chdir(r'F:\pycharm_project\OCR\pics')

np_pic_list = []
for i in range(3, 10):
    i = i * 700  # i代表随便抽取的某些帧
    videoCap.set(cv2.CAP_PROP_POS_FRAMES, i)  # 设置要获取的帧号
    TorF, frame = videoCap.read()  # read方法返回一个布尔值和一个视频帧
    # im = frame[:, :, 0] #  显示全图
    # 确定字幕的范围，这里仅针对该视频作展示实际情况需要更改
    np_img = frame[870:955, :]
    # 实现array到image的转换
    # oir_pic = Image.fromarray(np_img)
    # 这里颜色会出现改变，问题应该是RGB与BGR编码格式变化引起的
    # oir_pic.save('pic_' + str(i) + '.jpg')
    # 将字幕段进行颜色处理，未达到阈值的颜色将会变为白色背景
    retVal, bw_img = cv2.threshold(np_img, 245, 245, cv2.THRESH_BINARY_INV)
    # 逐段追加
    np_pic_list.append(bw_img)

垂直拼接并保存成一张图
Image.fromarray(cv2.vconcat(np_pic_list)).save('result_1.jpg')

调用paddleOCR接口
ocr = PaddleOCR(use_angle_cls=True, lang="ch")
img_path = r'F:\pycharm_project\OCR\pics\result_1.jpg'
result = ocr.ocr(img_path, cls=True)
for line in result:
    print(line)

image = Image.open(img_path).convert('RGB')
boxes = [line[0] for line in result]
txts = [line[1][0] for line in result]
scores = [line[1][1] for line in result]

im_show = draw_ocr(image, boxes, txts, scores, font_path='/path/to/PaddleOCR/doc/simfang.ttf')
im_show = Image.fromarray(im_show)
im_show.save('result_2.jpg')

Original: https://blog.csdn.net/cutenew52188/article/details/123379043
Author: 认识你很高兴！
Title: Python使用PaddleOCR本地进行视频字幕识别

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/702572/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

java计算机毕业设计在线校园超市系统源代码+系统+数据库+lw文档

本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：idea eclipse 前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAV…

人工智能 2023年6月26日
0069
Magichub重口音对话语音识别挑战赛报名开始

2022年5月10日，由 Magic Data (北京爱数智慧科技有限公司) 、中国科学院声学研究所、西北工业大学、上海交通大学、北京邮电大学主办，Magichub 开源社区、上海…

人工智能 2023年5月25日
00118
深度学习理论篇之 ( 十八) — 注意力机制之SENet

科普知识 ILSVRC（ImageNet Large Scale Visual Recognition Challenge）是机器视觉领域最受追捧也是最具权威的学术竞赛之一，代表了…

人工智能 2023年6月25日
0081
行业大数据期末复习

2022期末考试用，如有问题欢迎指正！本文参考：https://blog.csdn.net/qq_44616044/article/details/118434965 题型：选择判…

人工智能 2023年7月18日
0049
动态卷积 Dynamic convolution

每周汇报，实属不易。近期学习了关于动态卷积的相关内容，写成一个小节，帮助理解什么为动态卷积。内容较为宽泛，若想学习细节知识，可以参考论文。和知乎链接：https://zhuanla…

人工智能 2023年5月26日
0091
ML之FE：数据预处理中基于pandas实现类别型数据数值化(包括自定义编码映射字典)、目标变量布尔类型化且同时输出raw_df和df数据之代码实现攻略

ML之FE：数据预处理中基于pandas实现类别型字段数据编码(包括自定义编码映射字典)、目标变量布尔类型化且同时输出raw_df和df数据之代码实现攻略一、类别型字段数据编码 …

人工智能 2023年7月16日
0066
torch.load()加载模型及其map_location参数

函数格式为： torch.load(f, map_location=None, pickle_module=pickle, **pickle_load_args)，一般我们使用的时…

人工智能 2023年7月26日
00127
【入门教程】使用预训练模型进行训练、预测（以VGG16为例）

本文环境：win10、torch>=1.6 VGG16是一个简单的深度学习模型，可以实现图像的分类。PyTorch的库中有VGG16的模型构架，在torchvision.mo…

人工智能 2023年7月21日
0053
【强化学习】 Nature DQN算法与莫烦代码重现（tensorflow)

DQN,(Deep Q-Learning)是将深度学习与强化学习相结合。在Q-learning中，我们是根据不断更新Q-table中的值来进行训练。但是在数据量比较大的情况下，Q-…

人工智能 2023年5月23日
00208
如何使用PyTorch进行目标检测任务

如何使用PyTorch进行目标检测任务在本文中，我们将详细介绍如何使用PyTorch进行目标检测任务。我们将依次介绍目标检测算法的原理、公式推导、计算步骤以及给出复杂的Pytho…

人工智能 2024年1月2日
0045
6张图！5G六大细分领域产业图谱

上回，小编为大家展出了正站在风口上的芯片产业图谱（点击文字可直接传送）。今日，小编继续为大家呈现 5G行业6个细分领域的相关图谱。它们分别是： 5G天线产业图谱、 5G供电系统…

人工智能 2023年6月1日
0091
python pandas 把数据保存成csv文件，以及读取csv文件获取指定行、指定列数据

文章目录： 1 数据说明 2 把数据集文件信息使用python pandas保存成csv文件 3 使用python pandas 读取csv的每行、每列数据 1 数据说明 1、在 …

人工智能 2023年6月15日
0076
RuntimeError: DefaultCPUAllocator: not enough memory: you tried to allocate 1105920 bytes.

问题 RuntimeError: [enforce fail at ..\c10\core\CPUAllocator.cpp:76] data. DefaultCPUAllocat…

人工智能 2023年6月16日
00119
计算机网络 – IPv4 常考知识点详解(超详细！)

目录一、IPv4分组 1、IPv4分组的格式 2、IP数据报分片 3、网络层转发分组的流程二、IPv4地址与NAT 1、IPv4地址 2、NAT 三、子网划分与子网掩码、CID…

人工智能 2023年6月27日
00152
CloudCompare点云配准基本操作

CloudCompare基本介绍官方网站https://cloudcompare.org/官方文档https://cloudcompare.org/doc/qCC/CloudCo…

人工智能 2023年6月17日
0087
推进流程挖掘技术发展，信通院首轮流程挖掘评测预报名正式启动

近年来，人工智能工程化步伐加快，企业从关注上层业务的自动化、智能化执行，到开始重视业务流程质量提升，数字化转型逐步向纵深方向发展。流程挖掘基于企业实际运营的各类数据，应用大数据分…

人工智能 2023年6月4日
0093

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python使用PaddleOCR本地进行视频字幕识别

本文简述了利用OpenCV库以及PaddleOCR库对视频预定位置进行字幕提取并整合识别，在实际工程中，可以调用OCR的识别输出接口进行识别内容的批量保存。

一、参考内容

二、部分代码及思路

三、demo源码

大家都在看