python基于ocr的视频字幕提取

2023年7月18日下午10:00 • 人工智能 • 阅读 61

导读

在无数次的996加班后的下午，忽然听见了QQ的震动，我发现有人居然给我发消息~原来是我的妹妹给我发来了消息，内容如下：
她现在正兼职帮学校帮老师配教学视频的字幕，他们配上去了，但是老师又有一个奇怪的想法。哎~ 能不能再从视频中读取字幕出来呢？

我有点为难，犹豫了。
她又说，gie~gie~ 你那么厉害肯定能做出来的！
那我只能路见不平一声吼啊~该出手时就出手，谁让我是gie~gie~呢 !?

我来~~~

基本功能

根据其项目需求我们可列出下列功能：

可以读视频
识别视频中的文字区域
识别区域中的文字信息

由此我们可以得到如下的项目流程

项目整体流程

确定读取视频的手段，我整体采用的是 python+opencv
在字幕区域确认手段中使用 opencv的选区cv.selectROI()函数，手动确认字幕范围
在文字识别中我采用的是 pytesseract 技术

项目实现

环境搭建

须具有opencv开发环境，请自行上网搜寻
推荐搜索：opencv-python详细安装教教程
须具有 tesseract 开发环境，请自行上网搜寻
推荐搜索：pytesseract tesseract-ocr详细安装教教程
在使用tesseract环境时得具有中文识别数据，这个我可以提供。
下载地址：https://wwd.lanzouj.com/i0FRU01vqjoh 密码:c9oz

代码编写

包导入

from PIL import Image
import cv2 as cv
import pytesseract
import threading

主处理函数

def video_handle():
    while 1:
        name = input("请将本软件与视频放在统一目录下并输入文件名，要有后缀例如 小明.mp4\n并且将会生成字幕文件。\n")
        fxy = input("请输入视频显示时缩放程度，建议0.5-0.6 太小的数字识别度不高 例如：0.5\n")
        if name == "" and fxy == "":
            print("不允许为空")
            continue
        break
    file_name = name
    # 获取视频
    cap = cv.VideoCapture(r"{}".format(name))
    # 初始化帧率控制 左上右下
    n = x = y = w = h = 0
    # 区域
    roi = None

    while cap.isOpened():
        # cap.read()
        # 视频流读取
        flag, frame = cap.read()

        if flag is False:
            break
        # 根据输入重设大小
        frame = cv.resize(frame, (0, 0), fx=float(fxy), fy=float(fxy))
        # 以20的帧率识别
        if n % 20 == 0:
            # 初始化范围
            if n == 0:
                if input("输入1则自选区域,建议根据实际视频字幕区域选择,尽量区域选择全面\n") == "1":
                    # 选择范围框
                    roi = pic_range(frame)
                    # 保存位置
                    x, y, w, h = roi
                else:
                    # 默认选区
                    x, y, w, h = 405, 971, 1194, 75
                print("字幕范围", x, y, w, h)

            # 长方形范围框
            if n > 0:
                cv.rectangle(img=frame, pt1=(x, y), pt2=(x + w, y + h), color=(0, 0, 255), thickness=2)

            # 区域内图像裁剪
            range_pic = frame[y:y + h, x:x + w]
            # 高斯滤波降噪
            throw_nosiy = cv.GaussianBlur(range_pic, (5, 5), 0)
            # 灰度
            GrayImage = cv.cvtColor(throw_nosiy, cv.COLOR_BGR2GRAY)

            # 二值化
            ret, thresh = cv.threshold(GrayImage, 127, 255, cv.THRESH_BINARY)
            cv.imshow("word", thresh)
            cv.imshow("pic", frame)
            # 转化为pil图片模式
            image = Image.fromarray(cv.cvtColor(thresh, cv.COLOR_BGR2RGB))
            # 识别
            pic_str(image, file_name)

        # q键退出
        if ord('q') == cv.waitKey(3):
            break
        n = n + 1
    cv.destroyAllWindows()
    # 释放摄像头
    cap.release()

文字识别

def pic_str(image, file_name):
    # tesseract ocr
    chi_text = pytesseract.image_to_string(image, lang="chi_sim")
    # 移除多余的空格与换行
    chi_text = chi_text.replace(" ", "").replace("\n", "")
    if chi_text != "":
        print(chi_text)
        # 创建进程写入
        thread = threading.Thread(target=file_save, args=(chi_text, file_name))
        thread.start()

字幕范围选择

在此处我原本想让他自动识别字幕的，看的人多的话我就做~~

def pic_range(img):
    # 范围选择
    roi = cv.selectROI(windowName="roi", img=img, showCrosshair=True, fromCenter=False)
    cv.destroyAllWindows()
    return roi

字幕的存储

def file_save(chi_text, file_name):
    with open("{}.txt".format(file_name), "a+") as f:
        f.write(chi_text + "\n")

效果

使用了pyinstaller将其打包成exe便于妹妹使用~

这才是最终效果！

这波效果直接拉满好吧~

最后

妹妹的鼓励才是生产的第一动力！！！

若是有代码方面的问题，评论区交流~~~看到了就会回。

Original: https://blog.csdn.net/xxx177/article/details/123656437
Author: 一九七六五三
Title: python基于ocr的视频字幕提取

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/701626/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

R语言与临床模型预测——LASSO回归，单因素多因素cox，差异表达分析，Venn图，森林图，列线图，矫正曲线，ROC全套代码及解析——第十二部分列线图本专栏可免费答疑

1.下载数据匹配基因基因去重复 4.匹配临床数据 5.批量cox回归分析 6.差异表达基因筛选 7.取交集，选出预后相关的差异表达基因 8.森林图绘制 9.lasso回归进一步…

人工智能 2023年6月18日
0087
2022年全国大学生数学建模竞赛E题目-小批量物料生产安排详解+思路+Python代码时序预测模型(二)

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月5日
00112
5000张高清壁纸大图（手机用），用Python在法律的边缘又试探了一把

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月19日
0088
SUMO交通流仿真实战

理解、预测并最终减少城市路网中的交通拥堵是一个复杂的问题。即使了解最简单的单车道情况下出现的交通拥堵，也是具有挑战性的。SUMO是一个开源平台，可模拟复杂环境中的交通流。在这个教…

人工智能 2023年6月11日
00163
知识图谱内容调研

目录知识图谱内容调研 * 是什么解决什么问题研究现状及发展趋势 – 知识图谱构建应用实践知识图谱构建技术 + 命名实体识别技术关系抽提技术现有方案 &#82…

人工智能 2023年6月1日
0065
html好看的生日祝福，生日表白(源码)

文章目录 1.设计来源 * 1.1 主界面 1.2 秘密基地 1.3 甜言蜜语 2.效果和源码 * 2.1 动态效果 2.2 源代码 2.3 自定义背景图片代码 2.4 自定义每次…

人工智能 2023年7月30日
0068
保姆级官方yolov7的训练自己的数据集以及项目部署

yolov7 训练自己的数据集并部署第一步数据集准备第二步 train.py载入自己的数据集并训练第三步将训练好的pt文件做成接口调用 * 第一步数据集准备第二步 t…

人工智能 2023年6月16日
0073
OpenCV基础操作_视频读取

1.1 cv2. VideoCapture () 在OpenCV中，可以使用 VideoCapture来读取视频文件，或是摄像头数据。 Python: cv2. VideoCapt…

人工智能 2023年5月26日
0075
解放程序员双手——ChatGPT注册踩雷之路+使用体验

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月30日
0051
智能遥感：AI赋能遥感技术

随着人工智能的发展和落地应用，以地理空间大数据为基础，利用人工智能技术对遥感数据智能分析与解译成为未来发展趋势。本文以遥感数据转化过程中对观测对象的整体观测、分析解译与规律挖掘为主…

人工智能 2023年6月10日
0057
React-性能优化（不用memo）

相信大家在使用React时，经常会遇到页面出现重复渲染的情况，有时候，可能渲染的数据不多，从视觉上感觉不到性能的消耗，但是有时候却很尴尬，比如渲染一个可编辑的列表，当列表的行数稍微…

人工智能 2023年7月30日
0040
调参侠——如何对神经网络进行调参

从实践的角度，手把手教你如何对神经网络超参数进行调参。本文涉及的调参目标有：学习率 Batch Size 网络深度与宽度 Epochs L1、L2正则化与平衡系数 Dropout…

人工智能 2023年7月14日
0080
Opencv c++（图像处理）

目录一、图像读取与显示二、图像预处理高斯模糊的原理与算法 Canny边缘检测三、图像裁剪四、绘制形状和添加文本五、透视变换六、颜色检测七、形状检测和轮廓检测八、人…

人工智能 2023年6月20日
0060
Python数据库sqlite3详解

提到数据库，大家第一时间想到的可能是 sql 数据库，这种数据库非常好用，但是对于新手就不是很容易上手，需要熟悉一段时间才可以大概掌握。这种数据库在大型的项目开发过程中用到…

人工智能 2023年7月30日
0063
股票数据分析

股票数据分析前面我们介绍了Spark 和 Spark SQL，今天我们就使用 Spark SQL来分析一下我们的数据，今天我们主要分析一下股票数据数据准备这里郑重申明，我们的…

人工智能 2023年6月11日
0086
Python日常办公10大小技巧

今天给大家介绍11个我们在日常办公中或许或用到的11个python第三方库，都是非常有用的，下面是目录。 1.生成二维码 2.快速定位截屏 3.鼠标移动点击(非常好用) 4.图片转…

人工智能 2023年7月3日
0083

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31