从零开始打造云端AI管理调度平台（番外篇_1）文件自动入库部分的更新

2023年8月5日下午5:45 • Python • 阅读 62

这次更新主要是更新文件自动入库时，同时也向数据库写入文件的时长。例如一个视频长度为01:25:30:02，需要将该数据从视频中提取出来并保存至数据库，同时在查看视频详情时可以展示。

修改数据表，新增durtaion字段

models.py

#媒体信息列表
class content_media(models.Model):
    id = models.AutoField(primary_key=True)
    create_time=models.DateTimeField()
    name=models.CharField(max_length=40)
    size=models.CharField(max_length=15)
    path=models.CharField(max_length=200)
    duration=models.CharField(max_length=12,default='00:00:00:00')

在命令行中执行：

python manage.py makemigrations

python manage.py migrate

数据表更新完成

修改主程序代码如下：

import os
import pymysql
import time
import copy
import os
import cv2

def scan_files(directory):
    files_list = []

    for root, sub_dirs, files in os.walk(directory):
        for special_file in files:
            tmp = []
            if (special_file.split('_')[0] != 'aizou0629'):

                #判断文件完全写入才进行后续操作
                if (isFinished(os.path.join(root, special_file))):

                    #判断文件是否出现重名
                    if ('aizou0629_' + special_file in files):
                        tmpname = copy.deepcopy(special_file)
                        flag=1
                        while 1:
                            if('aizou0629_' +special_file.replace('.', '('+str(flag)+').') not in files):
                                special_file=special_file.replace('.', '('+str(flag)+').')
                                os.rename(os.path.join(root, tmpname), os.path.join(root, special_file))
                                break
                            else:
                                flag+=1

                    #开始搜集需入库的文件列表
                    tmp.append(special_file)
                    tmp.append(cal_size(os.path.join(root, special_file)))
                    timearray = time.localtime(os.path.getctime(os.path.join(root, special_file)))
                    tmp.append(time.strftime("%Y-%m-%d %H:%M:%S", timearray))
                    tmp.append(getMediaInfo(os.path.join(root, special_file)))
                    files_list.append(tmp)

    if (len(files_list) == 0):
        return 0

    conn = pymysql.connect(host='localhost',
                           user='root',
                           password='ChenzroyI.*?',
                           database='test')
    cursor = conn.cursor()
    for each in files_list:
        path = str(os.path.join(root, 'aizou0629_' + each[0]))
        NewPath = ""
        for each_1 in path.split("\\"):
            NewPath += each_1 + "\\\\"
        NewPath = NewPath[:len(NewPath) - 2]
        sql="insert into myapp_content_media (create_time,name,size,path,duration) values ('{}','{}','{}','{}','{}')".format(each[2],each[0],each[1],NewPath,each[3])
        cursor.execute(sql)
        file_rename(root, each[0])
    conn.commit()
    cursor.close()
    conn.close()
    return files_list

修改文件大小格式，使其更符合阅读习惯
def cal_size(path):
    flag = 1
    unit_dict = {1: 'B', 2: 'KB', 3: 'MB', 4: 'GB', 5: 'TB'}
    size = os.path.getsize(path)
    while 1:
        if (size > 1024):
            size = size / 1024
            flag += 1
        else:
            return str(round(size, 2)) + unit_dict[flag]

判断外来文件是否已完全拷贝到存储中
def isFinished(path):
    tmp = []
    while 1:
        size = os.path.getsize(path)
        if (size in tmp):
            tmp.append(size)
        else:
            del tmp
            tmp = [size]
        if (len(tmp) == 3):
            return True
        time.sleep(10)

def file_rename(root, filename):
    filename_new = 'aizou0629_' + filename
    os.rename(os.path.join(root, filename), os.path.join(root, filename_new))

#获取视频的时长
def getMediaInfo(path):
    cap = cv2.VideoCapture(path)  #打开视频文件
    n_frames = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))  #视频的帧数
    fps = cap.get(cv2.CAP_PROP_FPS)  #视频的帧率
    media_f = int(n_frames % fps)  #视频时长的帧部分
    media_s = int(n_frames // fps % 60) #视频时长的秒部分
    media_m = int(n_frames // fps // 60 % 60) #视频时长的分钟部分
    media_h = int(n_frames // fps // 60 // 60) #视频时长的小时部分

    def int2str(media_x):
        media_x=str(media_x)
        if(len(media_x)==1):
            return '0'+media_x
        else:
            return media_x

    media_f=int2str(media_f)
    media_s=int2str(media_s)
    media_m=int2str(media_m)
    media_h=int2str(media_h)

    return media_h+':'+media_m+':'+media_s+':'+media_f

if __name__ == "__main__":
    path = r'D:\PythonWorkspace\MyFirstDjango\mysite\content_media\origin'
    while 1:
        scan_files(path)

        time.sleep(5)

本次更新中新增加了一个getMediaInfo的方法，该方法主要用来提取视频的时长。

如果直接通过cv2来提取视频时长的话只能获得视频的帧数，比如一个3分钟FPS为25帧的视频，我们想要的是这种格式：’00:03:00:00’，但是用cv2提取出来的则是：’4500’，也就是视频的总帧数。

通过getMediaInfo方法可以直接将其转换为我们想要的格式。

Original: https://blog.csdn.net/weixin_42144330/article/details/123785314
Author: 跟着皮皮实战Python
Title: 从零开始打造云端AI管理调度平台（番外篇_1）文件自动入库部分的更新

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/736037/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

线上kafka消息堆积，consumer掉线，怎么办？

线上kafka消息堆积，所有consumer全部掉线，到底怎么回事？最近处理了一次线上故障，具体故障表现就是kafka某个topic消息堆积，这个topic的相关consumer…

Python 2023年10月16日
0073
数据处理库Pandas(简单操作)

1.pandas介绍1.什么是pandaspand – panel data为面板数据as – analysis为分析综上所述为面板数据分析。面板数据为三维…

Python 2023年8月16日
0089
【Scrapy】Item Pipeline

项目管道(Item Pipeline)用于处理Spider返回的Item对象，如果定义了多个项目管道，则按优先级顺序执行项目管道就是实现了 process_item()方法的Py…

Python 2023年10月3日
0046
python有序数列中增加数据_python – 调整Pandas中的每月时间序列数据

我有像这样的pandas DataFrame. 如您所见,数据对应于月末数据.问题是所有列的月末日期都不相同. (根本原因是该月的最后一个交易日并不总是与月末重合.) 目前,201…

Python 2023年8月19日
0075
Python基础第三集：函数+模块+类，花钱也买不到….

Original: https://www.cnblogs.com/123456feng/p/16182894.htmlAuthor: 蚂蚁ailingTitle: Python基…

Python 2023年11月3日
0029
Numpy(附Matplotlib)基础核心内容

Numpy基础核心内容首先导入库 import numpy as np import matplotlib import matplotlib.pyplot as plt imp…

Python 2023年9月1日
0048
1. Scrapy的优点 | 安装Scrapy以及Python虚拟环境

Scrapy有什么优点值得学习内置支持使用扩展的 CSS 选择器和 XPath 表达式从 HTML/XML 源中选择和提取数据，以及使用正则表达式提取的辅助方法。一个交互式 s…

Python 2023年10月4日
0042
一文读懂内存管理

1 野指针野猫野狗野孩子熊孩子 NULL地址-狗链子野孩子：没人要，没人管的孩子；行为动作不守规矩，调皮捣蛋的孩子。野狗：没有主人的狗，没有链子锁着的狗，喜欢四处咬人。…

Python 2023年9月30日
0053
硬核开篇：Arco Vue + Flask 手把手实战开发一测试需求平台

✍ 此系列为整理分享已完结入门搭建《TPM提测平台》系列的迭代版，拥抱Vue3.0将前端框架替换成字节最新开源的arco.design，其中约60%重构和20%新增内容，定位为从 …

Python 2023年8月9日
0078
numpy在数字图像处理中的应用

本文主要介绍numpy在数字图像处理中的应用,其中包括:矩阵创建、矩阵转换、基本操作、矩阵运算、元素获取、读取显示图像、简单绘图、文章目录矩阵创建矩阵转换基本操作矩阵运算…

Python 2023年8月24日
0052
Python库使用笔记—Dataframe

一、Dataframe的读取和保存 1.1 Dataframe导出csv xlsx_file.to_csv(‘F:/XXX/XXX.csv’, encoding="utf…

Python 2023年8月7日
0058
FastAPI（七十七）实战开发《在线课程学习系统》接口开发– 课程编辑和查看评论

首先来看下课程编辑：那么我们编辑就变的简单了。逻辑如下。 1.判断是否登录2.判断课程是否存在3.课程名称是否重复在基础的pydantic的Courses类，增加一个id 具体…

Python 2023年6月15日
0056
Flask 入门教程：Jinja2模板用法

在前面的示例中，视图函数的主要作用是生成请求的响应，这是最简单的请求。实际上，视图函数有两个作用：处理业务逻辑和返回响应内容。在大型应用中，把业务逻辑和表现内容放在一起，会增加代码…

Python 2023年8月11日
0048
pandas之DataFrame的级联、合并操作

今天讲的是pandas之DataFrame的级联、合并操作。 1、级联操作（就是将多个DataFrame进行横向或者纵向的拼接）： pd.concat() pd.append() …

Python 2023年8月7日
0076
pandas两个数据结构Series与DataFrame使用

seires 对象 1.创建一个series对象 Series() 语法：s=pd.Series(data,index=index) 参数说明： data：表示数据，支持Pytho…

Python 2023年8月7日
0034
【Kaggle数据分析实战练习】World University Rankings

数据集介绍本次数据分析的数据集来自Kaggle的World University Rankings的 cwurData.csv。数据集共包含2201行14列（含标题行），官方给出…

Python 2023年8月8日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

从零开始打造云端AI管理调度平台（番外篇_1）文件自动入库部分的更新

大家都在看