一种由视频和音频共同驱动的说话人脸合成方法简介

2023年6月20日上午12:48 • 人工智能 • 阅读 53

最近做作业看到了一篇挺有意思的文章《Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation》。文章开发了一个说话人脸生成工具，可以由视频和音频共同驱动

Zhou, H., Sun, Y., Wu, W., Loy, C. C., Wang, X., & Liu, Z. (2021). Pose-controllable talking face generation by implicitly modularized audio-visual representation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 4176-4186).

简单记录一下

说话人脸合成的基本框架

Chen, L., Cui, G., Kou, Z., Zheng, H., & Xu, C. (2020). What comprises a good talking-head video generation?: A survey and benchmark. arXiv preprint arXiv:2005.03201.

由静态人脸生成一个人脸特征(向量或矩阵)
由驱动源(人脸特征或者音频特征)生成动作特征(向量或矩阵)
将两个特征融合，再送给某生成式模型(通常是GAN)合成人像

; 由动态姿态控制静态图片姿态的方法

Burkov, E., Pasechnik, I., Grigorev, A., & Lempitsky, V. (2020). Neural head reenactment with latent pose descriptors. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 13786-13795).

将人脸特征嵌入到一个Identity embedding向量，将姿态信息嵌入到Pose embedding向量，
两个向量利用一个MLP融合
将融合向量送入StyleGAN重建具有姿态信息的人像

由音频和姿态共同驱动的说话人脸生成

这部分就是开头那篇文章《Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation》

动机

针对任意人的、以其音频驱动的说话人脸生成研究方向，已实现了较准确的唇形同步，但头部姿势的对齐问题依旧不理想
此前的方法依赖于预先估计的结构信息，例如关键点和3D参数。但极端条件下这种估计信息不准确则效果不佳

贡献

提供了一种由音频控制嘴唇，由视频控制姿态的说话人脸生成方式

示例

环境配置

从左到右依次是

静态人脸
生成结果
姿态信息
语音源

; 方法框架

对于每个固定的帧，将三种特征向量(Embedding)顺序拼接(concate)为一个长特征(上图中的fcat部分)
由MLP融合后送入GAN重建人脸

Original: https://blog.csdn.net/qq_42138454/article/details/123884887
Author: 此方家的空腹
Title: 一种由视频和音频共同驱动的说话人脸合成方法简介

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/640406/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python pandas将excel的数据按月份分组求平均

先观察一下要处理的数据是怎样的，原始文件是有五组分隔开的数据，第一行是表示组名，第二行是列标签，第三行开始才是真正的数据。很容易就会想到使用pandas来处理这个文件了。首先读取文…

人工智能 2023年7月6日
00143
pytorch实现LeNet5分类CIFAR10

关于LeNet-5 LeNet5的Pytorch实现在网络上已经有很多了，这里记录一下自己的实现方法。 LeNet-5出自于Gradient-Based Learning Appl…

人工智能 2023年6月4日
0078
python ValueError: The number of FixedLocator locations(6), usually from a call to set_ticks, does

此为实验作业。实验内容见教材（《Python数据分析与挖掘实战》张良均等著（第一版，白色封面的那版））Page 178的实验一及实验二。实验一代码，可以直接运行 #-*- co…

人工智能 2023年7月4日
0070
RepLKNet实战：使用RepLKNet实现对植物幼苗的分类（非官方）（一）

RepLKNet实战摘要论文解读 * 论文的贡献挑战传统认知整体架构安装包 * 1、安装timm 2、安装apex 数据增强Cutout和Mixup 项目结构计算mea…

人工智能 2023年7月2日
0092
基于-计算机视觉-实例分割-实现-物体识别

一、操作 1、平台介绍本文中提到的相关技术来自于百度AI-飞桨BML。研究之初，本人也调研了阿里云-机器学习PAI。相比之下，百度AI更容易上手，而且还提供了免费时长，所以…

人工智能 2023年7月10日
0062
Python表白代码：“ 星光月夜烟花皆归你，我也归你”（满天烟花盛开、附番外玫瑰）

导语 “慢品人间烟火色闲观人间岁月长” 🌙 遇见我以后，我们的故事就开始了，愿你历经山河，仍觉得人间值得🌙。星光月夜烟花皆归你，我也归你。关于烟花🎇…

人工智能 2023年7月3日
0088
【开源STM32自平衡小车】教你如何自己DIY一辆双轮自平衡小车

【请认准：OpenSir开源达人】开源STM32自平衡小车平衡小车开源资料网盘链接: 平衡小车百度网盘资料链接，点击进入【哔站视频一键三连后，评论区留言邮箱获取提取码(3天内发…

人工智能 2023年6月2日
0093
15.【opencv写入录制视频】

本次课程讲：如果将我们通过电脑摄像头录取的视频进行代码保存到我们的文件中去，以及判断我们加载的图像是否被成功录入. "E:\\视频\\out.mp4" JPMG…

人工智能 2023年7月18日
0053
强化学习实战：AI玩贪吃蛇（PyTorch）

文件 ; game.py 游戏用的是 pygame库。 pygame中的坐标轴 ; init 我使用了 collections中的 namedtuple作为坐标。游戏中的 &amp…

人工智能 2023年6月25日
0073
基于K-means算法的数码迷彩生成——python实现

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、数码迷彩二、K-means算法提取主色三、python算法实现 * 1、在IDE中导入需要…

人工智能 2023年6月2日
0082
张量的轴与实际数据的维度之间有什么关系

问题背景张量是一种多维数组，广泛应用于各个领域的数据处理和分析中。在使用张量进行数据处理时，了解张量的轴与实际数据的维度之间的关系是非常重要的。本文将详细介绍张量轴与数据维度之间…

人工智能 2024年1月1日
0039
【代码审计-PHP】审计方法、敏感函数、功能点

博主：网络安全领域狂热爱好者（承诺在CSDN永久无偿分享文章）。殊荣：CSDN网络安全领域优质创作者，2022年双十一业务安全保卫战-某厂第一名，某厂特邀数字业务安全研究员，ed…

人工智能 2023年6月30日
0082
OpenCV/Dlib/face_recognition 人脸检测及人脸对齐

*一、结果展示 OpenCV Dlib+face_recognition 二、过程实现 *安装opencv 在终端直接安装，清华源更快点，pip install opencv-py…

人工智能 2023年7月20日
0040
基于暗通道去雾的图像处理(西电数字信号处理大作业)

基于暗通道去雾的图像处理西电的数字信号处理大作业具体代码与PPT可前往此处下载：https://download.csdn.net/download/yifantan/7286…

人工智能 2023年6月20日
0074
RuntimeError: [enforce fail at inline_container.cc:145] . PytorchStreamReader failed reading zip arc

原因分析这个报错是出现在PyTorch在读入模型参数时： checkpoint = torch.load(epoch_15.pth, map_location=’cpu’) 笔者…

人工智能 2023年6月16日
0060
指标异动分析

What 业务都会面对”为什么涨、为什么降、原因是什么？”，因此日常数据分析80%总是在围绕指标异动做分析，进行原因定位，常见的指标异动分析例如GMV、DA…

人工智能 2023年7月16日
0087

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

一种由视频和音频共同驱动的说话人脸合成方法简介

动机

贡献

示例

; 方法框架

大家都在看