一种由视频和音频共同驱动的说话人脸合成方法简介

最近做作业看到了一篇挺有意思的文章《Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation》。文章开发了一个说话人脸生成工具,可以由视频和音频共同驱动

Zhou, H., Sun, Y., Wu, W., Loy, C. C., Wang, X., & Liu, Z. (2021). Pose-controllable talking face generation by implicitly modularized audio-visual representation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 4176-4186).

简单记录一下

说话人脸合成的基本框架

一种由视频和音频共同驱动的说话人脸合成方法简介

Chen, L., Cui, G., Kou, Z., Zheng, H., & Xu, C. (2020). What comprises a good talking-head video generation?: A survey and benchmark. arXiv preprint arXiv:2005.03201.

  • 由静态人脸生成一个人脸特征(向量或矩阵)
  • 由驱动源(人脸特征或者音频特征)生成动作特征(向量或矩阵)
  • 将两个特征融合,再送给某生成式模型(通常是GAN)合成人像

; 由动态姿态控制静态图片姿态的方法

一种由视频和音频共同驱动的说话人脸合成方法简介

Burkov, E., Pasechnik, I., Grigorev, A., & Lempitsky, V. (2020). Neural head reenactment with latent pose descriptors. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 13786-13795).

  • 将人脸特征嵌入到一个Identity embedding向量,将姿态信息嵌入到Pose embedding向量,
  • 两个向量利用一个MLP融合
  • 将融合向量送入StyleGAN重建具有姿态信息的人像

由音频和姿态共同驱动的说话人脸生成

这部分就是开头那篇文章《Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation》

动机

  • 针对任意人的、以其音频驱动的说话人脸生成研究方向,已实现了较准确的唇形同步,但头部姿势的对齐问题依旧不理想
  • 此前的方法依赖于预先估计的结构信息,例如关键点和3D参数。但极端条件下这种估计信息不准确则效果不佳

贡献

  • 提供了一种由音频控制嘴唇,由视频控制姿态的说话人脸生成方式

示例

环境配置

一种由视频和音频共同驱动的说话人脸合成方法简介

一种由视频和音频共同驱动的说话人脸合成方法简介
从左到右依次是
  • 静态人脸
  • 生成结果
  • 姿态信息
  • 语音源

; 方法框架

一种由视频和音频共同驱动的说话人脸合成方法简介
  • 对于每个固定的帧,将三种特征向量(Embedding)顺序拼接(concate)为一个长特征(上图中的fcat部分)
  • 由MLP融合后送入GAN重建人脸

Original: https://blog.csdn.net/qq_42138454/article/details/123884887
Author: 此方家的空腹
Title: 一种由视频和音频共同驱动的说话人脸合成方法简介

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/640406/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球