企业宣传,产品推广,广告招商,广告投放联系seowdb

AniPortrait开源上线!音频驱动真切人像动画分解!人人都是歌手!

文章链接:

Github链接:​ ​​ ​

本文提出了AniPortrait,一个陈腐的框架,用于生成由音频和参考人像驱动的高品质动画。方法分为两个阶段。首先,从音频中提取3D两边示意,并将它们投影到一系列2D面部关键点上。随后,驳回了一个弱小的分散模型,结合一个静止模块,将关键点序列转换为真切且期间上连接的人像动画。

试验结果标明,在面部人造性、姿态多样性和视觉品质方面,AniPortrait具备优越性,从而提供了增强的感知体验。此外,咱们的方法在灵敏性和可控性方面体现出了相当大的后劲,可以有效运行于面部静止编辑或面部再现等畛域。

引见

从音频和静态图像中创立真切而富裕体现力的人像动画具备各种运行,从虚构事实和游戏到数字媒体都有触及。但是,制造视觉上引人入胜且坚持期间分歧性的高品质动画是一个严重应战。这种复杂性源于须要 精细协调嘴唇静止 面部表情 头部位置 ,以营建出视觉上引人入胜的效果。

现有方法理论未能克制这一应战,重要是由于它们依赖于用于视觉内容创立的容量有限的生成器,如GANs、NeRF或基于静止的解码器。这些网络展现出有限的泛化才干,并且在生成高品质内容方面经常不足稳固性。最近,分散模型的产生促成了高品质图像的生成。一些钻研在此基础上启动了进一步探求,经过引入期间模块,使分散模型在创立引人入胜的视频方面体现杰出。

在分散模型的停顿基础上,引见AniPortrait,这是一个陈腐的框架,旨在生成由音频和参考图像驱动的高品质动画人像。AniPortrait分为两个明白的阶段。

第一个阶段 ,驳回基于transformer的模型从音频输入中提取一系列3D面部网格和头部姿态,随后将它们投影到一系列2D面部关键点上。这一阶段能够从音频中捕捉巧妙的表情和嘴唇静止,以及与音频节拍同步的头部静止。

第二个阶段 ,应用了一个弱小的分散模型,结合了一个静止模块,将面部关键点序列转换为期间分歧且真切的灵活人像。详细地,自创了AnimateAnyone的网络架构,该架构应用了弱小的分散模型 Stable Diffusion 1.5,依据身材静止序列和参考图像生成流利而真切的视频。特意值得留意的是咱们对该网络内姿态疏导模块的从新设计。这种修正不只坚持了轻量级设计,而且在生成嘴唇静止方面体现出了更高的精度。

试验结果显示了AniPortrait在创立具备杰出面部人造性、多样化姿态和低劣视觉品质的动画方面的优越性。经过经常使用3D面部示意作为两边特色,咱们取得了依据须要修正这些示意的灵敏性。这种顺应性极大地增强了本文的框架在面部静止编辑和面部再现等畛域的实用性。

方法

所提出的框架包括两个模块,和。前者旨在从音频输入中提取一系列能够捕捉复杂面部表情和嘴唇静止的关键点序列。后者应用这些关键点序列生成具备期间稳固性的高品质人像视频。下图1中概述了该框架,并在下文提供了更多细节。

驳回预训练的 wav2vec 来提取音频特色。该模型具备很高的泛化才干,并且能够准确识别音频中的发音和语调,这在生成真切的面部动画中起着关键作用。经过应用取得的持重语音特色,可以有效地经常使用由两个全衔接层组成的便捷架构将这些特色转换为 3D 面部网格。观察到,这种便捷的设计不只确保了准确性,还提高了推理环节的效率。

在将音频转换为姿态的义务中,我用相反的 wav2vec 网络作为主干。但是,不与音频到网格模块共享权重。这是由于姿态与音频中存在的节拍和语调更为亲密关系,这与音频到网格义务有不同的重点。为了思考前面形态的影响,经常使用 transformer 解码器来解码姿态序列。在此环节中,经常使用交叉留意力机制将音频特色集成到解码器中。关于上述两个模块,经常使用便捷的 L1 损失启动训练。

在取得网格和姿态序列后,经常使用透视投影将它们转换为一系列 2D 面部关键点。这些关键点随后被用作下一阶段的输入信号。

Lmk2Video 的网络结构设计遭到 AnimateAnyone 的启示。本文应用 SD-1.5 作为主干,集成了一个期间静止模块,将多帧噪声输入有效地转换为一系列视频帧。同时,经常使用一个 ReferenceNet,镜像了 SD-1.5 的结构,用于从参考图像中提取外观消息并将其整合到主干中。这种战略性的设计确保了输入视频中的人脸ID坚持分歧。与 AnimateAnyone 不同的是,咱们增强了 PoseGuider 的设计复杂性。原始版本仅包括几个卷积层,之后关键点特色与主干输入层的潜变量兼并。这种基本设计不可捕捉到嘴唇的复杂静止。因此,本文驳回了 ControlNet 的多尺度战略,将相应尺度的关键点特色兼并到主干的不同模块中。虽然启动了这些增强,也成功地坚持了参数数量相对较低。

本文还引入了一个额外的改良: 将参考图像的关键点作为额外输入 。PoseGuider 的交叉留意力模块促成了参考关键点和每帧目的关键点之间的交互。这个环节为网络提供了额外的线索,以了解面部关键点和外观之间的关系性,从而有助于生成具备更准确静止的人像动画。

试验

实施细节

在 Audio2Lmk 阶段,驳回 wav2vec2.0 作为咱们的主干网络。应用 MediaPipe 提取 3D 网格和 6D 姿态启动标注。Audio2Mesh 的训练数据来自外部数据集,该数据集蕴含来自单个发言者的近一小时高品质语音数据。为了确保 MediaPipe 提取的 3D 网格稳固,咱们批示演员在整个录制环节中坚持稳固的头部位置,面向摄像机。经常使用 HDTF 训练 Audio2Pose。一切训练操作都在一台 A100 上口头,应用 Adam 提升器,学习率为 le-5。

在 Lmk2Video 环节中,实施了两步训练方法。在初始步骤中,专一于训练主干网络、ReferenceNet 和 PoseGuider 的 2D 组件,略过静止模块。在随后的步骤中,解冻一切其余组件,并集中精神训练静止模块。应用两个大规模、高品质的面部视频数据集 VFHQ 和 CelebV-HQ 训练模型。一切数据经过 MediaPipe 解决,以提取 2D 面部关键点。为了增强网络对嘴唇静止的敏理性,在从 2D 关键点渲染姿态图像时经常使用不同的色彩辨别高低嘴唇。一切图像都被调整为 512x512 分辨率。应用 4 个 A100 GPU 启动模型训练,每个步骤耗时两天。驳回 AdamW 提升器,坚持学习率为le-5 。

结果

如下图2所示,咱们的方法生成了一系列在品质和实在感上有目共睹的动画。应用两边的3D示意,可以对其启动编辑以操控最终输入。例如,可以从源中提取关键点并扭转其ID,从而使咱们能够创立面部重现效果。

论断和未来上班

本钻研提出了基于分散模型的人像动画框架。经过便捷地输入音频片段和参考图像,该框架能够生成具备流利嘴唇静止和人造头部静止的人像视频。应用分散模型弱小的泛化才干,该框架创立的动画展现出令人印象深入的真切图像品质和令人信服的静止。但是,这种方法须要经常使用两边的3D示意,失掉大规模、高品质的3D数据的老本相当高。因此,生成的人像视频中的面部表情和头部姿态不可解脱“诡异谷”效应。在未来,咱们方案驳回EMO的方法,间接从音频预测人像视频,以成功更令人惊叹的生成结果。

原文链接:​ ​​ ​

© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender