论文笔记--To Fit or Not to Fit Model-based Face Reconstruction and Occlusion Segmentation from Weak Supervision
摘要
由于遮挡物的剧烈的可变性,遮挡下的人脸重建极具挑战性。目前最成功的方法是通过逆向渲染来拟合3D人脸模型,并假设遮挡物给定分割,以此避免拟合遮挡物。然而,训练一个遮挡分割模型需要大量的注释数据。在这项工作中,我们介绍了一种基于模型的 3D 人脸重建方法,该方法对遮挡具有高度鲁棒性,但不需要任何遮挡注释进行训练。在我们的方法中,我们利用了生成人脸模型只能合成人脸而不是遮挡物的事实。我们使用此属性来指导遮挡分割网络的决策过程并完成无监督训练。目前主要挑战是模型拟合和遮挡分割相互依赖,需要共同推理。CelebA-HQ、AR 数据库和 Now Challenge 的定性和定量实验表明,所提出的方法在遮挡下实现了最先进的 3D 人 脸重建。此外,尽管在没有任何遮挡注释的情况下进行了训练,但分割网络仍能准确定位遮挡。
介绍
单目3D人脸重建旨在估计人脸的姿态、形状和反照率,以及场景的光照条件和相机参数。 从单个图像中解决所有这些因素是一个不适定问题。面部自动编码器面临的一个主要挑战是在野外环境下模型的性能仍然受到诸如遮挡,极端照明和姿势等因素限制。遮挡导致的一个核心问题是人脸模型会拟合被遮挡的人脸区域,导致重建的人脸失真。因此,一个遮挡的鲁棒的3D人脸重建问题就是去决定一张图像中哪些像素是需要去拟合,哪些像素是不需要去拟合的。
在本文的工作中,设计了一种基于模型的人脸重建方法,该方法具有高度的遮挡鲁棒性,不需要任何的人工遮挡注释。特别地,本文提出以一种合作的方式去训练一个面部自编码器和一个分割网络。分割网络决定人脸模型是否需要拟合某一像素的问题,以便人脸重建不受遮挡影响。分割网络采用无监督的方式去训练分割网络,利用了生成的人脸模型只能合成人脸而不能合成遮挡的事实。同时可以利用目标原始图像和渲染生成图像之间的差异作为监督信号来指导分割网络的训练。反过来,人脸重建网络通过使用来自分割网络的预测在拟合期间掩盖被遮挡的像素,从而对遮挡具有鲁棒性。这也导致了协同效应,遮挡分割引导面部自编码器拟合易于分类为面部区域的图像区域,改进的人脸拟合反过来又使得分割网络能够改进其预测。
训练过程遵循EM算法的核心思想,通过在给定当前分割掩码估计的情况下训练面部自编码器和随后基于当前 3D 面部重建训练分割网络之间交替进行。分割网络的无监督训练是通过在估计的遮挡掩码下正则化和保留目标图像和重建图像之间的相似性来实现的,通过引入了几个损失来实现这一点。设计的模型在三份数据集进行验证,分别是CelebA-HQ, AR, NoW challenge。
总之,我们在本文中做出了以下贡献:
- 实现一种基于模型的 3D 人脸重建方法,该方法具有高度鲁棒的遮挡,无需任何人工遮挡注释。
- 设计的模型在遮挡下的 3D 人脸重建中实现了SOTA,并在野外图像上提供了面部遮挡掩码的准确估计。
方法
本文的目标是由严重遮挡的单一图片重建出鲁棒的3D人脸。为解决该问题,本文将基于模型的人脸自动编码器 𝑅 与分割网络 𝑆 集成在一起,并在它们之间产生协同作用。分割掩码在模型拟合期间消除遮挡的估计,使重建网络对遮挡具有鲁棒性。重建的结果给分割网络提供了参考,促使分割网络的准确性提升。
Training the segmentation network
在训练分割网络时,人脸自编码器的参数是固定的,只优化分割网络。我们没有寻找标记数据,而是提出了四种损失来增强图像之间的内在相似性。 每个损失都可以包括指示面部或相反的像素。损失在感知级别或像素级别上起作用,以充分利用视觉线索。分割网络训练时的四种损失如下:
除了上述四种损失外,还添加正则化项损失\(L_{bin}=-\sum_x(M(x)-0.5)^2\)来鼓励面部掩码是二值化分布(0或1)。总体损失函数式如下,其中\(\eta_1=15\quad\eta_2=3\quad\eta_3=0.5\quad\eta_4=2.5\quad\eta_5=10\) \[ L_S=\eta_1L_{neighbor}+\eta_2L_{dist}+\eta_3L_{area}+\eta_4L_{presv}+\eta_5L_{bin} \]
Training the face autoencoder
训练面部自编码器网络时,冻结分割网络参数。训练损失函数如下:
Unsupervised Initialization
使用遮挡的鲁棒损失生成初级掩码:
网络
encoder采用ResNet50,segmentation network采用UNet。