论文笔记--Cross-modal Deep Face Normals with Deactivable Skip Connections

摘要

当下单目重建多采用数据驱动的策略,但是受限于真实标签数据的缺乏,导致这种方法很困难。本文提出一种跨模态网络架构,可以利用所有图像和法线数据(无论是否配对),通过encoder和decoder的跳跃连接实现面部细节在图像和法线维度上进行传递。本文方法的核心就是一个融合deactivable skip connection的模块,该方法通过相同的端到端架构集成了自动编码和图像到法线转换的功能。

贡献

  • 一种可以利用跨模态学习从单张人脸图像估计法线的框架;
  • 可停用的跳跃连接架构模式(deactivable skip connection)
  • SOTA效果

方法

image-20220708143501613

该架构允许利用成对或非成对的图像/法线数据进行图像到法线的转换(\(I\)->\(\hat{N}\)),在训练期间通过图像到图像(\(I\)->\(\hat{I}\))和法线到法线(\(N\)->\(\hat{N}\))的转换过程进行正则化。\(E_I\)\(D_N\)的跳跃连接可以传递面部细节信息。

deactivable skip connection:

image-20220707185938605

在特征图从encoder到decoder传递过程中,这个skip connection可以选择开启或关闭。

在进行 normal->normal (\(E_N\)->\(D_N\)) 传递过程中,\(D_N\)的每一层输出\(F_{D}^{n-i}=f(F_{D}^{n-i-1})\)

在进行 image->normal(\(E_I\)->\(D_N\))传递过程中,\(D_N\)的每一层输出\(F_{D}^{n-i}\)是由 前一层输出的\(f(F_{D}^{n-i-1})\)上和\(F_E^i\)同样通道数量的特征图,与\(F_E^i\)特征图进行element-wise max操作,得到新的特征图后和剩余通道数量的\(f(F_{D}^{n-i-1})\)特征图进行相加得到。

这样做允许在不发生传输操作时将信息从编码器传输到解码器,而不会降低性能,就像自编码器正常工作时一样。

loss function:

image-20220708143717592

训练过程只能对一个模态进行输入,要么是法线图要么是原图。

  • 当有原图输入,同时也有图片和法线图的ground truth时,先进行normal to normal,再进行 image to normal,最后进行image to image。上述的两个loss值进行同样比重求和得到最终loss。
  • 当只有images或者只有normals时,就只进行image to image或者normal to normal的传输过程。