【筆記】Neural Parameterization for Dynamic Human Head Editing

Neural Parameterization

Introduction

mesh方法易于編輯，但表現能力有限，NeRF的效果好，但是難以編輯；這篇工作用隱式方法完成一致性強的動態場景重建，同時可以顯式地編輯幾何及紋理。

之前的工作中，對NeRF進行編輯，采用的都是latent code的方式，這樣無法得到好的結果。NeuTex用2D的texture maps對隱式場的表面建模，通過編輯2D texture maps來改變紋理，但只局限于靜態場景，且無法改變幾何。Nerual Atlas提出視頻所有幀共享一個texture atlas space，將每個像素映射到這里，從而只需要修改texture atlas space就能一致地編輯視頻紋理。

這篇工作將人頭分解為三個部分，density volume，UV volume和2D texture，從而可以分別編輯幾何和紋理。這三部分都是隱式建模的，從而獲得更高的精度，以及更少的內存需求；為了顯式編輯幾何以及紋理，在MLP中加入explicit layers，從而獲得一致性強的編輯結果。

直接對網絡進行優化，會陷入局部最優解，因此引入了一些regularization，以及兩步優化的策略。

Overview

重建的目標是獲得一個模型F

\[(\mathbf{c},\mathbf{\sigma}) = F(\mathbf{x},\mathbfw0obha2h00,t) \]

即給一個空間坐標\(\mathbf{x}=(x,y,z)\)，一個視角方向\(\mathbfw0obha2h00 = (\theta,\phi)\)和時間戳\(t\)，求得該點的顏色\(\mathbf{c}\)和密度\(\sigma\)

時間戳\(t\)被encode成一個latent code，并對\(\mathbf{x}\)和\(\mathbfw0obha2h00\)做position encoding

編輯則分為幾何和紋理的編輯，又各有2個模型，顯式和隱式

\(V\)表示幾何模型，\(T\)表示紋理模型，下標\(I\)和\(E\)表示隱式和顯式

Geometry Modeling

幾何重建的目標是，輸入一個空間坐標和時間，輸出UV坐標和density

如果只用隱式方法重建幾何，將難以編輯

這里加入了\(V_E\)，進行顯式變形，理想的變形場需要滿足三個要求

為了進行volumetric rendering，\(V_E\)要有density定義
\(V_E\)要可微分，才能進行學習
\(V_E\)可由部分參數控制，達到更精細的控制效果

\(V_E\)形如

\[V_E(\mathbf{x}) = \bar{\mathbf{x}}+ \dfrac{\sum_i\psi(\bar{\mathbf{x{}}})(\bar{\mathbf{t}}_i-\bar{\mathbf{s}}_i)}{\sum_i\psi(\bar{\mathbf{x}})} \]

其中的\(\psi(\cdot)\)是高斯核函數

\[\psi(\bar{\mathbf{x}}) = \exp\left(\dfrac{-(\bar{\mathbf{x}}-\bar{\mathbf{s}}_i)^2}{r_i^2}\right) \]

為了獲得一致性強的編輯，控制點要精心選取

如果一個控制點在所有幀中都有著相同的語義信息（即在人臉上的位置相同）

那么在任意一幀內修改這個控制點，便能將改變傳播到其余所有幀中

作者在face landmark的基礎上，挑了96個頂點，作為控制點

由于tracked face mask可能不準確，添加了一個loss監督控制點盡量貼近頂點

\[\mathcal{L}_{semantic} = \sum_i \sum_t ||\mathbf{s}_i^{(t)}-\hat{\mathbf{s}}_i^{(t)}|| \]

最終的UV模型為

\[V = V_I(V_E(x,t),t) \]

這里\(V_I\)用來建模一些短暫的變化，比如眨眼

Appearance Model

為了對view dependent和time dependent的texture進行建模，選擇了隱式模型

但這將導致難以編輯，因此加入顯式texture maps

顯式的\(T_E\)存儲大部分texture信息，而隱式\(T_I\)則負責建模瞬間的變化（如皺紋的變化）

最終的texture表示為

\[T(\mathbf{u},\mathbfw0obha2h00,t) = T_E(\mathbf u) * \exp (T_I(\mathbf u,\mathbf d,t)) \]

由于我們希望\(T_E\)存儲主要信息，\(T_I\)存儲其余的信息，因此加入loss

\[\mathcal{L}_{sparsity} = \sum_k |T_I(\mathbf{u}_k,\mathbfw0obha2h00_k,t)| \]

這樣會鼓勵\(T_I\)盡量小，從而使得\(T_E\)的貢獻更大

Rendering

采用和NeRF一樣的volume rendering

Training

Main Supervision

\[\mathcal{L}_{MSE} = \sum_{i}^{B}||\mathbf{c}_i - \hat{\mathbf{c}}_i ||_2 + ||\alpha_i - \hat\alpha_i||_2 \]

添加了對\(\alpha\)的監督，從而防止網絡用偽影來仿造材質效果

Texture Unwrap Regularization

網絡已經可以獲得不錯的重建質量了，但是UV field噪聲非常多，導致難以進行下一步編輯

首先用tracked 3D face進行監督

\[\mathcal{L}_{uv} = \sum_i^P||V(\mathbf p_i,t)-\mathbf u_i||_2 \]

由于tracked face不夠精確，所以這個loss的weight在20000輪左右指數衰減到0

同時，添加了cycle loss，更合理地建模頭部表面信息

\[\mathcal{L}_{cycle} = \sum_{i}^{B} ||\mathbf{x}'_i - \hat{\mathbf{x}}'_i||_2 \]

其中\(\hat{\mathbf{x}}'_i = V_I^{-1}(\mathbf{u},t)\)，\(V^{-1}_I\)將UV坐標映射回3D坐標

為了更平滑地建模，添加了保角loss

\[\mathcal{L}_{angle} = \sum_i^{B} \dfrac{|\nabla_{\mathbf x}u_{\perp} \cdot \nabla_{\mathbf x}v_{\perp}|}{||\nabla_{\mathbf x}u_{\perp} ||\ ||\nabla_{\mathbf x}v_{\perp}||} \]