解决的目标:

自动化角色定制,从不同模态的信息输入中生成不同引擎风格下的3d角色

存在的问题:

输入模态,风格的多样性:真实,卡通图片,文本

输出引擎风格的多样性:现实风格、动漫风格、卡通风格

过去的做法:

约束输入和输出空间,利用分割,感知,CLIP等,存在的问题是输入和输出空间的分布存在明显差异

设计可微的神经渲染器,使得约束能通过图片传递到参数,存在的问题是仅限于特定风格的图像

核心思路:

  • 统一的图像特征提取器,消除输入风格带来的特征差异性
  • 引擎参数翻译器,通过设计大量的渲染图像和制作参数的pair对,作为训练数据来训练翻译器
  • 多模态的输入,微调一个文本到游戏风格面部头像的SD,生成符合引擎描述的图片

头像定制系统的参数介绍:

面部结构参数,化妆纹理参数,化妆属性参数

  • δs 调整角色的面部结构,包括眼睛大小、鼻子宽度和嘴巴位置等特征的连续值。
  • δt 提供化妆纹理的离散选择,如眉形和眼影风格,使用独热编码(one-hot encoding)表示。
  • δa 微调化妆属性,调整眉毛颜色和唇彩亮度等方面的连续值。

核心Pipeline:

image-20250309111739882

1.通用特征提取:

采用MAE策略,训练ViT,从多样风格的图像中提取出通用的面部特征,具体的,随机遮蔽,L2损失从剩余的图像tokens中重建原始图像

2.翻译器

数据集生成,在虚拟形象引擎里随机采样参数,生成参数和截图pair对

将前述encoder保持冻结,仅用于提取图像特征

参数生成由3个MLP并行组成,分别预测,使用CLS token(全局信息)作为输入

损失:连续方面L1,离散交叉熵

3.T2P

sd直接生成的图片可能与引擎设定有较大差异,以及可能存在不稳定性

在引擎中渲染大量图片,采用gpt-4o生成图像的文本描述,作为pair对,对图像unet和text encoder进行联合微调,使得其适配引擎风格