EasyCraft

解决的目标：

自动化角色定制，从不同模态的信息输入中生成不同引擎风格下的3d角色

输入模态，风格的多样性：真实，卡通图片，文本

输出引擎风格的多样性：现实风格、动漫风格、卡通风格

约束输入和输出空间，利用分割，感知，CLIP等，存在的问题是输入和输出空间的分布存在明显差异

设计可微的神经渲染器，使得约束能通过图片传递到参数，存在的问题是仅限于特定风格的图像

面部结构参数，化妆纹理参数，化妆属性参数

采用MAE策略，训练ViT，从多样风格的图像中提取出通用的面部特征，具体的，随机遮蔽，L2损失从剩余的图像tokens中重建原始图像

数据集生成，在虚拟形象引擎里随机采样参数，生成参数和截图pair对

将前述encoder保持冻结，仅用于提取图像特征

参数生成由3个MLP并行组成，分别预测，使用CLS token（全局信息）作为输入

损失：连续方面L1,离散交叉熵

sd直接生成的图片可能与引擎设定有较大差异，以及可能存在不稳定性

在引擎中渲染大量图片，采用gpt-4o生成图像的文本描述，作为pair对，对图像unet和text encoder进行联合微调，使得其适配引擎风格