解决的目标:
自动化角色定制,从不同模态的信息输入中生成不同引擎风格下的3d角色
存在的问题:
输入模态,风格的多样性:真实,卡通图片,文本
输出引擎风格的多样性:现实风格、动漫风格、卡通风格
过去的做法:
约束输入和输出空间,利用分割,感知,CLIP等,存在的问题是输入和输出空间的分布存在明显差异
设计可微的神经渲染器,使得约束能通过图片传递到参数,存在的问题是仅限于特定风格的图像
核心思路:
- 统一的图像特征提取器,消除输入风格带来的特征差异性
- 引擎参数翻译器,通过设计大量的渲染图像和制作参数的pair对,作为训练数据来训练翻译器
- 多模态的输入,微调一个文本到游戏风格面部头像的SD,生成符合引擎描述的图片
头像定制系统的参数介绍:
面部结构参数,化妆纹理参数,化妆属性参数
- δs 调整角色的面部结构,包括眼睛大小、鼻子宽度和嘴巴位置等特征的连续值。
- δt 提供化妆纹理的离散选择,如眉形和眼影风格,使用独热编码(one-hot encoding)表示。
- δa 微调化妆属性,调整眉毛颜色和唇彩亮度等方面的连续值。
核心Pipeline:
1.通用特征提取:
采用MAE策略,训练ViT,从多样风格的图像中提取出通用的面部特征,具体的,随机遮蔽,L2损失从剩余的图像tokens中重建原始图像
2.翻译器
数据集生成,在虚拟形象引擎里随机采样参数,生成参数和截图pair对
将前述encoder保持冻结,仅用于提取图像特征
参数生成由3个MLP并行组成,分别预测,使用CLS token(全局信息)作为输入
损失:连续方面L1,离散交叉熵
3.T2P
sd直接生成的图片可能与引擎设定有较大差异,以及可能存在不稳定性
在引擎中渲染大量图片,采用gpt-4o生成图像的文本描述,作为pair对,对图像unet和text encoder进行联合微调,使得其适配引擎风格