GameFactory框架由香港大学与快手科技联合研发,旨在解决游戏视频生成中的场景泛化问题。该框架利用预训练的视频扩散模型,在开放域视频数据上训练,生成全新多样化的游戏场景,避免了对特定游戏数据集的过度依赖。同时,采用三阶段训练策略,通过LoRA微调、动作控制模块训练及参数保留,实现了在开放域场景中生成受控游戏视频的能力。
此外,GameFactory还支持自回归动作控制,可生成无限长度的交互式游戏视频。研究团队还发布了高质量的GF-Minecraft动作标注视频数据集,为框架的训练和评估提供了有力支持。