概要

满足用户需求的视觉内容合成通常需要灵活精确地控制生成对象的姿态、形状、表达式和布局。现有方法通过手动标注的训练数据或先验3D模型来实现对生成对抗网络(GAN)的控制,但通常缺乏灵活性、精确性和普适性。本文研究了一种强大 yet 鲜为探索的GAN控制方式,即以交互式的用户方式“拖动”图像中的任意点精确达到目标点,如图1所示。为实现此目的,我们提出了DragGAN,主要包含以下组件:1)基于特征的运动监督,驱动控制点向目标位置移动;2)新的点跟踪方法,利用GAN判别器特征持续定位控制点位置。通过DragGAN,任何人都可以精确控制像素移动方向转换图像,从而操纵各类对象如动物、汽车、人体、景观等的姿态、形状、表达式和布局。由于这些操作基于GAN学习的生成图像流形,即使对挑战性场景如隐藏内容的想象和形状扭曲也能产生逼真的输出。定性和定量比较证明,DragGAN在图像操作和点跟踪任务上优于之前的方法。我们还展示了通过GAN逆向操作实际图像的可能性。

DragGAN.gif

链接

https://github.com/XingangPan/DragGAN