日期:2023-05-21 14:15:35 来源:量子位
这两天,一段 AI 修图视频在国内外社交媒体上传疯了。
不仅直接蹿升 B 站关键词联想搜索第一,视频播放上百万,微博推特也是火得一塌糊涂,转发者纷纷直呼 "PS 已死 "。
怎么回事?原来,现在 P 图真的只需要 " 轻轻点两下 ",AI 就能彻底理解你的想法!
(资料图片)
小到竖起狗子的耳朵:
大到让整只狗子蹲下来,甚至让马岔开腿 " 跑跑步 ",都只需要设置一个起始点和结束点,外加拽一拽就能搞定:不止是动物的调整,连像汽车这样的 " 非生物 ",也能一键拉升底座,甚至升级成 " 加长豪华车 ":这还只是 AI 修图的 " 基操 "。要是想对图像实现更精准的控制,只需画个圈给指定区域 " 涂白 ",就能让狗子转个头看向你:
或是让照片中的小姐姐 " 眨眨眼 ":甚至是让狮子张大嘴,连牙齿都不需要作为素材放入,AI 自动就能给它 " 安上 ":如此 " 有手就能做 " 的修图神器,来自一个 MIT、谷歌、马普所等机构联手打造的DragGAN新模型,论文已入选 SIGGRAPH 2023。没错,在扩散模型独领风骚的时代,竟然还能有人把GAN玩出新花样!目前这个项目在 GitHub 上已经有5k+ Star,热度还在不断上涨中(尽管一行代码还没发)。所以,DragGAN 模型究竟长啥样?它又如何实现上述 " 神一般的操作 "?拽一拽关键点,就能修改图像细节这个名叫 DragGAN 的模型,本质上是为各种 GAN 开发的一种交互式图像操作方法。
论文以StyleGAN2架构为基础,实现了点点鼠标、拽一拽关键点就能 P 图的效果。
具体而言,给定 StyleGAN2 生成的一张图像,用户只需要设置几个控制点(红点)和目标点(蓝点),以及圈出将要移动的区域(比如狗转头,就圈狗头)。
然后模型就将迭代执行运动监督和点跟踪这两个步骤,其中运动监督会驱动红色的控制点向蓝色的目标点移动,点跟踪则用于更新控制点来跟踪图像中的被修改对象。这个过程一直持续到控制点到达它们对应的目标点。
不错,运动监督和点跟踪就是我们今天要讲的重点,它是 DragGAN 模型中最主要的两个组件。先说运动监督。在此之前,业界还没有太多关于如何监督 GAN 生成图像的点运动的研究。
在这项研究中,作者提出了一种不依赖于任何额外神经网络的运动监督损失(loss)。
其关键思想是,生成器的中间特征具有很强的鉴别能力,因此一个简单的损失就足以监督运动。
所以,DragGAN 的运动监督是通过生成器特征图上的偏移补丁损失(shifted patch loss)来实现的。
如下图所示,要移动控制点 p 到目标点 t,就要监督 p 点周围的一小块 patch(红圈)向前移动的一小步(蓝圈)。
再看点跟踪。先前的运动监督会产生一个新的 latent code、一个新特征图和新图像。
由于运动监督步骤不容易提供控制点的精确新位置,因此我们的目标是更新每个手柄点 p 使其跟踪上对象上的对应点。
此前,点跟踪通常通过光流估计模型或粒子视频方法实现。
但同样,这些额外的模型可能会严重影响效率,并且在 GAN 模型中存在伪影的情况下可能使模型遭受累积误差。
因此,作者提供了一种新方法,该方法通过最近邻检索在相同的特征空间上进行点跟踪。
而这主要是因为 GAN 模型的判别特征可以很好地捕捉到密集对应关系。
基于这以上两大组件,DragGAN 就能通过精确控制像素的位置,来操纵不同类别的对象完成姿势、形状、布局等方面的变形。
作者表示,由于这些变形都是在 GAN 学习的图像流形上进行的,它遵从底层的目标结构,因此面对一些复杂的任务(比如有遮挡),DragGAN 也能产生逼真的输出。
单张 3090 几秒钟出图
所以,要实现几秒钟 " 精准控图 " 的效果,是否需要巨大的算力?
nonono。大部分情况下,每一步拖拽修图,单张 RTX 3090 GPU在数秒钟内就能搞定。
具体到生成图像的效果上,实际评估(均方误差 MSE、感知损失 LPIPS)也超越了一系列类似的 "AI 修图 " 模型,包括 RAFT 和 PIPs 等等:如果说文字的还不太直观,具体到视觉效果上就能感受到差异了:值得一提的是,DragGAN 的 " 潜力 " 还不止于此。一方面,如果增加关键点的数量,还能实现更加精细的 AI 修图效果,用在人脸这类对修图要求比较严格的照片上,也是完全没问题:
另一方面,不止开头展示的人物和动物,放在汽车、细胞、风景和天气等不同类型的图像上,DragGAN 也都能精修搞定。除了不同的照片类型,从站到坐、从直立到跑步、从跨站到并腿站立这种姿势变动较大的图像,也能通过 DragGAN 实现:也难怪网友会调侃 " 远古的 PS 段子成真 ",把大象转个身这种甲方需求也能实现了。不过,也有网友指出了 DragGAN 目前面临的一些问题。例如,由于它是基于 StyleGAN2 生成的图像进行 P 图的,而后者训练成本很高,因此距离真正商业落地可能还有一段距离。
除此之外,在论文中提到的 " 单卡几秒钟修图 " 的效果,主要还是基于256 × 256分辨率图像:至于模型是否能扩展到 256 × 256 以外图像,生成的效果又是如何,都还是未知数。有网友表示 " 至少高分辨率图像从生成时间来看,肯定还要更长 "。
实际上手的效果究竟如何,我们可以等 6 月论文代码开源后,一测见真章。团队介绍
DragGAN 的作者一共 6 位,分别来自马克斯普朗克计算机科学研究,萨尔布吕肯视觉计算、交互与 AI 研究中心,MIT,宾夕法尼亚大学和谷歌 AR/VR 部门。
其中包括两位华人:一作潘新钢,他本科毕业于清华大学(2016 年),博士毕业于香港中文大学(2021 年),师从汤晓鸥教授。
现在是马普计算机科学研究所的博士后,今年 6 月,他将进入南洋理工大学担任助理教授(正在招收博士学生)。
另一位是Liu Lingjie,香港大学博士毕业(2019 年),后在马普信息学研究所做博士后研究,现在是宾夕法尼亚大学助理教授(也在招学生),领导该校计算机图形实验室,也是通用机器人、自动化、传感与感知 ( GRASP ) 实验室成员。值得一提的是,为了展示 DragGAN 的可控性,一作还亲自上阵,演示了生发、瘦脸和露齿笑的三连 P 图效果:是时候给自己的主页照片 " 修修图 " 了(手动狗头)。论文地址:
https://vcai.mpi-inf.mpg.de/projects/DragGAN/data/paper.pdf
项目地址(代码 6 月开源):
https://github.com/XingangPan/DragGAN
参考链接:
[ 1 ] https://weibo.com/1727858283/N1iKl4zVG
[ 2 ] https://twitter.com/_akhaliq/status/1659424744490377217
[ 3 ] https://twitter.com/mrgreen/status/1659482594516377601
标签:
上一篇: 光纤高清线怎么接_高清线怎么接|环球要闻
下一篇: 最后一页
让 GAN 再次伟大!拽一拽关键点就能让狮子张嘴 & 大象转身,汤晓鸥弟子的 DragGAN 爆火,网友:R.I.P. Photoshop 世界热议
光纤高清线怎么接_高清线怎么接|环球要闻
下周解禁名单抢先看:有的股价要“翻倍”、有的却快“腰斩”了
世界简讯:次日是指今天还是明天阿_次日是什么意思
初一数学应用题库及答案_初一数学应用题及答案
全球今热点:全国春播粮食已过八成
烟长高速公路建设又有新进展-全球动态
全球微速讯:迪利维奥:希望佛罗伦萨至少获得一座奖杯,意杯决赛战国米别害怕
俄乌战争迎来重大转折点!俄国防部刚宣布突发新闻,普京亲自祝贺 每日头条
macos官方镜像下载_mac os x iso镜像下载 动态焦点
盐蒸橙子治什么咳嗽_盐蒸橙子适合什么咳嗽
宁波市大森家私有限公司
已立案14宗处罚13人!广州开展安全大排查大整治
家丑不可外扬刘俊刚_家丑不可外扬
环球焦点!男子为520领证准备半年 基本情况讲解
尤文内讧前兆?不少球员不满阿莱格里保守战术
集合公共展示、就业服务、资源枢纽等功能,上海“阳光201”残疾人就业服务综合平台焕新启用_天天看热讯
当前短讯!2022年打掉制假团伙83个涉案10余亿元湖北公安严厉打击侵犯知识产权犯罪
债务上限谈判无果而终 谈判代表拟周六再次会面
幻想一夜暴富,重庆一男子两次盗窃千元彩票被抓 今日热议
热讯:上海政府、高校、企业携手打造实习、见习和就业一体化的服务链
洛克王国初春祈雨怎么过 洛克王国初春祈雨攻略
全球滚动:京东520爆款榜单出炉:大牌美妆、珠宝、腕表成示爱礼赠首选
当前通讯!苹果 AR 眼镜成本被拆解,上市后利润 100%,年产量 40-50 万台
全球动态:分公司税务问题负责人(分公司税务问题)