只用静态图像,就能实时渲染出丝滑3D效果 | CVPR 2021 Oral

鱼羊 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

这般丝滑的美食展示,是否让跟随镜头移动的你食指大动?

再看这放大镜里流畅变化的弹簧,你敢相信,这完全是用静态图像合成的吗?

没错,这样的动图并非截自视频,而是来自AI的合成大法。

甚至只需手机随手拍摄的十几张2D照片,就能实时渲染生成。

比起大名鼎鼎的谷歌前辈NeRF,这只名为NeX的AI,能直接把每秒渲染帧数从0.02帧提升到60帧。

也就是说,渲染速度能提升3个数量级

细节之处,也更加接近真实效果。

这项已经入选CVPR 2021 Oral的研究,是怎么做到的?

像素参数与基函数结合

多平面图像(MPI)视图合成技术,使得不用3D建模,只用少数几张图像还原多视角逼真3D效果成为可能。

不过,此前的MPI主要采用的是标准RBGα表示法,简单说就是把图像转换成RGBα平面,以进行后续的计算。

这样做的局限性在于,其表示出的物体外观仅与漫反射表面有关,与视角无关。

这就极大地限制了MPI可以捕捉的物体和场景类型。

为此,来自泰国科学技术研究所VISTEC的研究人员提出:将每个像素的参数转化为基函数的系数,进行线性组合,并以此创建与视图相关的效果模型。

就如上图所示,多平面图像中每个像素都由alpha透明值、基色k0和视图相关的反射系数k1…kn组成。

将这些系数和神经网络预测的基函数进行线性组合,就产生了最终的颜色值。

如此一来,像金属勺子在不同视角下的反射效果这样的信息,都能在合成图像中显示出来。

具体到整个NeX的结构,对于输入图像,首先根据不同平面深度,对像素坐标(x,y)进行采样,以构建出MPI中的每个像素。

然后,把这个数据喂给多层感知机(MLP),得到alpha透明度,以及和视图相关的基础系数(k1,k2,…,kn)。

这些系数再与显式的k0一起,与另一个MLP预测的基函数相乘,生成RGB值。

输出图像,如公式1所示,为所有平面复合运算的结果。

而在细节效果的提升方面,研究人员人员发现,通过比较渲染图像和真实值之间的差距,对基色k0进行优化,就可以得到很好的效果,显著减轻网络压缩和细节重现的负担,减少迭代次数。

研究人员还补充说,NeX可以被理解成是隐式辐射场函数的离散抽样。

至于实时渲染,论文指出,NeX MPI中的每一个模型参数都可以转换为图像。而给定预先计算好的图像,就可以在OpenGL/WebGL的片段着色器中实现上述公式1,实现捕获场景的实时渲染。

实验结果

有NeRF珠玉在前,NeX具体到数据上,到底有怎样的提升?

运行时间方面,输入17张分辨率为1008×756的照片,批量大小为1的情况下,使用单个英伟达V100训练,NeX的耗时大概为18小时。

使用WebGL,此场景可以以每秒60帧的速度被渲染出来。

而在同一台机器上运行,NeRF则需要大约55秒才能生成一帧。

也就是说,NeX的渲染速度比NeRF要快1000倍以上。

与SRN、LLFF和NeRF相比,在峰值信噪比、结构相似性和图像感知相似度这三个指标上,NeX都达到了最佳。

而在定性比较中,可以看到,与NeRF相比,在颜色均匀的区域,NeX细节更清晰,噪声更少,更接近真实值。

LLFF虽然细节表现也很好,但当结果以视频形式呈现时,会产生跳跃和扭曲伪影。

可上手试玩

对了,如果你对NeX感兴趣,还可以到项目官网亲自感受一下实时渲染Demo。

还有手机版和VR版哟。

传送门

项目地址:
https://nex-mpi.github.io/

论文地址:
https://arxiv.org/abs/2103.05606

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近3000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

3D视觉工坊 CSDN认证博客专家 算法 3D视觉
个人公众号:3D视觉工坊。公众号特邀嘉宾及合伙人,先后就职于国内知名研究机构、自动驾驶公司、海康研究院,主要研究方向为深度学习、目标检测、语义分割、图像处理、自动驾驶感知算法等,CSDN博客专家。博主先后任职于国内知名研究院、知名大厂,致力于3D视觉算法、VLAM算法开发,涉及相机标定、手眼标定、结构光、点云后处理、三维重建等相关领域的研究,同时也是CSDN博客专家。3D视觉工坊坚持原创,近一年来输出了非常多的高质量文章,获得了粉丝的一致好评,我们将始终坚持走原创路线,打造一个铁杆粉丝的聚集区。
已标记关键词 清除标记
相关推荐
©️2020 CSDN 皮肤主题: 书香水墨 设计师:CSDN官方博客 返回首页
实付 49.90元
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值