3dav动漫

边策 萧箫 发自 凹非寺量子位 报道 | 公众号 QbitAI
疫情之下,我们已经看惯了线上的一切:云毕业典礼、云学术会议、云发布会 。
但这些“云”终究让人感觉没“内味” 。
因为没有身后的PPT投影、手舞足蹈的演讲,终归都是没有灵魂的!
所以,上海交大ACM班校友、南加州大学在读博士黄锃用专业知识,给自己办了场特殊的博士论文答辩 。

3dav动漫


他只有一个摄像头,家里没有投影仪,却把自己的答辩会办得像在礼堂演讲一样 。
演讲人从2D变成3D,卧室背后的白墙也变成自己展示论文PPT的幕布 。
右上角就是真实的黄锃同学,他一边演讲,电脑实时把他变成3D模型投影到场景中,导师们看到这一幕不禁笑了,随手就是一个转发 。
3dav动漫


在黄锃同学的主页上,我们发现了他的学弟李瑞龙早就开始“整活”,验证了3D论文答辩的可行性 。
3dav动漫


现在黄锃同学的这项研究已经被ECCV 2020收录 。
背后的技术
黄锃过去就一直从事3D图像重建的研究工作,去年他参与的一项研究PIFu(像素对齐隐式函数)可以从单张图片重建完全纹理的3D人体图像 。
3dav动漫


但是因为PIFu对硬件的要求很高,导致该技术并不能用于实时的图像重建 。
为此,黄锃和团队里的李瑞龙、修宇亮等一起提出了一种新颖的分层表面定位算法,和一种无需显式提取表面网格的直接渲染方法 。
通过从粗到细的方式选择不必要的区域进行评估,成功地将3D重建速度提高了两个数量级,同时没有降低质量 。
结果证明,这种从单摄像头实时重建3D视频的方法,处理速度可达15fps,3D空间分辨率为2563 。
3dav动漫


为了减少实时3D重建所需的计算量,作者引入了两种新颖的加速技术:基于八叉树的鲁棒表面定位、无网格渲染 。
由于算法流水线的主要瓶颈,是要在过多的3D位置上进行估计,因此,减少要估计的点数将大大提高性能 。
八叉树是用于有效形状重构的通用数据表示,它可以分层减少存储数据的节点数量 。
作者提出的这种表面定位算法,保留了原来靠蛮力重建的准确性,而且复杂度与基于朴素八叉树的重建算法相同 。
此外,作者通过直接从PIFu生成的视图渲染,来绕过显式网格重建阶段 。下图展示了无网格渲染算法的原理,虚线和实线分别表示真实表面和重建表面 。
3dav动漫


结合这两种算法,可以实时从任意角度快速渲染3D图像 。
该算法还面临一个问题,那就是有些特殊的姿势和视角很难恢复,因为它们只在训练数据集中占据很小的一部分 。
一般的方法是进行数据扩展,但是对于这种3D数据来作扩增是很困难的 。
然而,之前的研究证明,改变数据采样分布会直接影响重建的质量,于是作者找到了一种解决训练数据偏差的方法OHEM 。
其关键思想,是让网络自动发现困难的样本,自适应地更改采样概率 。
最后,作者的方法在没有任何超参数的情况下实现了最快加速,在保持原始重建精度的同时,处理速度从30秒减少到0.14秒 。
与无网格渲染技术相结合后,处理一帧图像的时间只需0.06秒 。系统的总体延迟平均为0.25秒 。

推荐阅读