AAAI2021论文:一个高性能3-D目标两步检测法Voxel R-CNN

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

作者丨黄浴@知乎

来源丨https://zhuanlan.zhihu.com/p/3453649291

编辑丨3D视觉工坊

AAAI2021录取论文 “Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection“,作者来自中科大和香港中文大学。

本文提出一个有趣的问题:一般大家看到point-based特征计算量大,voxel-based结构更适合特征提取,但精度下降;而作者认为,点云数据的精确定位并不需要,而粗voxel粒度也能产生充分检测精度。设计的模型Voxel R-CNN,是一个两步法,仍然达到和当前point-based方法可比的检测性能,但计算量只是其一部分。Voxel R-CNN包括3D主干网络,2D BEV RPN和检测头,其中提出的voxel ROI pooling负责从voxel特征中提取ROI特征。

在文章首页中看到的图示,给出属于两步法的当前point-based方法和该文方法的比较。

作者分析SECOND和PV-RCNN的区别,前者是单步voxel-based方法,3D主干网络加2D BEV RPN;后者是进一步改进,加入一个keypoint分支,保持3D结构信息,其VSA(voxel set abstraction)集成多尺度3D voxels特征。然后由此做RoI pooling得到Region proposals。

这样作者在SECOND的2D主干网中探索rotated ROI align提取ROI特征。由此得到两点认识:1)3D结构很重要,因为BEV不足预测精确的3D BBox;2)point-voxel特征交互费时,影响效率。

设计的Voxel R-CNN model概览图如下:

voxel RoI pooling是从3D voxel特征体中聚集spatial context。这里提出一个新操作符,voxel query,在3D特征体中找邻域voxel,可以聚类voxels。如图所示:

在一个距离范围寻找K个voxels,其中采用Manhattan距离,即

基于此,采用PointNet模块聚集邻域voxel features,记gi是grid points,vi是voxels,那么最后特征如同下面公式计算:

作者只是从3D 主干网络的最后两级提取voxel特征,每一级的曼哈顿距离门限不同,最后把不同级和尺度的特征拼接在一起得到RoI特征。

不过,这个聚集特征过程计算量仍然很大,作者采用了加速方法,如图所示:

网络架构设计基本从SECOND和PV-RCNN过来的。推理中,RPN中IoU门限=0.7做NMS,得到top-100 region proposals进入detection head;细化后NMS再次应用,这里IoU门限=0.1去除冗余。

训练中loss函数如下:

RPN的损失项

其中分类采用Focal loss,box回归采用Huber loss。

先定义一个confidence分支和IoU相关的数值

框回归分支也采用Huber loss。这样,检测头的损失项

实验结果如下:

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

3D视觉工坊 CSDN认证博客专家 算法 3D视觉
个人公众号:3D视觉工坊。公众号特邀嘉宾及合伙人,先后就职于国内知名研究机构、自动驾驶公司、海康研究院,主要研究方向为深度学习、目标检测、语义分割、图像处理、自动驾驶感知算法等,CSDN博客专家。博主先后任职于国内知名研究院、知名大厂,致力于3D视觉算法、VLAM算法开发,涉及相机标定、手眼标定、结构光、点云后处理、三维重建等相关领域的研究,同时也是CSDN博客专家。3D视觉工坊坚持原创,近一年来输出了非常多的高质量文章,获得了粉丝的一致好评,我们将始终坚持走原创路线,打造一个铁杆粉丝的聚集区。
已标记关键词 清除标记
相关推荐
©️2020 CSDN 皮肤主题: 书香水墨 设计师:CSDN官方博客 返回首页
实付 49.90元
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值