PVNet: 像素级投票网络估计6DoF位姿

泡泡图灵智库,带你精读机器人顶级会议文章

标题:PVNet:Pixel-wise Voting Network for 6DoF Pose Estimation

作者:Sida Peng,Yuan Liu,Qixing Huang,Xiaowei Zhou,Hujun Bao

来源:CVPR 2019

编译:陈圣伦

审核:万应才 

摘要

大家好,今天为大家带来的文章是—— PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation。

本文研究了在严重的遮挡或截断情况下,单张RGB图像的六自由度位姿估计问题。近期的研究表明,两阶段的方法可以获得显著的性能,首先检测关键点,然后求解PnP问题估计位姿。然而,这些方法大多仅通过回归图像坐标或热图定位一组稀疏的关键点,这些关键点对遮挡和截断很敏感。相反,本文引入了一个像素级投票网络(PVNet)用于回归指向关键点的像素级向量,并使用这些向量对关键点位置进行投票。这为定位被遮挡或截断的关键点创建了一种灵活的表示方式。这种表示的另一个重要特征是,它提供了关键点位置的不确定性,可以进一步被PnP求解器所利用。实验表明,该方法在LINEMOD、Occlusion LINEMOD和YCB-Video数据集上的性能优于现有的方法,同时能够有效地进行实时的位姿估计。新创建的Truncation LINEMOD数据集可以验证该方法对截断的鲁棒性。代码https://zju3dv.github.io/pvnet/。

贡献

1.提出了像素级投票网络(PVNet)框架,可以估计六自由度位姿。该框架学习向量场表示,用于鲁棒的2D关键点定位,并能够自然地处理遮挡和截断。

2.基于PVNet的稠密预测,本文提出一种由不确定性驱动的PnP算法。

3.在基准数据集上,与最先进的方法相比,该方法显著地提高了性能(在LINEMOD和OCCLUSION上分别增加了86.3%vs79%,40.8%vs30.4%)。本文还创建了一个新的数据集,用于对截断的对象进行评估。

算法流程

给定一幅图像,位姿估计的任务是检测目标并估计其在三维空间中的方向和平移。首先利用CNNs检测2D目标关键点,然后利用PnP算法计算六自由度位姿。

1.基于投票的关键点定位

给定一个RGB图像,PVNet预测像素级对象标签和向量,其中像素级向量代表每个像素到每个关键点的方向。给定从属于该物体的所有像素到某一物体关键点的方向,可生成该关键点的2D位置假设以及基于ransac投票的置信度得分。在这些假设的基础上估计每个关键点的空间概率分布的均值和协方差,如图1。

图1 关键点定位。(a)Occlusion LINEMOD数据集的图像。(b)PVNet的架构。(c)指向物体关键点的像素级向量。(d)语义标签。(e)投票产生的关键点假设。投票分数越高的假设越亮。(f)根据假设估计的关键点位置的概率分布。分布的均值用红星表示,协方差矩阵用椭圆表示。

更具体地说,PVNet执行两个任务:语义分割和向量场预测。对于像素p, PVNet输出与物体关联的语义标签和向量vk(p),该向量表示从像素p到物体的2D关键点xk的方向。向量vk(p)是像素p与关键点xk之间的偏移量,即xk-p。利用语义标签和偏移量,得到了目标物体像素,并将这些偏移量相加,生成一组关键点假设。然而,这些偏移量对物体尺度的变化非常敏感,这限制了PVNet的泛化能力。因此,本文提出尺度不变向量

在给定目标像素和单位向量的基础上,本文使用基于ransac的投票方案生成关键点假设。首先,随机选取两个像素点,将其向量的交点作为假设hki,作为关键点xk。重复N次,生成一组假设{hki|i=1,2,…,N} 用于表示可能的关键点位置。然后,物体的所有像素为这些假设投票。将假设hki的投票得分wki定义为,

 Ⅱ为指标函数,θ为阈值(所有实验均为0.99),p∈O表示像素p属于对象O。直觉上,较高的投票分数意味着一个假设更有准确,因为它与更多的预测方向一致。所得到的假设描述了图像中一个关键点的空间概率分布,其均值μk和协方差∑k如下。图1(e)显示了一个示例。

2.关键点选择

如图2(a)使用物体的3D包围框的8个角点作为关键点,这些角点可能远离图像中的物体像素。距离目标像素越远,定位误差就越大,因为关键点假设是使用从目标像素开始的向量生成的。图2(b)和(c)分别是选择包围框角点和选择物体表面上关键点得到的假设。物体表面上的关键点在定位上的差异通常要小得多。

图2 (a)3D物体模型及其3D包围框。(b)PVNet选择包围框角点得到的假设。(c)PVNet选择物体表面的一个关键点产生的假设。表面关键点的较小方差可以表明,在该方法中,表面关键点比包围框角点更容易定位。

本文首先,添加对象中心来初始化关键点集合。然后,不断找到物体表面上到当前关键点集最远的一个点,并将其添加到集合中。实证结果表明,该策略会产生更好的结果。根据实验结果建议K = 8。图3显示了一些物体的关键点。

图3 LINEMOD数据集中四个物体的关键点。

3.不确定性驱动的PnP

给定每个物体的2D关键点位置,它的六自由度位姿可以通过使用现有的PnP求解器求解。然而,大多求解器忽略了不同的关键点可能有不同的置信度。给定估计的平均值μk和协方差矩阵Σk,通过最小化马氏距离来计算六自由度位姿,

其中Xk为关键点的3D坐标,xk~是xk的二维投影,π是透视投影函数。参数R和t采用基于四个关键点的EPnP初始化。然后,使用Levenberg- Marquardt算法求解(5)。

4.损失函数

其中w为PVNet的参数,vk~为预测向量,vk为真实单位向量。请注意,在测试期间,不需要将预测的向量作为单位,因为后续处理只使用向量的方向。

主要结果

2D Projection metric。计算估计位姿和真实位姿的3D模型点投影之间的平均距离。如果距离小于5个像素,则认为估计的位姿是正确的。

ADD metric。用估计的位姿和真实位姿计算转换后的两个模型点之间的平均距离。当距离小于模型直径的10%时,认为估计的位姿是正确的。对于对称对象,使用ADD-S度量[40],其中的平均距离是根据最近的点距离计算的。

表1 在Occlusion LINEMOD数据集上消融研究。指标为ADD(-S),其中glue和eggbox为对称对象。Tekin[36]通过回归检测关键点,而其他配置使用提出的基于投票的关键点定位。BBox 8显示了该方法使用[36]中定义的关键点的结果。Offset8显示了对关键点的偏移量预测结果。FPS K是指由FPS算法产生的K个表面关键点。Un意味着使用不确定性驱动的PnP。在没有Un的配置中,使用EPnP估计姿态。

表2 本文方法和基线方法在Occlusion LINEMOD数据集上的准确性(2D Projection metric)。

表3 根据ADD(-S),本文方法和基线方法在Occlusion LINEMOD数据集上的准确性,其中glue和eggbox认为是对称对象。

表4 根据2D Projection和ADD(-S)metric,在Truncation LINEMOD数据集上的结果。

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近3000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

3D视觉工坊 CSDN认证博客专家 算法 3D视觉
个人公众号:3D视觉工坊。公众号特邀嘉宾及合伙人,先后就职于国内知名研究机构、自动驾驶公司、海康研究院,主要研究方向为深度学习、目标检测、语义分割、图像处理、自动驾驶感知算法等,CSDN博客专家。博主先后任职于国内知名研究院、知名大厂,致力于3D视觉算法、VLAM算法开发,涉及相机标定、手眼标定、结构光、点云后处理、三维重建等相关领域的研究,同时也是CSDN博客专家。3D视觉工坊坚持原创,近一年来输出了非常多的高质量文章,获得了粉丝的一致好评,我们将始终坚持走原创路线,打造一个铁杆粉丝的聚集区。
已标记关键词 清除标记
相关推荐
©️2020 CSDN 皮肤主题: 书香水墨 设计师:CSDN官方博客 返回首页
实付 49.90元
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值