CVPR2021 | 基于transformer的视频实例分割网络VisTR

原文:End-to-End Video Instance Segmentation with Transformers

翻译:夏初

摘要

视频实例分割(VIS)是一项需要同时对视频中感兴趣的对象实例进行分类、分割和跟踪的任务。最近研究人员提出了一个新的基于Transformers的视频实例分割框架VisTR,它将VIS任务看作一个直接的端到端并行序列解码/预测问题。给定一个由多个图像帧组成的视频片段作为输入,VisTR直接输出视频中每个实例的掩码序列。其核心是一种新的、有效的instance sequence匹配与分割策略,它在序列级对实例进行整体监控和分割。VisTR从相似性学习的角度对实例进行分割和跟踪,大大简化了整个流程,与现有方法有很大的不同。

VisTR在现有的VIS模型中速度最高,在YouTubeVIS数据集上使用单一模型的方法中效果最好。这是第一次,研究人员展示了一个更简单,更快的视频实例分割框架建立在Transformer,实现了竞争的准确性。研究人员希望VisTR能推动未来更多的视频理解任务的研究。

研究贡献:

•研究人员提出了一个新的基于Transformers的视频实例分割框架,称为VisTR,它将VIS任务视为一个直接的端到端并行序列解码/预测问题。该框架与现有方法大不相同,大大简化了整个流程。

•VisTR从相似性学习的新角度解决了VIS。实例分割就是学习像素级的相似度,实例跟踪就是学习实例之间的相似度。因此,在相同的实例分割框架下,可以无缝、自然地实现实例跟踪。

•VisTR成功的关键是为研究人员的框架定制了一种新的instance sequence匹配和分割策略。这个精心设计的2策略使

3D视觉工坊 CSDN认证博客专家 算法 3D视觉
个人公众号:3D视觉工坊。公众号特邀嘉宾及合伙人,先后就职于国内知名研究机构、自动驾驶公司、海康研究院,主要研究方向为深度学习、目标检测、语义分割、图像处理、自动驾驶感知算法等,CSDN博客专家。博主先后任职于国内知名研究院、知名大厂,致力于3D视觉算法、VLAM算法开发,涉及相机标定、手眼标定、结构光、点云后处理、三维重建等相关领域的研究,同时也是CSDN博客专家。3D视觉工坊坚持原创,近一年来输出了非常多的高质量文章,获得了粉丝的一致好评,我们将始终坚持走原创路线,打造一个铁杆粉丝的聚集区。
已标记关键词 清除标记
相关推荐
©️2020 CSDN 皮肤主题: 书香水墨 设计师:CSDN官方博客 返回首页
实付 49.90元
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值