大盘点|YOLO 系目标检测算法总览

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

YOLO目标检测算法诞生于2015年6月,从出生的那一天起就是“高精度、高效率、高实用性”目标检测算法的代名词。

在原作者Joseph Redmon博士手中,YOLO经历了三代到YOLOv3,今年初Joseph Redmon宣告退出计算机视觉研究界后,YOLOv4、YOLOv5相继而出,且不论谁是正统,这YOLO算法家族在创始人拂袖而出后依然热闹非凡。

本文带领大家细数在此名门之中自带“YOLO”的算法,总计 23 项工作,它们有的使YOLO更快,有的使YOLO更精准,有的扩展到了3D点云、水下目标检测、有的则在FPGA、CPU、树莓派上大显身手,甚至还有的进入了语音处理识别领域

而几乎所有YOLO系算法都力图保持高精度、高效率、高实用性,这也许就是工业界偏爱YOLO的理由吧!

YOLOv1 开山鼻祖之作

You Only Look Once: Unified, Real-Time Object Detection

作者:Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi

单位:华盛顿大学;Allen Institute for AI;FAIR

论文:https://arxiv.org/abs/1506.02640

引用 | 10222

主页:https://pjreddie.com/darknet/yolo/

时间:2015年6月8日

标准版本的YOLO在Titan X 的 GPU 上能达到 45 FPS。更快的 Fast YOLO 检测速度可以达到 155 FPS。

YOLOv2

YOLO9000: Better, Faster, Stronger

作者:Joseph Redmon, Ali Farhadi

单位:华盛顿大学;Allen Institute for AI

论文:https://arxiv.org/abs/1612.08242

引用 | 5168

主页:https://pjreddie.com/darknet/yolo/

时间:2016年12月25日

在 YOLO 基础上,保持原有速度的同时提升精度得到YOLOv2,让预测变得更准确(Better),更快速(Faster)。

通过联合训练策略,可实现9000多种物体的实时检测,总体mAP值为19.7。

YOLOv3

YOLOv3: An Incremental Improvement

作者:Joseph Redmon, Ali Farhadi

单位:华盛顿大学

论文:https://arxiv.org/abs/1804.02767

引用 | 3363

主页:https://pjreddie.com/darknet/yolo/

Star | 18.3K

时间:2018年4月8日

在320×320 YOLOv3运行22.2ms,28.2 mAP,像SSD一样准确,但速度快三倍。

在Titan X上,它在51 ms内实现了57.9的AP50,与RetinaNet在198 ms内的57.5 AP50相当,性能相似但速度快3.8倍。

YOLOv4 目标检测tricks集大成者

YOLOv4: Optimal Speed and Accuracy of Object Detection

作者:Alexey Bochkovskiy;Chien-Yao Wang;Hong-Yuan Mark Liao

单位:(中国台湾)中央研究院

论文:https://arxiv.org/pdf/2004.10934v1.pdf

引用 | 17

代码:https://github.com/AlexeyAB/darknet

Star | 11.9K

时间:2020年4月24

在MS COCO 数据集 实现 43.5% AP (65.7% AP50 ), 速度也更快了,在Tesla V100 GPU上 ∼65 FPS!

YOLOv5

2020年6月25日,Ultralytics发布了YOLOV5 的第一个正式版本,号称其性能与YOLO V4不相伯仲,同样也是现今最先进的目标检测技术,并在推理速度上是目前最强。

论文:无

代码:https://github.com/ultralytics/yolov5

Star | 3.5K

解读:一文读懂YOLO V5 与 YOLO V4

Fast YOLO

Fast YOLO: A Fast You Only Look Once System for Real-time Embedded Object Detection in Video

作者:Mohammad Javad Shafiee, Brendan Chywl, Francis Li, Alexander Wong

单位:滑铁卢大学

论文:https://arxiv.org/abs/1709.05943

引用 | 53

时间:2017年9月18日

Complex-YOLO

Complex-YOLO: An Euler-Region-Proposal for Real-time 3D Object Detection on Point Clouds

作者:Martin Simon, Stefan Milz, Karl Amende, Horst-Michael Gross

单位:伊尔梅瑙工业大学

论文:https://arxiv.org/abs/1803.06199

引用 | 65

代码:https://github.com/ghimiredhikura/Complex-YOLOv3(非官方)

Star | 95(非官方)

代码:https://github.com/maudzung/Complex-YOLOv4-Pytorch(基于v4)

Star | 442(基于v4)

时间:2018年3月16日

基于YOLOv2的一个变种,用于点云3D目标检测。

MV-YOLO

MV-YOLO: Motion Vector-aided Tracking by Semantic Object Detection

作者:Saeed Ranjbar Alvar, Ivan V. Bajić

单位:西蒙弗雷泽大学

论文:https://arxiv.org/abs/1805.00107

引用 | 10

时间:2018年4月30日

一种结合压缩视频中的运动信息和YOLO目标检测的目标跟踪算法。

YOLO3D

YOLO3D: End-to-end real-time 3D Oriented Object Bounding Box Detection from LiDAR Point Cloud

作者:Waleed Ali, Sherif Abdelkarim, Mohamed Zahran, Mahmoud Zidan, Ahmad El Sallab

单位:Valeo AI Research, Egypt

论文:https://arxiv.org/abs/1808.02350

引用 | 26

备注:ECCV 2018 Workshop

时间:2018年8月7日

YOLO-LITE

YOLO-LITE: A Real-Time Object Detection Algorithm Optimized for Non-GPU Computers

作者:Jonathan Pedoeem, Rachel Huang

单位:佐治亚理工学院等

论文:https://arxiv.org/abs/1811.05588

引用 | 73

代码:https://reu2018dl.github.io/

Star | 336

时间:2018年11月14日

YOLO-LITE 是 YOLOv2-tiny 的Web实现,在 MS COCO 2014 和 PASCAL VOC 2007 + 2012 数据集上训练。

在 Dell XPS 13 机器上可达到 21 FPS ,VOC 数据集上达到33.57 mAP。

Spiking-YOLO

Spiking-YOLO: Spiking Neural Network for Energy-Efficient Object Detection

作者:Seijoon Kim, Seongsik Park, Byunggook Na, Sungroh Yoon

单位:首尔大学

论文:https://arxiv.org/abs/1903.06530

引用 | 3

备注:AAAI 2020

时间:2019年3月12日

该文第一次将脉冲神经网络用于目标检测,虽然精度不高,但相比Tiny_YOLO 耗能更少。(研究意义大于实际应用意义)

DC-SPP-YOLO

DC-SPP-YOLO: Dense Connection and Spatial Pyramid Pooling Based YOLO for Object Detection

作者:Zhanchao Huang, Jianlin Wang

单位:北京化工大学

论文:https://arxiv.org/abs/1903.08589

引用 | 8

时间:2019年3月20日

该作提出一种DC-SPP-YOLO(基于YOLO的密集连接和空间金字塔池化技术)的方法来改善YOLOv2的目标检测精度。

SpeechYOLO

SpeechYOLO: Detection and Localization of Speech Objects

作者:Yael Segal, Tzeviya Sylvia Fuchs, Joseph Keshet

单位:巴伊兰大学

论文:https://arxiv.org/abs/1904.07704

引用 | 2

时间:2019年4月14日

YOLO算法启发的语音处理识别算法。

SpeechYOLO的目标是在输入信号中定位语句的边界,并对其进行正确分类。受YOLO算法在图像中进行目标检测的启发所提出的方法。

Complexer-YOLO

Complexer-YOLO: Real-Time 3D Object Detection and Tracking on Semantic Point Clouds

作者:Martin Simon, Karl Amende, Andrea Kraus, Jens Honer, Timo Sämann, Hauke Kaulbersch, Stefan Milz, Horst Michael Gross

单位:伊尔梅瑙工业大学等

论文:https://arxiv.org/abs/1904.07537

引用 | 24

时间:2019年4月16日

Complex-YOLO的改进版,用于实时点云3D目标检测与跟踪,推断速度加速20%,训练时间减少50%。

SlimYOLOv3

SlimYOLOv3: Narrower, Faster and Better for UAV Real-Time Applications

作者:Pengyi Zhang, Yunxin Zhong, Xiaoqiong Li

单位:北理工

论文:https://arxiv.org/abs/1907.11093

引用 | 18

代码:https://github.com/PengyiZhang/SlimYOLOv3

Star | 953

时间:2019年7月15日

解读|SlimYOLOv3:更窄、更快、更好的无人机目标检测算法

该文对YOLOv3的卷积层通道剪枝,大幅削减了模型的计算量(~90.8% decrease of FLOPs)和参数量( ~92.0% decline of parameter size),剪枝后的模型在基本保持原模型的检测精度同时,运行速度约为原来的两倍。

REQ-YOLO

REQ-YOLO: A Resource-Aware, Efficient Quantization Framework for Object Detection on FPGAs

作者:Caiwen Ding, Shuo Wang, Ning Liu, Kaidi Xu, Yanzhi Wang, Yun Liang

单位:北大;东北大学;鹏城实验室

论文:https://arxiv.org/abs/1909.13396

引用 | 14

时间:2019年9月29日

Tiny-YOLO的 FPGA 实现,REQ-YOLO速度可高达200~300 FPS!

YOLO Nano

YOLO Nano: a Highly Compact You Only Look Once Convolutional Neural Network for Object Detection

作者:Alexander Wong, Mahmoud Famuori, Mohammad Javad Shafiee, Francis Li, Brendan Chwyl, Jonathan Chung

单位:滑铁卢大学;DarwinAI Corp

论文:https://arxiv.org/abs/1910.01271

引用 | 6

时间:2019年10月3日

YOLO Nano 比 Tiny YOLOv2 和 Tiny YOLOv3更小,更快,mAP更高!模型仅4.0MB。在 NVIDIA Jetson Xavier上速度竟高达26.9~48.2 FPS!

xYOLO

xYOLO: A Model For Real-Time Object Detection In Humanoid Soccer On Low-End Hardware

作者:Daniel Barry, Munir Shah, Merel Keijsers, Humayun Khan, Banon Hopman

单位:坎特伯雷大学

论文:https://arxiv.org/abs/1910.03159

引用 | 3

时间:2019年10月7日

该工作所提出的 xYOLO 是从 YOLO v3 tiny 变化而来,xYOLO比Tiny-YOLO快了70倍!在树莓派3B上速度9.66 FPS!模型仅0.82 MB大小,这可能是速度最快模型最小的YOLO变种。

IFQ-Tinier-YOLO

IFQ-Net: Integrated Fixed-point Quantization Networks for Embedded Vision

作者:Hongxing Gao, Wei Tao, Dongchao Wen, Tse-Wei Chen, Kinya Osa, Masami Kato

单位:Canon Information Technology (Beijing) Co., LTD;Device Technology Development Headquarters, Canon Inc.

论文:https://arxiv.org/abs/1911.08076

引用 | 4

时间:2019年11月19日

该工作一部分基于YOLOv2,设计了IFQ-Tinier-YOLO人脸检测器,它是一个定点网络,比Tiny-YOLO减少了256倍的模型大小(246k Bytes)。

DG-YOLO

WQT and DG-YOLO: towards domain generalization in underwater object detection

作者:Hong Liu, Pinhao Song, Runwei Ding

单位:北大;鹏城实验室

论文:https://arxiv.org/abs/2004.06333

时间:2020年4月14日

该工作旨在研究水下目标检测数据,因为水下目标的数据比较少,提出了新的水质迁移的数据增广方法和YOLO新变种:DG-YOLO ,该算法由 YOLOv3, DIM 和 IRM penalty 组成。

Poly-YOLO

Poly-YOLO: higher speed, more precise detection and instance segmentation for YOLOv3

作者:Petr Hurtik, Vojtech Molek, Jan Hula, Marek Vajgl, Pavel Vlasanek, Tomas Nejezchleba

单位:奥斯特拉发大学;Varroc Lighting Systems

论文:https://arxiv.org/abs/2005.13243

代码:https://gitlab.com/irafm-ai/poly-yolo

时间:2020年5月27日

基于YOLOv3,支持实例分割,检测mAP提升40%!

E-YOLO

Expandable YOLO: 3D Object Detection from RGB-D Images

作者:Masahiro Takahashi, Alessandro Moro, Yonghoon Ji, Kazunori Umeda

单位:(日本)中央大学;RITECS Inc

论文:https://arxiv.org/abs/2006.14837

时间:2020年6月26日

YOLOv3的变种,构建了一个轻量级的目标检测器,从RGBD-D立体摄像机输入深度和彩色图像。该模型的处理速度为44.35fps(GPU: NVIDIA RTX 2080 and CPU: Intel Core i7 8700K)。

PP-YOLO

PP-YOLO: An Effective and Efficient Implementation of Object Detector

作者:Xiang Long, Kaipeng Deng, Guanzhong Wang, Yang Zhang, Qingqing Dang, Yuan Gao, Hui Shen, Jianguo Ren, Shumin Han, Errui Ding, Shilei Wen

单位:百度

论文:https://arxiv.org/abs/2007.12099

解读:https://zhuanlan.zhihu.com/p/163565906

代码:https://github.com/PaddlePaddle/PaddleDetection

时间:2020年7月23日

PP-YOLO由在YOLOv3上添加众多tricks“组合式创新”得来,从下图前两列中可看到其使用的技术:

PP-YOLO在精度和效率之间取得更好的平衡,在COCO数据集上达到45.2% mAP,并且速度72.9 FPS!,超越YOLOv4和谷歌EfficientDet,是更加实用的目标检测算法。

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

「3D视觉工坊」公众号后台回复:3D视觉优质源码即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

整理不易,请给工坊点赞和在看

3D视觉工坊 CSDN认证博客专家 算法 3D视觉
个人公众号:3D视觉工坊。公众号特邀嘉宾及合伙人,先后就职于国内知名研究机构、自动驾驶公司、海康研究院,主要研究方向为深度学习、目标检测、语义分割、图像处理、自动驾驶感知算法等,CSDN博客专家。博主先后任职于国内知名研究院、知名大厂,致力于3D视觉算法、VLAM算法开发,涉及相机标定、手眼标定、结构光、点云后处理、三维重建等相关领域的研究,同时也是CSDN博客专家。3D视觉工坊坚持原创,近一年来输出了非常多的高质量文章,获得了粉丝的一致好评,我们将始终坚持走原创路线,打造一个铁杆粉丝的聚集区。

基于深度学习的计算机视觉:原理与实践(上部)

02-19
本课程适合具有一定深度学习基础,希望发展为深度学习之计算机视觉方向的算法工程师和研发人员的同学们。 基于深度学习的计算机视觉是目前人工智能最活跃的领域,应用非常广泛,如人脸识别和无人驾驶中的机器视觉等。该领域的发展日新月异,网络模型和算法层出不穷。如何快速入门并达到可以从事研发的高度对新手和中级水平的学生而言面临不少的挑战。精心准备的本课程希望帮助大家尽快掌握基于深度学习的计算机视觉的基本原理、核心算法和当前的领先技术,从而有望成为深度学习之计算机视觉方向的算法工程师和研发人员。 本课程统全面地讲述基于深度学习的计算机视觉技术的原理并进行项目实践。课程涵盖计算机视觉的七大任务,包括图像分类、目标检测、图像分割(语义分割、实例分割、全景分割)、人脸识别、图像描述、图像检索、图像生成(利用生成对抗网络)。本课程注重原理和实践相结合,逐篇深入解读经典和前沿论文70余篇,图文并茂破译算法难点, 使用思维导图梳理技术要点。项目实践使用Keras框架(后端为Tensorflow),学员可快速上手。 通过本课程的学习,学员可把握基于深度学习的计算机视觉的技术发展脉络,掌握相关技术原理和算法,有助于开展该领域的研究与开发实战工作。另外,深度学习之计算机视觉方向的知识结构及学习建议请参见本人CSDN博客。 本课程提供课程资料的课件PPT(pdf格式)和项目实践代码,方便学员学习和复习。 本课程分为上下两部分,其中上部包含课程的前五章(课程介绍、深度学习基础、图像分类、目标检测、图像分割),下部包含课程的后四章(人脸识别、图像描述、图像检索、图像生成)。
©️2020 CSDN 皮肤主题: 书香水墨 设计师: CSDN官方博客 返回首页
实付0元
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值