【达摩院OpenVI】基于流感知的视频目标检测网络LongShortNet

青葱年少

1 年前

Table of Contents

论文&代码

论文链接：[arxiv]
代码&应用：
- 开源代码：[github code]
- 开源应用：[modelscope]

背景介绍

传统视频目标检测（Video Object Detection, VOD）任务以一段视频作为输入，利用视频的时序信息进行目标检测，并最终输出每一帧视频帧的检测结果。其相比图像目标检测（Image Object Detection, IOD）任务，优势在于能够利用视频的时序信息，对运动模糊、图像失焦、遮挡、物体姿态变化等困难的场景具有更强的鲁棒性。然而，传统的VOD和IOD都是离线（offline）的检测，即仅考虑算法的检测精度，未考虑算法的延时。

为了更加贴近现实场景，ECCV 2020 论文《Towards Streaming Perception》^[¹^]（获得Best Paper Honorable Mention）首次提出了流感知（Streaming Perception）任务，该任务作为VOD的一个细分方向，提出了流平均精度（Streaming Average Precision, sAP）指标，衡量算法的在线（online）检测能力，即同时衡量算法的精度和延时。具体地，如下图所示，离线目标检测算法对【达摩院OpenVI】基于流感知的视频目标检测网络LongShortNet 时刻的视频帧进行检测，得到轿车检测结果，即橙色的矩形框，而因为算法处理存在一定的延时，此时现实环境已经处于时刻，轿车的实际位置也已经发生变化，即红色的矩形框。由此可见，实际应用中，算法进行目标检测时，应同时考虑环境变化，这正是在线检测（如Streaming Perception任务）考虑的事情，这一类的算法在时刻的检测结果，橙色的矩形框，与时刻的实际环境，红色的矩形框，能有较好的吻合。

文章出处登录后可见！

已经登录？立即刷新