写在前面
1. Abstrack
提出了一种端到端的多目标跟踪网络,CTacker,将目标检测、外观特征提取、数据关联三个任务用一个模型完成,相较于其他Joint-Detection-and-Tracking范式的算法集成度更高。每次输入两帧图片进行关联学习,并形成结点对,再对各个结点对之间按照链式算法联系成一条完整的轨迹。
2. Chained-Tracker
2.1 Architecture
CTrack网络每次输入两帧相邻图片,输出 同一目标的成对的bbox。Backbone使用ResNet+FPN提取特征,后将两帧的feature map拼接在一起输入后续网络,这是为了关联两帧图像的特征。
此外添加了两个分支classification branch 和 ID verification branch。两个分支的功能是互补的:classification branch负责区分前景和背景、verification branch负责区分相同和不同的前景。
后将两个分支的attention map和feature map拼接,经过4个卷积输出成对的检测框结果。
2.2 Chain Pipeline
网络每次输出一个图片对的检测+关联结果,chain pipeline的主要任务就是把每个图片对匹配起来,采用简单的IOU匹配,对相邻图片对的同一图片的检测框进行IOU匹配,即可得到最终的完整轨迹。
Memory Sharing Mechanism
因为每一帧图像都会被复用两次,所以重复推理显然是不划算的,因此设计每张图片经过Backbone得到的特征图会保留到下一次推理结束,这样的MSM机制能够大幅度节省推理时间。
3. Experiment
3.1 Ablation
1)证明了添加ID verification branch的有效性,相当于完成了REID任务
2)两个分支的attention map融合到feature map上对最终的检测效果也有明显的提升
3.2 Time Cost
1)MSM机制确实能够极大地节省推理时间,几乎与单帧推理的耗时相同,却获得了相邻帧这一时序信息,性价比很高
4. Analysis
本文另辟蹊径提出了一种Chain Track的方法,有点像单目标跟踪中的Siamese网络,但是又不完全相同:Siamese网络用两个相同的网络分别处理两张图片,而本工作则直接将相邻两帧图片一起处理,特征也concat在了一起。
但是本文宣称的将“检测、特征提取、关联”三个阶段合一,笔者认为可能存在一定争议。因为本工作的关联任务其实分为两部分:图片对内目标的关联和对与对之间目标的关联,前者是通过网络完成的,而后者其实仍然是分离的association环节。
参考文献
1.卷积神经网络学习笔记——Siamese networks(孪生神经网络)_博客园
2. 单目标跟踪 Siamese系列网络_あずにゃん的博客_CSDN
版权声明:本文为博主书玮嘎原创文章,版权归属原作者,如果侵权,请联系我们删除!