Table of Contents

写在前面

1. Abstrack

提出了一种端到端的多目标跟踪网络，CTacker，将目标检测、外观特征提取、数据关联三个任务用一个模型完成，相较于其他Joint-Detection-and-Tracking范式的算法集成度更高。每次输入两帧图片进行关联学习，并形成结点对，再对各个结点对之间按照链式算法联系成一条完整的轨迹。

2. Chained-Tracker

2.1 Architecture

CTrack网络每次输入两帧相邻图片，输出同一目标的成对的bbox。Backbone使用ResNet+FPN提取特征，后将两帧的feature map拼接在一起输入后续网络，这是为了关联两帧图像的特征。
此外添加了两个分支classification branch 和 ID verification branch。两个分支的功能是互补的：classification branch负责区分前景和背景、verification branch负责区分相同和不同的前景。
后将两个分支的attention map和feature map拼接，经过4个卷积输出成对的检测框结果。

2.2 Chain Pipeline

网络每次输出一个图片对的检测+关联结果，chain pipeline的主要任务就是把每个图片对匹配起来，采用简单的IOU匹配，对相邻图片对的同一图片的检测框进行IOU匹配，即可得到最终的完整轨迹。

Memory Sharing Mechanism

因为每一帧图像都会被复用两次，所以重复推理显然是不划算的，因此设计每张图片经过Backbone得到的特征图会保留到下一次推理结束，这样的MSM机制能够大幅度节省推理时间。

3. Experiment

3.1 Ablation

1）证明了添加ID verification branch的有效性，相当于完成了REID任务
2）两个分支的attention map融合到feature map上对最终的检测效果也有明显的提升

3.2 Time Cost

1）MSM机制确实能够极大地节省推理时间，几乎与单帧推理的耗时相同，却获得了相邻帧这一时序信息，性价比很高

4. Analysis

本文另辟蹊径提出了一种Chain Track的方法，有点像单目标跟踪中的Siamese网络，但是又不完全相同：Siamese网络用两个相同的网络分别处理两张图片，而本工作则直接将相邻两帧图片一起处理，特征也concat在了一起。
但是本文宣称的将“检测、特征提取、关联”三个阶段合一，笔者认为可能存在一定争议。因为本工作的关联任务其实分为两部分：图片对内目标的关联和对与对之间目标的关联，前者是通过网络完成的，而后者其实仍然是分离的association环节。

参考文献

1.卷积神经网络学习笔记——Siamese networks（孪生神经网络）_博客园
2. 单目标跟踪 Siamese系列网络_あずにゃん的博客_CSDN

原文链接：https://blog.csdn.net/selami/article/details/122530641

【多目标跟踪论文阅读笔记——Chained-Tracker】