论文主要是通读一遍，把我认为是重点的部分写下来。当然，也欢迎指正。

Table of Contents

1.摘要

主要提到作者用了较多的tricks与一些结构：

（1）Weighted-Residual-Connections (WRC)
（2）Cross-Stage-Partial-connections (CSP)
（3）Cross mini-Batch Normalization (CmBN)
（4）Self-adversarial-training (SAT)
（5）Mish-activation
（6）Mosaic data augmentation
（7）DropBlock regularization
（8）CIoU loss

在MS COCO数据集上达到了精度43.5%AP (65.7% AP50)，在Tesla v100上达到65FPS的速度。

以及代码地址：https://github.com/AlexeyAB/darknet

2.介绍

作者以推荐系统的例子，以及很多任务需要多张昂贵的GPU显卡来完成。表明自己的检测算法目标：简单、易用、性能好、单卡运行。

贡献：

（1）开发一个高效也性能强的检测算法，在1080单卡就能训练一个很好的模型。

（2）验证了最先进的 “免费袋 “和 “特殊袋 “方法在检测器训练期间对物体检测的影响。免费袋和特殊袋是什么？

（3）通过开发，使得一些tricks能够在单卡上有效的使用。

3.相关工作

针对目标检测领域不同的输入、backbone、neck、head结果等，做了一些总结，看了下，还挺清晰的。

3.1 Bag of freebies

终于在这里找到了bag of freebies的答案。

Bag of freebies：目标检测中能够提高性能，推理时不增加额外的速度消耗时。

（1）数据增强

（2）解决类别不均衡的方法，focal loss、label smoothing、knowledge distillation

（3）解决Bounding Box (BBox) 回归问题，一些损失函数GIoU loss、DIoU loss、CIoU loss等

3.2 Bag of specials

Bag of specials：目标检测中推理成本会有少量的增加，但可以显著提高准确性。

（1）增加感受野：SPP , ASPP , and RFB 。

（2）注意力机制模块：SAM，SE。

（3）特征融合：SFAM , ASFF , and BiFPN .

（4）更好的激活函数：LReLU , PReLU , ReLU6 , Scaled Exponential，Linear Unit (SELU) , Swish , hard-Swish , and Mish。

（5）后处理：nms、DIoU nms。

可以看出这一章其实写的很有条理，通过分析成本区分了本文后面需要用到的一些结构。可以为后续的精度提升和速度提升做更清晰的准备。

4.方法

先亮一下最重要的部分，YOLOv4使用了下面这些结构与tricks。

5.实验性能

作者做了很多消融实验，来验证哪些性能比较好。（在深度学习的tricks里面很多都是这样，一个策略有效可能就是通过多个对比实验发现的，有一部分理论性质的论文就会通过数学理论来进行推导验证）

（1）Bag of Freebies消融实验

（2）Bag of Specials消融实验

（3）不同backbone与预训练模型

（4）不同batch-size与输入图片大小

6.所有的对比结果

原文链接：https://blog.csdn.net/qq_35975447/article/details/123077062

【目标检测】《YOLOv4: Optimal Speed and Accuracy of Object Detection》论文阅读笔记