BEV+Transformer的发展趋势

近两年，BEV+Transformer在视觉检测领域炙手可热，大有一统CV检测的趋势。从算法原理来讲，BEV+Transformer将视觉图片转到BEV坐标系下，并使用连续帧编码的方式，获取更丰富的特征信息。因此，这种组合模型体量比较大，需要更多的数据进行训练，也需要更强的AI芯片推理部署，对芯片和数据都提出了更高的要求。

首先是芯片算力，BEV+Transformer的组合算力基本是CNN检测的十倍以上，以周视360°环绕感知6V为例，算力要求从20~30TFLOPS提升到200+TFLOPS。另外需要芯片支持FP16或BF16量化，只是INT8量化，精度不够，不能满足算法精度要求。

大模型需大数据，BEV+Transformer的组合需要海量数据，并且对数据重新标注训练，标注成本、训练成本都大幅增加，导致研发成本大增，最后需要消费者买单。

除了算力，内存带宽的要求也非常高，因为引入时序的数据量大，需要更大的内存带宽，基本也是10倍以上，目前的芯片是不满足要求的。

为了能让BEV+Transformer落地，则需要多方面提升，除了提升芯片算力、内存带宽，还要考虑矩阵单元设计、算子、底层优化、模型优化等。

比如模型优化，考虑使用轻量化模型，如FastBEV、SimpleBEV；另外，芯片端提供高效匹配的算子，提升运算效率等，都可以帮助算法尽快落地。

BEV+Transformer的优势是识别准、精度高，方便和激光、毫米波做前融合，但即使有众多优点，也存在明显短板——仍无法准确感知远处环境和目标，这对于智能驾驶来说，或许并非最终的解决方法。

通过一些方法可以弥补远处感知能力弱的问题，比如前视单目使用CNN，获取远处的感知，再和BEV+Transformer的结果融合；再比如前视叠加4D雷达（特斯拉方案），同时提供近处冗余和远处障碍物感知能力，来补足BEV+Transformer的短板。

综合上述现状来看，现在大火的重感知、轻地图模式其实仍存在明显的缺陷——看不远。这个问题目前没有完美的解决方案，不管特斯拉和蔚小理们吹得多牛，现阶段的智能驾驶还只是过渡方案，无法提供足够安全的驾驶能力，所以一定要握紧方向盘，对自己的安全负责。

参考资料：

大盘点！自动驾驶中基于Transformer的单目BEV感知_自动驾驶之心的博客-CSDN博客

BEV和Transformer对无人驾驶硬件体系的巨大改变_自动驾驶之心的博客-CSDN博客

NeurIPS 2022 | Fast-BEV：一种基于CNN的实时车载BEV感知方法_自动驾驶之心的博客-CSDN博客

文章出处登录后可见！

已经登录？立即刷新

BEV+Transformer的发展趋势

相关推荐