BEV+Transformer的发展趋势

        近两年,BEV+Transformer在视觉检测领域炙手可热,大有一统CV检测的趋势。从算法原理来讲,BEV+Transformer将视觉图片转到BEV坐标系下,并使用连续帧编码的方式,获取更丰富的特征信息。因此,这种组合模型体量比较大,需要更多的数据进行训练,也需要更强的AI芯片推理部署,对芯片和数据都提出了更高的要求。

        首先是芯片算力,BEV+Transformer的组合算力基本是CNN检测的十倍以上,以周视360°环绕感知6V为例,算力要求从20~30TFLOPS提升到200+TFLOPS。另外需要芯片支持FP16或BF16量化,只是INT8量化,精度不够,不能满足算法精度要求。

        大模型需大数据,BEV+Transformer的组合需要海量数据,并且对数据重新标注训练,标注成本、训练成本都大幅增加,导致研发成本大增,最后需要消费者买单。

        除了算力,内存带宽的要求也非常高,因为引入时序的数据量大,需要更大的内存带宽,基本也是10倍以上,目前的芯片是不满足要求的。

        为了能让BEV+Transformer落地,则需要多方面提升,除了提升芯片算力、内存带宽,还要考虑矩阵单元设计、算子、底层优化、模型优化等。

        比如模型优化,考虑使用轻量化模型,如FastBEV、SimpleBEV;另外,芯片端提供高效匹配的算子,提升运算效率等,都可以帮助算法尽快落地。

        BEV+Transformer的优势是识别准、精度高,方便和激光、毫米波做前融合,但即使有众多优点,也存在明显短板——仍无法准确感知远处环境和目标,这对于智能驾驶来说,或许并非最终的解决方法。

        通过一些方法可以弥补远处感知能力弱的问题,比如前视单目使用CNN,获取远处的感知,再和BEV+Transformer的结果融合;再比如前视叠加4D雷达(特斯拉方案),同时提供近处冗余和远处障碍物感知能力,来补足BEV+Transformer的短板。

        综合上述现状来看,现在大火的重感知、轻地图模式其实仍存在明显的缺陷——看不远。这个问题目前没有完美的解决方案,不管特斯拉和蔚小理们吹得多牛,现阶段的智能驾驶还只是过渡方案,无法提供足够安全的驾驶能力,所以一定要握紧方向盘,对自己的安全负责。

参考资料:

大盘点!自动驾驶中基于Transformer的单目BEV感知_自动驾驶之心的博客-CSDN博客

BEV和Transformer对无人驾驶硬件体系的巨大改变_自动驾驶之心的博客-CSDN博客

NeurIPS 2022 | Fast-BEV:一种基于CNN的实时车载BEV感知方法_自动驾驶之心的博客-CSDN博客

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
xiaoxingxing的头像xiaoxingxing管理团队
上一篇 2023年6月16日
下一篇 2023年6月16日

相关推荐