Sound Event Detection: A Tutorial

热爱之所以有力量就在于,你坚守它就好,永远不要去想它会有什么结果。

前言

这里是对《Sound Event Detection: A Tutorial》做的笔记。

论文地址:https://arxiv.org/pdf/2107.05463.pdf

提示:以下是本篇文章正文内容,下面案例可供参考

一、声音事件检测的简单介绍

       声音事件检测的目的就是识别出一个音频中声音事件的种类,以及检测出声音事件发生和结束的时间。如下图所示:

二、声音事件检测的挑战

         目前声音事件检测存在许多挑战,例如:

1、音事件有非常不同的声学特征,有些声音很短,比如枪声,有些声音很长,比如说话声等等。

2、在声音事件检测的实际应用中,需要检测的声音距离麦克风很远,导致麦克风接收到的目标事件的声压级低于环境中发生的其他声音的声压级,增加了检测的难度。

3、生活中发生的声音事件通常是多音的,意味着多个声音事件会在同一时间发生,也增加了检测的难度。

4、音频数据量少,并且标注困难,耗时大。导致目前音频数据集无标签的数据多,有标签的数据很少。

三、声音事件检测通用的机器学习方法

处理声音事件检测任务的主要方法是基于监督学习的,下图展示了一个用于声音事件检测的监督学习的通用分类系统。

        正如上图所示,在学习阶段,系统学习音频信号中提取的特征和帧级别的分类标签之间的关系。分类标签被表示为一个二进制矩阵,其中每个元素表示在某帧内是否处于active状态,若处于active状态,则为1,反之,为0。在测试阶段,系统接收从测试音频提取的特征,从而得到每帧的分类结果。对于声学模型,声音事件检测的性能随着深度学习的发展有了很大的提升。

四、数据

       按照标签进行分类,目前声音事件检测的数据可以分为三类:一个是无标签数据, 一个是弱标签数据,即只有声音事件的分类,没有时间信息,最后是强标签数据,既有声音事件的分类,也有声音事件的起止事件。现在有一些公开的数据集可以使用,如下表所示:

五、声音事件检测的信号处理方法

A.数据增强

time stretching 时间拉伸

pitch shifting 音高变换

dynamic range compression 动态范围拉伸

sub-frame time shifting 子帧时间偏移

block mixing 块混合

mixup 混音

B、特征表示

1、MFCC:声音事件检测最常用的特征是logmel能量,它使用感知激励的频率和振幅标度表示音频信号能量。

2、constant-Q transform (CQT):它的频率轴为对数。CQT在较低频率下提供更好的光谱分辨率,在较高频率下提供更好的时间分辨率。

3、也可以使用在不同分析分辨率下计算的光谱图:使用具有不同时间或频率分辨率的表示法的动机是假设不同类型的声音可能受益于不同频率或时间分辨率的建模,例如短声音,例如门砰砰声,受益于分析中的高时间分辨率,而鸟类歌唱等声音的谐波成分可以用高分辨率的频率更好地表示。

4、feature learning

六、基于机器学习的声音事件检测

       深度神经网络在图像分类和语音识别等许多领域都取得了巨大的进步,而且正如近年来观察到的那样,深度神经网络现在也是环境声音分析和分类的主要方法。它们的主要缺点是需要大量数据进行培训。对大型数据集的这种需求对于声音事件检测来说是一个问题,因为该领域仍然缺乏具有强标记数据的大型数据集。涉及弱标签和迁移学习的高级培训策略提供了适当的解决方案,以应对数据中的缺陷,但一般的系统架构通常不会发生显著变化。

A.CRNN

       用于声音事件检测的通用网络体系结构是卷积递归神经网络(CRNN),CNN做为特征提取器,RNN可以依据近乎无限长的上下文信息做出逐帧的决策。下图展示了一个由三个卷积块组成的CRNN体系结构,CNN后面接两个递归层和两个全连接层。

       如上图所示,一个卷积块包含一个卷积层,一个非线性层和一个池化层。为了保持音频事件检测的时间精度在做池化运算时,只沿着频率轴进行最大池化,对时间轴不做改动,这样使得整个系统的时间分辨率保持不变。为了防止使用标准的RNN会出现梯度爆炸或者梯度消失的问题,这里使用了双向的GRU。全连接层的作用是根据最后一个循环层的输出产生声音事件活动概率。在输出层之前可以有许多使用sigmoid单元的全连接层,输出层是根据任务选择的(例如,用于分类的softmax)。在这种情况下,输出层由sigmoid单元组成,这些单元分别为每个目标事件类提供概率。由于SED中的预期输出是每个事件类的二进制激活指示器序列,因此网络输出被二值化。二值化的阈值可以简单地选择为0.5,或者可以根据数据的统计信息针对问题进行优化。此外,生成的二进制序列可以进行后处理以形成事件实例。

B.先进的方法

迁移学习

在训练的时候使用弱标签或带有噪声的标签

多实例学习

teacher-student models

基于attention机制的网络

七、性能评估

1、基于segment的评估

2、基于event的评估

 八、未来展望

1、active learning

2、 federated learning

3、zero-shot learning

4、model adaptation

总结

以上就是对改论文的简单摘录啦!

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
心中带点小风骚的头像心中带点小风骚普通用户
上一篇 2022年5月18日
下一篇 2022年5月18日

相关推荐