【论文阅读】A Review on Feature Selection and Ensemble Techniques for Intrusion Detection System

原文标题:A Review on Feature Selection and Ensemble Techniques for Intrusion Detection System
原文作者:Majid Torabi1*, Nur Izura Udzir 2*, Mohd Taufik Abdullah3, Razali Yaakob4
发表:IJACSA 2021
原文链接:https://pdfs.semanticscholar.org/06b7/2a8cc22b4f9fecfd8fcf396a693429dd6326.pdf
中文标题:入侵检测系统特征选择与集成技术综述

1 Motivation

本论文侧重于机器学习算法在基于异常的 IDS 中的特征选择和基于集成学习方法的检测的应用。并对该领域先前提出的模型进行讨论和比较,并指出每个模型的特点,以促进该领域的更多研究。

2 主要工作

  • 介绍IDS 检测方法的分类
  • 介绍基于异常的IDS 中使用的机器学习技术的分类方法
  • 介绍基于异常的IDS 的特征选择技术
  • 介绍基于异常的IDS 的集成学习技术
  • 讨论最先进的基于异常的特征选择和集成分类方法的未来方向

同时,本文会逐一解答以下几个问题来作为行文脉络:

  • RQ1. IDS使用的检测方法有哪些?
  • RQ2. 使用哪些评估工具来评估 IDS 的有效性?
  • RQ3. 有哪些数据集可用于基于异常的 IDS?
  • RQ4. 基于异常的IDS使用了哪些特征选择方法?
  • RQ5. 在基于异常的检测中,用于检测入侵的机器学习算法有哪些?
  • RQ6. 哪些集成技术被用于基于异常的 IDS?

3 IDS检测方法

入侵检测使用的检测方法主要分为四种:基于签名的、基于异常的、基于模版的和混合的

  • 在基于签名的检测中,当系统或网络操作与存储在 IDS 本地数据库中的威胁模式(称为签名)匹配时,IDS 会识别威胁,并会激活警报。基于签名的 IDS 在识别现有攻击方面是有效且高效的。然而,这种技术在识别0-day攻击和先前识别的攻击的新变种方面并不有效。
  • 基于异常的检测旨在预测要覆盖的系统“普通”模式,并在即将发生的行为和正常行为之间的差异达到预定阈值时发出异常警告。基于异常的检测方法的主要好处是它们能够识别以前未发现的攻击事件。然而,在基于异常的系统中,考虑到正式签名规范中可能存在的不准确性,误报率(FP)或错误定义为攻击的比率通常高于基于签名的方法。
  • 对于基于模版的检测方法,人类专家手动构建所需的模板,该模板由一系列规则(规范)组成,旨在评估设备的有效行为。如果参数足够准确,则模板可以识别非法行为模式。此外,误报率降低,主要是因为以前未观察到的良性行为在此类系统中未被标记为入侵。
  • 混合检测方法旨在利用每种入侵检测方法的优势,最大限度地减少它们的弱点并建立强大的模式来检测入侵。混合检测的一个常见例子是基于密钥签名的检测系统与附加的基于异常的模型相结合。这种在“混合 NIDS” 中集成两种形式的检测策略旨在提高基于签名的入侵检测模型的最终准确性,同时消除基于网络的 IDS(NIDS)通常的高水平误报,因此大多数现有平台都采用混合方法。

下表展示了 IDS 研究人员使用的检测方法类型。从表中可以明显看出,基于特征和基于模版的检测方法没有利用特征选择和集成分类器来检测入侵,而基于异常的检测则同时利用了它们。NSL-KDD 数据集是基于这篇评论文章的最常用的数据集。

4 基于异常的 IDS 中的机器学习方法

作者在本节对每一种方法进行了详细展开,分别介绍了ANN、MLP、KNN等方法在先前工作的具体应用,这里就不展开了。总体分类图如下:

5 特征选择技术

特征选择(FS)是一种去除不必要和冗余特征并选择最合适的特征子集的方法,这将导致对属于各种攻击类别的模式进行更好的分类。FS 不仅可以显着提高检测的准确性,还可以显着提高计算效率,其中: a) 不相关或冗余的特征会导致检测率差和过拟合,因此减少它们可以提高检测精度; b)每个数据点的更多特征会导致更高的计算成本和复杂性——减少不相关的特征将提高计算效率。 FS 的方法通常分为Filter、Wrapper和Optimization-based的方法。

  • Filter:过滤器方法使用不同的信息论和数学公式进行特征选择。由于它们的简单性,排序方法被使用并且在实际应用中具有良好的性能。变量的评级基于公认的排名标准,阈值用于消除刚好低于阈值的变量。
  • Wrapper:Wrapper 特征选择使用机器学习作为适应度函数,并确定所有特征子集的最佳特征子集。此问题公式允许将通用优化技术与机器学习一起使用,以根据其预测对特征子集进行排名。因此,在机器学习最终预测精度方面,Wrapper方法通常优于Filter方法。
  • Optimization-based:经典的Filter和Wrapper策略独立评估并选择子集,但是有些特征并不是独立的,但它们协同工作时才真正成功。因此这方面的经典策略并不是很成功。由于其在检测方面的巨大改进能力,基于元启发式的方法已经被用于选择和分类所选特征。基于优化的方法的示例是粒子群优化 (PSO)网络特征熵、遗传算法、蚁群优化和内核主成分分析(KPCA)等。

表 II 说明了上述特征选择方法的优缺点,表 III 总结了基于异常的 IDS 的特征选择方法,分别如下。



根据表III中的文章和下图的结果,表明近年来基于优化的方法主要用于特征选择。这种方法在特征数量方面有了很大的改进。根据调查,研究人员主要使用 NSL-KDD 数据集来证明他们的模型。此外,一些研究利用不同的数据集来突出其解决方案的通用性,例如 Kyoto2006+、ISCX 2012、UNSW-NB15 和 CIC-IDS2017。

作者认为目前的特征选择方法存在着一些局限性:

  • 尚未建立各种数据集的最佳检测方法或策略
  • 缺乏适当的特征子集,无法以最少的计算量进行更快的训练,并在以高精度和更少的误报检测入侵方面具有最佳性能

6 集成学习技术

三种广泛使用的集成模型是 bagging、boosting 和 stacking,作者在本节分别对这三种技术的应用做了回顾,本文不详细展开。
作者总结了先前工作提出的检测方法以及其对应的优缺点,如下表所示:

常见的数据集在过去的论文中的使用频率如下:

7 总结

本文回顾了用于基于异常的入侵检测系统的特征选择和集成方法的研究,讨论了 IDS 的主要挑战,即基于异常的 IDS 的特征降维,减少了数据集中不相关的属性;以及如何构建适当的特征子集选择,以便通过提高性能指标来更好地检测入侵。因此,该研究对特征选择方法进行了分类和讨论,并展示了它们在检测准确性方面的表现。基于异常的 IDS 的另一个重要挑战在于在检测过程中使用合适的机器学习算法。为了说明它们在提高 IDS 性能方面的有效性,本文对各种机器学习模式进行了回顾和分类,并讨论了它们在 IDS 中的应用,强调了集成方法作为基于异常的 IDS 的新兴趋势。

本文总结了如何提高基于异常的 IDS 的性能的两点:

  • 基于优化的特征选择与出色的组合并且调整好参数将为 IDS选择合适的特征子集。通过这项研究,很明显基于优化在设计最优特征集方面具有显着的性能。此外,如果调整好它们的参数,可以显着增强特征选择。
  • 不同类型分类的集成检测可以增强检测阶段的能力,降低误报率。

本文也存在一些局限性:

  • 本文侧重于基于异常的 IDS 的特征选择和集成检测
  • 本文没有关注到 IDS 使用的性能参数
  • 本文没有深入研究IDS数据集的特征,攻击类型等

8 未来可能的工作

  • 基于异常的 IDS 数据集在性能评估方面具有至关重要的影响。就目前而言,有必要利用更新的数据集来说明所提出的解决方案适用于新的攻击类型。尽管 KDD Cup 99 是大多数研究人员用作基准比较的数据集,但攻击数据包甚至特征都是 20 年前的。此外,研究人员可以将他们的模型部署在不同的基于异常的 IDS 数据集上,以证明他们的模型检测不同攻击的通用性。
  • 找到合适的特征选择模式在基于异常的IDS中起着重要作用。基于优化的特征选择旨在从不同领域的所有特征中获取最优的特征子集。可以考虑新的基于优化的特征选择方法并应用在基于异常的 IDS 中。
  • 集成方法允许模型或算法进行多种组合。在实现中,通常利用部分数据集构建各种分类模型后,将各种分类器结果合并形成最终结论。可以为分类器的生成和集成的组合提供不同的方案。

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
乘风的头像乘风管理团队
上一篇 2022年5月16日
下一篇 2022年5月16日

相关推荐