毕业设计-基于深度学习的网络流量异常检测系统

前言

📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学来说是充满挑战。为帮助大家顺利通过和节省时间与精力投入到更重要的就业和考试中去,学长分享优质的选题经验和毕设项目与技术思路。

🚀对毕设有任何疑问都可以问学长哦!

选题指导: https://blog.csdn.net/qq_37340229/article/details/128243277

大家好,这里是海浪学长毕设专题,本次分享的课题是

🎯毕业设计-基于深度学习的网络流量异常检测系统

课题背景和意义

随着科技的发展，互联在世界范围内越来越普及，逐渐成为人类活动中的基础设施。网络在人们的生活与经济发展中都扮演着重要作用。截止至 2020 年 12 月，据《中国互联网发展状况统计报告》的调查显示，中国网民数量超过 9 亿大关，达到了 9.8899 亿的规模，占全国人口的 70.4%。互联网因为开放性、传递性、自由性和共享性在全世界范围内被广泛接受和应用于生活中，也正因为开放性和自由性给网络空间带来巨大的安全隐患。近年来网络安全事件呈现逐年增长的趋势，给网络安全和网络秩序造成了巨大威胁，同时也给社会造成了巨大的经济损失。2013 年，“棱镜门”事件被公之于众，表明我国的网络安全常年受到美国网络攻击的严重威胁。在当前设计一套网络流量入侵检测系统同时满足高准确性和低系统延时的需求来应对日益增多的网络攻击问题，为用户提供一个具备安全性与稳定性的网络环境，已经成为一个在网络安全领域十分重要的课题。

实现技术思路

一、相关技术与理论介绍

入侵类型介绍

1、拒绝服务攻击

拒绝服务攻击 (Denial of Service Attacks,Dos Attacks) 是黑客向服务器发送大量垃圾数据流量，以达到占用目标服务器的带宽和链接请求的目的。

2、远程用户攻击

远程用户攻击 (Remote to Local Attacks, R2L) 指的远程机器非法访问本地机器的攻击。攻击者利用目标主机本地一组漏洞获得一些非法的访问权限。

3、提权攻击

提权攻击 (User to Root Attacks, U2L) 通常指的是攻击者利用一组漏洞，让无特权的的用户得到目标主机的 root 权限，root 权限是计算机的最高权限。

4、探测攻击

探测攻击 (Probe)，它的主要目的是利用特定是手段和方式搜集目标主机的属性和信息。

网络流量异常检测技术分类

1、基于数理统计的网络流量异常检测

基于数理统计的网络流量异常检测方法会对每个被检测的对象生成一个当前活动简档和历史活动简档。活动简档记录着每个对象日常行为记录，包括监控对象的网络流量审计数据的分布信息、监控对象的活跃度等。

2、基于数据挖掘的网络流量异常检测

基于数据挖掘的网络流量异常检测方法是建立在大量的数据基础上，通过分析或者建模等手段，将数据之中潜在规则或者隐藏的模式给挖掘出来。一些经典常用的算法包括基因算法、归纳规则算法等。

3、基于机器学习的网络流量异常检测

在机器学习领域，传统机器学习算法和深度学习算法是两个更加具体的分支。在过去的很长一段时间里，大量的研究都集中在传统机器学习算法中，目前已经存在许多经典且十分优秀的算法，相关的理论也十分完备，因此传统机器学习在网络流量异常检测领域已经积累了大量的研究和应用实践经验

传统机器学习常见模型

1、逻辑回归

回归任务指的是预测值为一个连续值，如房价预测、温度预测等都属于回归任务。逻辑回归虽然名称中含有” 回归” 二字，但是逻辑回归是属于二分类算法，广义上是属于线性回归模型。逻辑回归由于其简单、高效和具有较强的可解释性的特点被广泛应用于工业界。逻辑回归的函数形式如公式所示。

2、支持向量机

支持向量机 (Support Vector Machine, SVM) 与逻辑回归模型一样，也是一个二分类模型。逻辑回归的本质是寻找一个超平面将样本划分成两个不同类别，而 SVM 同样是学习一个超平面将样本划分成两个类别，但是在求解这个超平面的时候需要满足“间隔最大化”的约束条件。

在最大间隔距离 margin 可以由公式表示。为了使得 margin 最大化，相当于最小化 ∥W∥。

同时考虑到约束条件，如公式所示。

那么求解 SVM 的的问题可以转化为求解公式，即求解目标函数 J(W) 的最优解。公式可以理解为在两个约束条件下求参数 W 的最优解，在高等数学中可以使用拉格朗日乘数法求解。

3、随机森林

随机森林 (Random Froest, RF) 是一种基于 bagging的经典算法，同时也是一种集成算法。由于其具备较高的准确性和泛化性，已经被广泛应用于各种回归任务与分类任务中。

4、LightGBM

LightGBM 是微软提出的一种基于 GBDT 的算法，同时也是一种 boosting[41] 算法。该算法主要解决的是 GBDT 在海量数据中训练速度慢的问题。

深度学习理论基础

1、感知机理论

感知机 (Perceptron Learning Algorithm, PLA)是神经网络的基础，因其能简单的模拟人脑的电信号，所以又被称为“人工神经元”。

感知机的输入可以接收多个信号，输出为一个信号。感知机的信号只有 0 或者 1，分别对应物理意义为不传递信号和传递信号。如图：

在整个计算过程中，每个输入与权重相乘，下一个神经元会计算传递到当前信号的总和，即 y = x1 ∗ w1 + x2 ∗ w2。当这个总和超过一定阈值，则输出 0，反之输出 1。对应的数学公式如所示。

2、激活函数

多层感知机本质上是一种多重的线性变换，不具备非线性表达能力。因此加入激活函数能够让多层感知机具备非线性的表达能力。下面具体介绍 4 种激活函数：Sigmoid、 Tanh、Relu 和 LeakyRelu。

①Sigmoid

公式是 Sigmoid 的数学表达式

其图像如图所示。

②Tanh

公式是 Tanh 的数学表达式

其图像如图所示。

③Relu

激活函数的数学表达公式如公式所示

其图像如图所示

④LeakyRelu

LeakyRelu是一种在 Relu 基础上改进的激活函数。Relu 属于非饱和型一类中的激活函数，当 x>0 时，梯度与 x 正相关，梯度一直会保持在一个健康的状态。然而当 Relu 激活函数在 x<0 的部分，函数的梯度始终保持为 0，在这种情况下由于梯度始终为 0，那么参数无法更新，造成神经元失活的问题。

3、Dropout

深度神经网络模型越复杂，参数量也会增多，增加了模型在训练过程中过拟合的风险。过拟合问题指的是在训练集和测试集基本保证独立同分布的情况下，在训练过程中，模型在训练集上的损失不断降低，相关指标在不断优化，而在测试集上的相关指标变得越来越差，这说明模型已经过拟合了。

4、批归一化

批归一化 (Batch Normalization，BN) 的提出主要是用于解决协变量偏移的问题。BN 的思路主要思路是在每次迭代的过程中，针对每一批次的数据，将每个特征的分布变成均值为 0，方差为 1 的分布。