数据预处理的常见方法

数据预处理

定义内涵

用户从多种渠道收集的数据可能包含噪音,或是存在不一致、不完整等问题,无法直接
进行训练。为了提高数据的质量,在将数据交给模型训练之前,需要对数据预处理。数据预
处理是指在数据分析
之前,对数据进行的清洗、筛选、转换、特征选择和提取等一系列必要处理操作的过程。

技术背景

数据预处理的常见方法有数据清洗、数据转换、特征选择、数据降噪和数据增强。
数据清洗通常是指对收集得到的数据集通过丢弃重复数据、补全缺失数据、异常值处理
SecXOps 安全智能分析技术白皮书
022
等方式,清洗掉数据集里的脏数据,完成清洗过程。数据清洗旨在提高数据质量,数据清洗
的效果会直接影响到后续数据分析、模型预测的效率和准确率。
数据转换是将数据从一种形式转变为另一种形式的数据预处理方法。由于数据源的多样
性、数据的异构性、数据分析的要求等各种原因,在进行数据集成和管理之前,需要对数据
进行转换。数据转换根据需求对数据进行类型转换、语义转换、粒度转换、离散化、数据压
缩等操作,转换方式有平滑处理、泛化处理、合计处理、规格化处理等。
特征选择旨在筛选出给定数据集中与当前机器学习任务有关的特征。复杂数据中存在大
量特征,并非所有特征对模型任务都是有用的,去除不相关的特征能节省计算和存储开销,
降低过拟合风险,提高模型性能。常见的特征选择算法分为过滤法、包裹法和嵌入法,不同
的算法根据不同的观察变量和特征评分规则对特征进行筛选。
数据降噪对数据集中的噪声进行移除。噪声在实际数据中无法避免,噪声的存在会对模
型产生误导。常使用的数据降噪方法有聚类、降维、回归等。
数据增强旨在扩充有限的数据,增加训练样本的数量和多样性,进而提高模型的泛化能力。
根据在机器学习流程中适用的阶段,数据增强分为离线增强和在线增强,其中离线增强直接
对数据集采取增强操作,在线增强在获得批量数据后,对批量数据进行增强。常见的数据增
强方案有 AugMix[8],CutOut[9],MoEx[10],MaxUp[11],Mixup[12],CutMix[13] 等

参考资料

绿盟SecXOps安全智能分析技术白皮书

友情链接

教育部关于加强新时代教育管理信息化工作的通知 2021

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
心中带点小风骚的头像心中带点小风骚普通用户
上一篇 2023年2月25日 下午4:40
下一篇 2023年2月25日 下午4:41

相关推荐