机器学习之数据分析与特征工程

通过七月在线(online)的限免课程,学习了数据分析与特征工程(Feature Engineering),记录一下学习的过程供日后回顾

  1. 问题与建模
    首先需要明确要解决的问题:回归(Regression)?分类?根据要解决的问题进行建模。
    建模流(stream)程为:识别问题,理解数据,数据预处理,建模与评估。
    建模流(stream)程

    具体的任务有具体的解决方案与建模流(stream)程
    在这里插入图片描述
  2. 数据分析与处理
    案例:根据房屋出租信息预测房屋热度。
    该案例是一个有监督问题(有训练集(有标签),有测试集),是一个三分类问题
    考虑:什么是热度?(被查询/点击的次数)。什么影响热度?
    在这里插入图片描述

    数据集(Dataset)示例:
    在这里插入图片描述

    统计分布(Distribution),判断离群点与数据分布(Distribution)详情
    在这里插入图片描述
    具体方法,绘制柱状图或直方图(pyplot)或pandas的describe()函数。
    注:数据左偏,可以取log,使其接近正态分布(normal distribution)(Distribution)

文本类型数据:云图显示更好

在这里插入图片描述
绘图是为了更好的展示可视化,有很多基于matplotlib二次开发的绘图库。
总结:对数据处理分析及可视化,是为了在建模之前更好的理解数据之间的关系,并调整离群数据,从而更好的建模解决问题。

  1. 特征工程(Feature Engineering)
    类别特征:可分为两种类型:有序和无序
    类别特征编码(code)方式:

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述

    数值类型特征:是常见的连续特征,容易出现离群点和异常值
    在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    日期类型特征:
    在这里插入图片描述

    交叉特征:将两个字段交叉后构建一个新特征
    同类型:加减除,笛卡尔积
    不同类型:乘除
    聚合特征(先分组再聚合):同比,环比

  2. 模型训练与验证
    数据集(Dataset)按照使用用途可以划分为:
    训练集:模型巡练和参数更新
    测试集:验证模型精度
    验证集(validation set):进行模型验证与参数选择
    训练过程:过拟合(Overfitting)与欠拟合(Underfitting)

    在这里插入图片描述

如想学习,请关注七月在线(online)第16期机器学习(machine learning)训练营,https://edu.csdn.net/learn/36190?spm=1002.2001.3001.4157

版权声明:本文为博主hacker_nevermor原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

原文链接:https://blog.csdn.net/qq_42932667/article/details/121444353

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
xiaoxingxing的头像xiaoxingxing管理团队
上一篇 2021年11月23日 上午8:05
下一篇 2021年11月23日 上午8:39

相关推荐