特征选择

从所有提取的特征中选择一些特征作为训练集特征。特征可以在选择前后改变值，但是选择后的特征维度肯定比选择前要小。毕竟，我们只选择了特征的一部分。

主要方法（三大武器）：Filter(过滤式):VarianceThreshold

Embedded(嵌入式)：正则化、决策树

Wrapper(包裹式)

特征选择原因：

冗余：一些特征高度相关，容易消耗计算性能

噪声：某些特征对预测结果有负面影响

sklearn特征选择API

sklearn.feature_selection.VarianceThreshold

数据降维（PCA主成分分析）

本质：PCA是一种分析、简化数据集的技术

目的：压缩数据维度，尽可能降低原始数据的维度（复杂度），损失少量信息。

作用：可以减少回归分析或聚类分析中的特征数量

数据降维API

sklearn. decomposition

机器学习基础

（1）核心和基础

算法是核心，数据和计算是基础

（2）找准定位

大多数复杂模型的算法设计都是由算法工程师完成的，我们

分析大量数据

分析具体业务

应用常用算法

特征工程、调优、优化

（3）数据类型：

离散数据：记录不同类别的个体数量得到的数据，也称为计数数据，所以这些数据都是整数，其准确性不能再细分或进一步提高。

连续数据：变量可以取一定范围内的任意数字，即变量的值可以是连续的，比如长度、时间质量等。这类整数通常是非整数，包含小数部分；

备注：离散型在区间内不可分，连续型在区间内可分

机器学习开发流程

机器学习模型（算法+数据）

定义：输入值通过映射关系到输出值

机器学习算法的分类

监督学习（特征值+目标值）

监督学习（英语：Supervised learning），可以由输入数据中学到或建立一个模型，并依此模式推测新的结果。输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值（称为回归），或是输出是有限个离散值（称作分类）。

分类（离散型）： k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络

概念：分类是监督学习的核心问题。在监督学习中，当输出变量取有限个离散值时，预测问题就变成了分类问题。最基本的是二分类问题，即判断对错，选择二分类之一作为预测结果；

应用：分类就是根据数据的特点对数据进行“分类”，因此在很多领域都有广泛的应用

• 在银行业务中，构建一个客户分类模型，按客户按照贷款风险的大小进行分类

•

• 图像处理中，分类可以用来检测图像中是否有人脸出现，动物类别等

•

• 手写识别中，分类可以用于识别手写的数字

•

• 文本分类，这里的文本可以是新闻报道、网页、电子邮件、学术论文

•

• …

回归（连续）：线性回归、岭回归

概念：回归是监督学习中的另一个重要问题。回归用于预测输入变量和输出变量之间的关系，输出是一个连续值。

应用：回归在很多领域也有广泛的应用

• 房价预测，根据某地历史房价数据，进行一个预测

•

• 金融信息，每日股票走向

标签：隐马尔可夫模型（非必需）

无监督学习（特征值）

无监督学习（英语：Supervised learning），可以由输入数据中学到或建立一个模型，并依此模式推测新的结果。输入数据是由输入特征值所组成。

聚类： k-means

sklearn数据集与估计器

数据集分区

机器学习一般的数据集会划分为训练集、测试集（分配比例：75% : 25%）：

训练集：用于训练、建立模型

测试集：在模型测试时用来评估模型是否有效

sklearn数据集接口

数据集划分API：sklearn.model_selection.train_test_split

sklearn分类数据集

sklearn回归数据集

转换器和估算器

sklearn机器学习算法的实现-转换器

文章出处登录后可见！

已经登录？立即刷新

机器学习基础二