站点图标 AI技术聚合

机器学习问题汇总(回归+聚类)

Table of Contents

回归

  1. L1和L2正则化的区别

正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或惩罚项。正则化项是模型复杂度的单调递减函数,模型越复杂,正则化值就越大。

正则化一般具有如下形式:
机器学习问题汇总(回归+聚类)
其中,第1项是经验风险,第2项是正则化项,为调整两者之间关系的系数。

正则化可以是参数向量的范数:

正则化可以是参数向量的范数:

损失函数的好处:
鲁棒性更强,对异常值更不敏感。
损失函数的好处:
计算方便,可以直接求导获得取最小值时各个参数的取值。

  1. Loss Function有哪些,怎么用?

统计学习常用的损失函数有以下几种:
1)0-1损失函数

3)绝对损失函数

4)对数损失函数或对数似然损失函数

  1. 线性回归的表达式

线性模型用向量形式写成

  1. 线性回归的损失函数

损失函数:

  1. 哪些传统的回归机器学习模型

线性回归、岭回归、套索回归

聚类

  1. DBSCAN原理

几个概念的定义:
1)邻域:对,其邻域包含样本集中与的距离不大于的样本,即
2)核心对象:若邻域至少包含个样本,即,则是一个核心对象
3)密度直达:若位于邻域中,且是核心对象,则成密度直达
4)密度可达:对,若存在样本序列,其中密度直达,则称密度可达
5)密度相连:对,若存在使得均由密度可达,则称密度相连。

1)DBSCAN通过检查数据集中每点的来搜索簇,如果点p的邻域包含的点多于个,则创建一个以p为核心对象的簇。
2)然后,DBSCAN迭代地聚集从这些核心对象直接密度可达的对象,这个过程可能涉及一些密度可达簇的合并。
3)当没有新的点添加到任何簇时,该过程结束。

  1. DBSCAN算法伪代码

  1. DBSCAN的优缺点

优点:
基于密度定义,相对抗噪声,能处理任意形状和大小的簇
缺点:
1)当簇的密度变化太大时,会有麻烦
2)对于高维问题,密度定义是个比较麻烦的问题

  1. k-means算法流程

  1. KMeans原理

给定样本集,“k-均值”算法针对聚类所得簇划分最小化平方误差:

其中是簇的均值向量。

上式在一定程度上刻画了簇内样本围绕簇均值向量的紧密程度,值越小则簇内样本相似度越高。

  1. KMeans的K怎么确定

1)肘部法
肘部法所使用的聚类评价指标:
数据集中所有样本点到其簇中心的距离之和的平方,肘部法选择的是误差平方和突然变小时对应的值。

2)轮廓系数
对于第个对象,计算它到簇中所有其他对象的平均距离,记作
对于第个对象和不包含该对象的任意簇,计算该对象到给定簇中所有对象的平均距离,关于所有的簇,找出最小值,记作

样本点的轮廓系数:

轮廓系数越接近于1,聚类效果越好。

  1. Kmeans的优缺点

优点:
1)算法简单
2)适用于球形簇
3)二分k均值等变种算法运行良好,不受初始化问题的影响
缺点:
1)不能处理非球形簇、不同尺寸和不同密度的簇
2)对离群点、噪声敏感

  1. DBSCAN与k-means比较

1)k均值聚类是基于划分的聚类,DBSCAN是基于密度的聚类
2)k均值聚类需要指定聚类簇数k,并且初始聚类中心对聚类的影响很大。DBSCAN对噪声不敏感,需要指定邻域距离阈值,可以自动确定簇个数
3)k均值很难处理非球型的簇和不同尺寸的簇,DBSCAN可以处理不同尺寸或形状的簇,不太受噪声、离群点的影响。但是面对不同密度的簇时,两种算法的性能都很差。

文章出处登录后可见!

已经登录?立即刷新
退出移动版