机器学习期中考试

1、使用KNN算法对两个未知类型的样本进行分类(冰川水或者湖泊水),其中K=3,即选择最近的3个邻居。(20分)
样本	Ca+浓度	Mg+浓度	Na+浓度	Cl-浓度	类型A	0.2	0.5	0.1	0.1	湖泊水B	0.4	0.3	0.4	0.3	冰川水C	0.3	0.4	0.6	0.3	湖泊水D	0.2	0.6	0.2	0.1	湖泊水E	0.5	0.5	0.1	0	冰川水F	0.3	0.3	0.4	0.4	冰川水G	0.3	0.3	0.1	0.2	?冰川水H	0.1	0.4	0.2	0.2	?湖泊水

学生答案:
解:
机器学习期中考试
机器学习期中考试
G的三个最近的邻居为B,F,A,因此G的分类为冰川水
机器学习期中考试
机器学习期中考试
H的三个最近的邻居为A,D,F,因此H的分类为湖泊水
2、使用CART决策树算法对两个未知类型的样本进行分类。(使用ID3决策树算法对两个未知类型的样本进行分类。)(20分)
Ca+浓度	Mg+浓度	Na+浓度	Cl-浓度	类型低	高	高	高	冰川水高	低	高	高	冰川水低	高	低	低	冰川水高	高	低	低	冰川水低	低	低	低	湖泊水高	低	低	低	湖泊水低	高	高	低	湖泊水高	低	高	低	湖泊水低	高	高	低	?湖泊水高	高	低	高	?冰川水

CART算法:
对样本集S,计算其在各个属性划分上的基尼指数。
1)
机器学习期中考试
2)
机器学习期中考试
3)
机器学习期中考试
4)
机器学习期中考试
Cl-浓度属性的基尼指数最小,将Cl-浓度属性作为第一个划分属性,将集合S划分为以下两个子集:
S1(高):
Ca+浓度	Mg+浓度	Na+浓度	类型低	高	高	冰川水高	低	高	冰川水

S2(低):
Ca+浓度	Mg+浓度	Na+浓度	类型低	高	低	冰川水高	高	低	冰川水低	低	低	湖泊水高	低	低	湖泊水低	高	高	湖泊水高	低	高	湖泊水

对样本集S1,所有样本均属于同一类型:冰川水。
对样本集S2,计算其在各个属性划分上的基尼指数:
1)
机器学习期中考试
2)
机器学习期中考试
3)
机器学习期中考试
可以看出Gini(S2,Mg+浓度)最小,所以应该选择Mg+浓度属性作为测试属性。
Mg+浓度属性将样本集划分为两个子集:
1)S21
Ca+浓度	Na+浓度	类型低	低	冰川水高	低	冰川水低	高	湖泊水

2)S22
Ca+浓度	Na+浓度	类型低	低	湖泊水高	低	湖泊水高	高	湖泊水

对样本集S21,计算其在各个属性划分上的基尼指数:
1)
机器学习期中考试
2)
机器学习期中考试
可以看出Gini(S2,Na+浓度)最小,所以应该选择Na+浓度浓度属性作为测试属性。
Na+浓度属性将样本集划分为两个子集, 并且各个子集中的样本都属于同一个类型。

对样本集S22,所有样本均属于同一类型湖泊水。
决策树构造完毕,如下图所示。
在这里插入图片描述

图1 选择Na+浓度作为节点
由上面决策树,得第一个待识别样本类型为湖泊水;第二个待识别样本类型为冰川水。
3、如下表所示的数据集,其在二维空间中的分布情况如图1所示,用户输入ε=1,MinPts=5,采用DBSCAN算法对表中数据进行聚类。(20分)
序号	属性1	属性2	序号	属性1	属性21	1	0	7	4	12	4	0	8	5	13	0	1	9	0	24	1	1	10	1	25	2	1	11	4	26	3	1	12	1	3

第一类:{1,3,4,5,10}
第二类:{2,6,7,8,11}

4、已知数据集如表1所示,使用朴素Bayes算法预测气候状况为雨天,高温,湿度中等。微风时,是否适合户外运动?(20分)
表1 数据集信息
天气情况x1	温度情况x2	湿度情况x3	风力情况x4	户外运动Y晴朗	高	大	微风	不适合n晴朗	高	大	强风	不适合n阴天	高	大	微风	适合y下雨	中	大	微风	适合y下雨	低	中等	微风	适合y下雨	低	中等	强风	不适合n阴天	低	中等	强风	适合y晴朗	中	大	微风	不适合n晴朗	低	中等	微风	适合y下雨	中	中等	微风	适合y

解:
即求X={下雨,高,中等,威风}的户外运动为可以的后验概率P(Y=y|X)和为不可以的后验概率P(Y=n|X)两者值中较大者为X的预测值。
根据Bayes定理,
机器学习期中考试
这里,机器学习期中考试
机器学习期中考试
机器学习期中考试
机器学习期中考试
$P(Y=y)= 6/10 $
因此,机器学习期中考试
同理,计算机器学习期中考试
其中,
机器学习期中考试
机器学习期中考试
机器学习期中考试
机器学习期中考试
机器学习期中考试
因此,机器学习期中考试
因为机器学习期中考试,故气候状况为雨天,高温,湿度中等,微风时,户外运动应为适合。

5、假如空间中的五个点{A,B,C,D,E},各点之间的距离关系如表2所示,设初始聚类中心点为{A,B},根据所给的数据对其运行K-中心点算法实现第一次迭代后的聚类划分结果及相应的两个中心点(K=2)。(20分)
样本点 A B C D E
A 0 1 2 3 4
B 1 0 3 5 2
C 2 3 0 1 4
D 3 5 1 0 6
E 4 2 4 6 0

根据已知条件,当两个初始中心点为{A,B}时,所得划分为{A,C,D}和{B,E}。
第一次迭代:
假定中心点{A,B}分别被非中心点{C,D,E}替换,根据K-中心点算法需要计算下列代价:机器学习期中考试机器学习期中考试机器学习期中考试。其中机器学习期中考试表示中心点A被非中心点C代替后的总代价。下面以机器学习期中考试为例说明计算过程。
当A被C代替后,看各对象的变化情况。
A:因A离B近,机器学习期中考试
B:B不受影响,机器学习期中考试
C:机器学习期中考试
D:机器学习期中考试
E:机器学习期中考试
于是,机器学习期中考试。同理,可以计算出:机器学习期中考试
选取最小代价,有两种选择。
选取机器学习期中考试为最小代价时,则两个中心点为{B,C},样本被重新划分为{ A,B,E}和{C,D}两个簇。
选取机器学习期中考试为最小代价时,则两个中心点为{B,D},样本被重新划分为{ A,B,E}和{C,D}两个簇。

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
青葱年少的头像青葱年少普通用户
上一篇 2023年2月25日 下午9:42
下一篇 2023年2月25日 下午9:43

相关推荐