一、单选
1、当在一个决策树中划分一个节点时,以下关于“信息增益”的论述正确的是( C )
1.较不纯的节点需要更多的信息来描述总体
2.信息增益可以通过熵来推导
3.信息增益偏向于选择大量值的属性
A、1
B、2
C、2和3
D、所有都对
杂质是指基尼指数
信息增益是节点划分前后熵的差异,差异越大越好
纯度高的节点需要较少的信息描述,不纯的节点需要更多的信息描述。
2、有关机器学习算法,以下说法中不正确的是:( D )
A、之所以说监督学习和无监督学习之间并不存在一条严格的界限,是因为很难客观地区分监督者给定的一个值是特征(feature)还是目标(target)。
B、当深度学习网络的最后一层是一个softmax分类器时,我们可以把网络的前面部分看成是一种表示学习(Representation Learning)的计算单元。
C、一个聚类算法将样本分成k个不同的聚类(cluster),从另一个角度说,这个聚类算法其实是为样本中的每一个实例提供了一种k维的one-hot编码方式
D、随机梯度下降(Stochastic Gradient Descent)算法是用小规模的样本近似估计梯度的方法,适合在大规模数据上训练深度神经网络,但在逻辑回归、SVM等算法中的作用很有限。
SGD是单个样本,mini-batch GD是小批量
3、设f(x)在x0可导,则
4、以下属于生成式模型的是:( C )
A、SVM
B、随机森林
C、隐马尔可夫模型HMM
D、逻辑回归
常见的生成式模型有 隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA等
5、假设随机变量X与Y都服从正态分布,且N(0,δ2),且P(x≤1,Y≤-1)=1/4,则P(x>1,Y>-1)的值是(A)
A、1/4
B、2/5
C、2/4
D、3/4
6、类域界面方程法中,不能求线性不可分情况下分类问题近似或精确解的方法是?( B )
A、伪逆法
B、感知器算法
C、基于二次准则的H-K算法
D、势函数法
伪逆法:径向基(RBF)神经网络的训练算法,径向基解决的就是线性不可分的情况。
感知器算法:线性分类模型。 (它适用于线性可分和非线性可分的情况)
H-K算法:在最小均方误差准则下求得权矢量,二次准则解决非线性问题。
势函数法:势函数是非线性的。
7、Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是:( C )
A、各类别的先验概率P©是相等的
B、以0为均值,sqr(2)/2为标准差的正态分布
C、特征变量X的各个维度是类别条件独立随机变量
D、P(X|C)是高斯分布
朴素贝叶斯条件是每个变量相互独立
8、假设我们想估计A和B这两个参数,在开始状态下二者都是未知的,但如果知道了A的信息就可以得到B的信息,反过来知道了B也就得到了A。可以考虑首先赋予A某种初值,以此得到B的估计值,然后从B的当前值出发,重新估计A的取值,这个过程一直持续到收敛为止,该算法是( C )的算法思想。
A、极大似然法
B、朴素贝叶斯分类器
C、EM算法
D、贝叶斯决策论
EM是一种迭代式的方法,它的基本思想就是:若样本服从的分布参数θ已知,则可以根据已观测到的训练样本推断出隐变量Z的期望值(E步),若Z的值已知则运用最大似然法估计出新的θ值(M步)。重复这个过程直到Z和θ值不再发生变化。
9、
A、(-∞,+∞)
B、(-∞,0)
C、(0,+∞)
D、没有单调递增区间
求导,令导数为零。一阶导大于0即单调递增
10、二分类任务中,有三个分类器h1,h2,h3,三个测试样本x1,x2,x3。假设1表示分类结果正确,0表示错误,h1在x1,x2,x3的结果分别(1,1,0),h2,h3分别为(0,1,1),(1,0,1),按投票法集成三个分类器,下列说法正确的是( A )(注:0,1不是类别标签,而是模型预测结果是正确还是错误的意思)
A、集成提高了性能
B、集成没有效果
C、集成降低了性能
D、集成效果不能确定
Classifier ensemble其实就是集成学习,通过构造和组合多个学习器来完成学习任务。大致的结构是:首先生成一组“个体学习者”,然后将它们与一些策略结合起来。组合策略主要包括平均法、投票法和学习法。这些策略使集成能够提高性能。
11、在测试一假设h时,发现在一包含n=1000个随机抽取样例的样本s上,它出现r=300个错误,计算Errors(h)的标准差( A )
A、0.0145
B、0.145
C、1.45
D、14.5
二项分布:300/1000=0.3
期望 np
方差 np(1-p) 1000×0.3×0.7=210
标准差 1/n *(np(1-p))^1/21/1000×210^1/2=0.0145
12、如下表是用户是否使用某产品的调查结果( C )
UID | 年龄 | 地区 | 学历 | 收入 | 用户是否使用调查产品 |
---|---|---|---|---|---|
1 | 低 | 北方 | 博士 | 低 | 是 |
2 | 高 | 北方 | 本科 | 中 | 否 |
3 | 低 | 南方 | 本科 | 高 | 否 |
4 | 高 | 北方 | 研究生 | 中 | 是 |
请计算年龄,地区,学历,收入中对用户是否使用调查产品信息增益最大的属性(Log23≈0.63)
A、年龄
B、地区
C、学历
D、收入
所有本科学历都不使用调查产品,所有非本科学历都使用了调查产品。这种可以确定的划分导致信息熵为0,信息增益最大。
信息增益:是指区分度。如果对于一个属性,其结果都是等概率出现的,即信息熵为1,信息增益为0,那么这个属性就没有任何区分度,无实际意义。就像本题中年龄一样,年龄高的的人是否接受调查的人都是1/2,年龄低的人是否接受调查的人也分别占1/2,那么年龄属性没有任何实际意义,有没有都一样了。
13、假定某同学使用贝叶斯分类模型时,由于失误操作,致使训练数据中两个维度重复表示。下列描述中正确的是:( B )
A、被重复的在模型中作用被加强
B、模型效果精度降低
C、如果所有特征都被重复一遍,则预测结果不发生变化
朴素贝叶斯的核心是它假设特征向量的所有分量都是独立的
14、均值移动(Mean Shift)算法的核心思想是:( B )
A、构建Hessian矩阵,判别当前点是否为比邻域更亮或更暗的点,由此来确定关键点的位置
B、找到概率密度梯度为零的采样点,并以此作为特征空间聚类的模式点
C、从每一个点开始作为一个类,然后迭代的融合最近的类。能创建一个树形层次结构的聚类模型
对于Mean Shift算法,是一个迭代的步骤,即先算出当前点的偏移均值,将该点移动到此偏移均值,然后以此为新的起始点,继续移动,直到满足最终的条件。
15、考虑如下数据集,其中Customer ID(顾客id),Transaction ID(事务id),Items Bought(购买项)。如果将每个事务id看成一个购物篮,计算项集{e}, {b, d}, {b, d, e}的支持度:( A )
Customer ID | Transaction ID | Items Bought |
---|---|---|
1 | 0001 | {a, d, e} |
1 | 0024 | {a, b, c, e} |
2 | 0012 | {a, b, d, e} |
2 | 0031 | {a, c, d, e} |
3 | 0015 | {b, c, e} |
3 | 0022 | {b, d, e} |
4 | 0029 | {c,d} |
4 | 0040 | {a, b, c} |
5 | 0033 | {a, d, e} |
5 | 0038 | {a, b, e} |
A、s({e}) =0.8 s({b, d})= 0.2 s({b, d, e})= 0.2
B、s({e}) =0.7 s({b, d})= 0.3 s({b, d, e})= 0.3
C、s({e}) =0.6 s({b, d})= 0.4 s({b, d, e})= 0.3
D、s({e}) =0.8 s({b, d})= 0.1 s({b, d, e})= 0.1
置信度计算规则为: 同时购买商品A和商品B的交易次数/购买了商品A的次数
支持度计算规则为: 同时购买了商品A和商品B的交易次数/总的交易次数
s({e}) =8/10=0.8 s({b, d})=2/10= 0.2 s({b, d, e}) = 2/10= 0.2
16、SPSS的界面中,以下是主窗口是( B )
A、语法编辑窗口
B、数据编辑窗口
C、结果输出窗口
D、脚本编辑窗口
17、下列关于线性回归说法错误的是( D )
A、在现有模型上,加入新的变量,所得到的R^2的值总会增加
B、线性回归的前提假设之一是残差必须服从独立正态分布
C、残差的方差无偏估计是SSE/(n-p)
D、自变量和残差不一定保持相互独立
- 样本是从总体中随机抽取的。
- 因变量Y在实直线上是连续的,
- 残差项是独立且相同分布的(iid),也就是说,残差是独立随机的,且服从高斯分布。
这些假设意味着残差项不依赖于自变量的值,所以 ε
i
和 自变量x(预测变量)之间是相互独立的。
在这些假设下,建立显式线性回归作为条件期望模型的简单线性回归,
可以表示为:E(Y
i
|X
i
=x
i
)=α +βx
i
;
18、关于朴素贝叶斯分类算法,描述正确的是:( A )
A、它假设属性之间相互独立
B、根据先验概率计算后验概率
C、对于给定的待分类项X={a1,a2,…,an},求解在此项出现的条件下各个类别 yi出现的概率,哪个P(yi|X)最大,就把此待分类项归属于哪个类别。
D、有最小错误率判断规则和最小风险判断规则
朴素贝叶斯定理体现了后验概率 P(y|x) 、先验概率 P(y) 、条件概率 P(x|y)之间的关系: P(y|x)=P(x|y)·P(y)/P(x)。朴素贝叶斯之所以叫“朴素”是因为它假设输入的不同特征之间是独立的。构建朴素贝叶斯分类器的步骤如下:
1、根据训练样例分别计算每个类别出现的概率P(yi)
2、对每个特征属性计算所有划分的条件概率P(xi|yi)
3、对每个类别计算P(X|yi)*P(yi)
4、选择3步骤中数值最大项作为X的类别yk。
19、目标变量在训练集上的7个实际值为[1,1,1,1,0,0,0],目标变量的熵近似值是(log3/7=-0.847,log4/7=-0.560)( A )
A、0.683
B、-0.683
C、0.724
D、-0.243
P(X=xi) = Pi
H(X) = -∑PilogPi
H(X) = -(3/7 log3/7 + 4/7 log4/7)=0.683
20、如果假设h在n=65的独立抽取样本上出现 r=10个错误,真实的错误率的90%的置信区间(双侧的,Z90=1.64)是( A )
A、0.16±0.073
B、0.16±0.73
C、1.6±0.073
D、1.6±0.73
样本数为:n=65,假设h在n个样本上所犯的错误为r=10,所以样本错误率为erros(h)= 10/65 = 2/13
error(h)的N%的置信区间为:
当N=90时,查数理统计得出:ZN= 1.64,可得真错误率的90%的置信区间为:
21、根据是否需要标注数据,机器学习方法可以分为有监督学习和无监督学习。监督学习中的训练集用于( B )
A、定量评价机器学习性能
B、估算模型
C、验证模型
D、定性评价机器学习性能
定量评价模型需要使用评价指标和数值进行评价。
估计模型需要使用训练集。
模型的验证需要使用测试集。
模型的定性评估需要使用: 模型的描述。
22、有关机器学习分类算法的Precision和Recall,以下定义中正确的是(假定tp = true positive, tn = true negative, fp = false positive, fn = false negative)( A )
A、Precision= tp / (tp + fp), Recall = tp / (tp + fn)
B、Precision = tp / (tn + fp), Recall = tp /(tp + fn)
C、Precision = tp / (tn + fn), Recall = tp /(tp + fp)
D、Precision = tp / (tp + fp), Recall = tp /(tn + fn)
1、精确度对应预测正确的占预测情况中正类(真正类+假正类)的比例;
2、召回率对应预测正确的占真实情况正类(真正类+假负类)的比例。
23、请在如下列表中,求出其最大子段和:( B )
i | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
---|---|---|---|---|---|---|---|---|
x[i] | 1 | 3 | -5 | 3 | -2 | 6 | -5 | 3 |
A、8
B、7
C、9
D、10
取其中的连续一段,求和。哪一段的和最大,哪一段就是最大子段,他的和就是最大子段和。456这一段的和是7,是最大子段和
24、优化问题
max 4×1+ 2×2+ 4×3+ 2×4+ x5+ x6
s.t。4×1+ 4×2+ 6×3+ 2×4+ 3×5+ 2×6<= 11
x1, x2, x3, x4, x5, x6∈{0,1}
的最优目标函数值为( B)
A、9
B、8
C、7
D、6
目标函数要max ,故讨论约束条件等于11 的条件。
因为只能取0,1,所以可以看一下如果这个数取0,相当于“损失”了多少,找出损失最小的组合就行了
目标:
4 2 4 2 1 1
健康)状况:
4 4 6 2 3 2
损失值为
0 2 2 0 2 1
损失最小就是1 0 0 0 1 1
25、关于支持向量机SVM,下列说法错误的是( C )
A、L2正则项,作用是最大化分类间隔,使得分类器拥有更强的泛化能力
B、Hinge 损失函数,作用是最小化经验分类错误
C、分类间隔为1/||w||,||w||代表向量的模
D、当参数C越小时,分类间隔越大,分类错误越多,趋于欠学习
分类间隔是2/||w||
26、下列算法常用于聚类的问题是( A )
A、k-means
B、逻辑回归模型
C、决策树模型
D、随机森林模型
k-means:k均值聚类算法,其随机选择k个点作为初始聚类中心,然后计算每个对象与k个点的距离并形成k个簇,每次计算都会重新计算聚类中心;
逻辑回归模型:拟合一条曲线,通常用于二元分类问题,以估计某事的可能性。注意这里的可能性不是指概率;
决策树模型:一种直观地使用概率分析的图形方法;
随机森林模型:包含多个决策树的分类器。
27、一监狱人脸识别准入系统用来识别待进入人员的身份,此系统一共包括识别4种不同的人员:狱警,小偷,送餐员,其他。下面哪种学习方法最适合此种应用需求:( B )
A、二分类问题
B、多分类问题
C、层次聚类问题
D、k-中心点聚类问题
E、回归问题
F、结构分析问题
28、下面关于Adaboost算法的描述中,错误的是( D )
A、AdaBoost模型是弱分类器的线性组合:
B、提升树是以分类树或者回归树为基本分类器的提升办法,提升树被认为是统计学习中最有效的办法之一
C、AdaBoost算法的一个解释是该算法实际上是前向分步算法的一个实现,在这个方法里,模型是加法模型,损失函数是指数损失,算法是前向分步算法。
D、AdaBoost同时独立地学习多个弱分类器
Adaboost算法的思想是在前一轮识别过程中识别错误的样本会在下一轮中提升权重,而那些识别正确的样本会降低权重。所以不是独立的学习弱分类器
29、EM算法是( B )
A、有监督
B、无监督
C、半监督
D、都不是
EM 算法通过逐步提高极大似然的下限,以此求出极大似然函数对参数的估计,为无监督算法
30、一般,k-NN最近邻方法在( B )的情况下效果较好。
A、样本较多但典型性不好
B、样本较少但典型性好
C、样本呈团状分布
D、样本呈链状分布
样本数少:kNN每次预测要计算距离,所以是带着整个样本集跑的(也有些剪辑近邻之类的会剪掉一些),所以样本数越少越好。
典型性:不仅是kNN,每个分类算法都希望样本典型性好,这样才好做分类。
31、关于机器学习算法正确的是( C )
A、LR模型在加入正则化项后Variance将增大
B、线性SVM是寻找最小边缘的超平面的一个分类器
C、xgboost和GDBT都是属于boosting算法
D、xgboost和随机森林都是属于bagging算法
A项加入正则化项方差应该减小,B项是间隔最大,D项只有随机森林属于bagging
32、在spss的基础分析模块中,作用是“以行列表的形式揭示数据之间的关系”的是( C )
A、数据描述
B、相关
C、交叉表
D、多重相应
spss中交叉分析主要用来检验两个变量之间是否存在关系,或者说是否独立,其零假设为两个变量之间没有关系。
在实际工作中,经常使用交叉制表来分析比例是否相等。例如,分析不同性别如何以不同的方式选择不同的报纸。
33、在对问题的解空间树进行搜索的方法中,一个结点有多次机会成为活结点的是:( B )
A、动态规划
B、回溯法
C、分支限界法
D、回溯法和分支限界法
分支边界是广度优先的,一旦成为扩展节点,其所有子节点都作为活节点(除了非最优解或不可行解的子节点,其余子节点都是新的活节点)
回溯方式是深度优先,可以回到这个节点,这个节点又变成了一个活节点扩展。
34、当不知道数据所处类别时,可以使用哪种技术促使同类数据与其他类数据分离( B )
A、分类
B、聚类
C、关联分析
D、隐马尔可夫链
35、以下几种模型方法属于判别式模型的有( C )
1)混合高斯模型
2)条件随机场模型
3)区分度训练
4)隐马尔科夫模型
A、1,4
B、3,4
C、2,3
D、1,2
根据公式
生成模型: 学习时先得到 P(x,y),继而得到 P(y|x)。预测时应用最大后验概率法(MAP)得到预测类别 y。
判别模型: 直接学习得到P(y|x),利用MAP得到 y。或者直接学得一个映射函数 y=f(x)。
直观地
生成模型:关注数据的生成方式
判别模型:关注类别之间的差异
- 生成模型
- 判别分析
- 朴素贝叶斯
- 高斯混合模型
- 隐马尔科夫模型(HMM)
- 贝叶斯网络
- Sigmoid Belief Networks
- 马尔科夫随机场(Markov Random Fields)
- 深度信念网络(DBN)
- 判别模型
- 线性回归(Linear Regression)
- K近邻(KNN)
- 逻辑斯蒂回归(Logistic Regression)
- 神经网络(NN)
- 支持向量机(SVM)
- 高斯过程(Gaussian Process)
- 条件随机场(CRF)
- CART(Classification and Regression Tree)
36、以下哪个表达式不可以转换成线性表达式?( D )
A、y = |x|
B、If x = 0, then y = 0
C、y = min(x1, x2)
D、y = x * x
37、考虑两队之间的足球比赛:队0 和队 1。假设65%的比赛队0胜出、P(Y=0)=0.65。剩余的比赛队1胜出、P(Y=1)=0.35。队0获胜的比赛中只有30%在队1的主场、P(X=1|Y=0)=0.3,而队1获胜的比赛中75%是主场获胜、P(X=1|Y=1)=0.75。则队1在主场获胜的概率即P(Y=1|X=1)为( A )
A、0.57
B、0.42
C、0.69
D、0.28
根据贝叶斯定理:P(Y = 1|X = 1) = P(X = 1|Y =1) * P(Y = 1)/P(X = 1)
根据全概率公式:P(X =1) = P(X = 1|Y = 1) * P(Y = 1) + P(X = 1|Y = 0) * P(Y = 0) = 0.75 * 0.35 + 0.3* 0.65 = 0.4575
所以队1取胜的概率P(Y = 1|X = 1) = 0.75 * 0.35/ 0.4575 = 0.5738
队0取胜的概率P(Y = 1|X = 0) = 1 – 0.5738= 0.4262
38、在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可用以下哪种方法直接进行参数估计( D )
A、EM算法
B、维特比算法
C、前向后向算法
D、极大似然估计
EM算法: 只有观测序列,无状态序列时来学习模型参数,即Baum-Welch算法
维特比算法: 用动态规划解决HMM的预测问题,不是参数估计
Forward-backward:用于计算概率
最大似然估计:即观察序列和对应的状态序列都存在时估计参数的一种监督学习算法
40、小王在经营健身器材店,其中A品牌羽毛球拍的年需求量为8,000。每个羽毛球拍每年的储存成本为2.50元,每次进货的固定成本为50元。若他每次卖完库存就去进货,他每次进货应该订购多少数量的A品牌的羽毛球拍(其它成本忽略不计)?( D )
A、238
B、239
C、293
D、283
41、解决隐马模型中预测问题的算法是( D )
A、前向算法
B、后向算法
C、Baum-Welch算法
D、维特比算法
评价问题:forward-backward算法是一种概率计算方法,即给定一个模型,通过寻找固定观测序列的概率评价模型来选择最优模型;
学习问题:Baum-Welch算法,模型参数估计,主要通过EM无监督(只有观测序列,对数似然评估)方法训练;
解码问题(预测问题):维特比算法,序列预测,给定一个模型和一个输出序列,找到最有可能产生输出序列的输入状态序列。
42、下面关于支持向量机(SVM)的描述错误的是( C )
A、是一种监督式学习的方法
B、可用于多分类的问题
C、是一种生成式模型
D、支持非线性的核函数
属于判别式模型,直接对条件概率p(y|x;θ)建模
43、EM算法(Exception Maximization Algorithm)是机器学习领域的一个经典算法,下面关于EM算法的表述中不正确的有( A )
A、EM算法属于一种分类算法
B、如果优化的目标函数是凸函数,那么EM算法一定能找到全局最优解
C、EM算法可以分为E-Step和M-Step两步
D、EM算法可用于从不完整的数据中计算最大似然估计
EM是聚类算法
44、在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题( D )
A、增加训练集量
B、减少神经网络隐藏层节点数
C、删除稀疏的特征
D、SVM算法中使用高斯核/RBF核代替线性核
过拟合的主要原因是:
1、训练数据不足,有限的训练数据
2、训练模型过度导致模型非常复杂,泛化能力差
选项D使得模型的复杂化,会充分训练数据导致过拟合
45、有两个样本点,第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是( C )
A、2x+y=4
B、x+2y=5
C、x+2y=3
D、以上都不对
46、bootstrap数据是什么意思?( C )
A、有放回地从总共M个特征中抽样m个特征
B、无放回地从总共M个特征中抽样m个特征
C、有放回地从总共N个样本中抽样n个样本
D、无放回地从总共N个样本中抽样n个样本
bootstrap统计抽样方法:有放回地从总共N个样本中抽样n个样本。
基于bootstrap,有以下常用的机器学习方法
- boosting
- bagging
- random forest(RF, 随机森林)
47、下面关于贝叶斯分类器描述错误的是(B)
A、以贝叶斯定理为基础
B、是基于后验概率,推导出先验概率
C、可以解决有监督学习的问题
D、可以用极大似然估计法解贝叶斯分类器
后验概率是从先验概率推导出来的,可以认为是事先已知的,而后验概率是事先未知的条件分布。
贝叶斯定理认为参数是未知的,需要找到参数,即固定参数
48、假如使用一个较复杂的脊回归模型 (Ridge Regression),来拟合样本数据时,通过调整正则化参数λ,来调整模型复杂度。当λ较大时,关于偏差(bias)和方差(variance),下列说法正确的是( C )
A、当λ增大时,偏差减小,方差减小
B、当λ增大时,偏差减小,方差增大
C、当λ增大时,偏差增大,方差减小
D、当λ增大时,偏差增大,方差增大
λ越大,对模型中参数的惩罚力度越大,因此会有更多的参数被训练为0,模型也就变得更加简单了。
模型复杂度越低,方差越小,但偏差越大。
49、下面有关序列模式挖掘算法的描述,错误的是( C )
A、AprioriAll算法和GSP算法都属于Apriori类算法,都要产生大量的候选序列
B、FreeSpan算法和PrefixSpan算法不生成大量的候选序列以及不需要反复扫描原数据库
C、在时空的执行效率上,FreeSpan比PrefixSpan更优
D、和AprioriAll相比,GSP的执行效率比较高
Apriori类算法包括: AprioriAll和 GSP等。
在序列模式挖掘中,FreeSpan和PrefixSpan是两个常用的算法。其中,PrefixSpan是从FreeSpan中推导演化而来的。这两个算法都比传统的Apriori-like的序列模式挖掘算法(GSP)都有效。
而PrefixSpan又比FreeSpan又更有效。这是因为PrefixSpan的收缩速度比FreeSpan还要更快些。
50、关于累加器,下面哪个是错误的( D )
A、支持加法
B、支持数值类型
C、可并行
D、不支持自定义类型
当然支持自定义,我们经常会用到map类型的自定义累加器
51、以下机器学习中,在数据预处理时,不需要考虑归一化处理的是:( C )
A、logistic回归
B、SVM
C、树形模型
D、神经网络
数值特征归一化方法有:线性函数归一化和零均值归一化
需要梯度下降求解的模型需要对数值特征进行归一化处理:如线性回归、逻辑回归、支持向量机、神经网络模型。 (原因:随机梯度下降时,特征值差异较大,会导致更新速度较慢,需要考虑特征值较小的特征)
无需特征归一化:决策树模型,决策树模型根据信息增益进行拆分,与特征归一化无关。
神经网络对数据分布没有要求,但是归一化可以加快训练数据的速度;
52、一般情况下,KNN最近邻方法在( D )情况下效果最好。
A、样本呈现团状分布
B、样本呈现链状分布
C、样本较多但典型性不好
D、样本较少但典型性好
53、有如下两组数据 {(-1,0),(-1,2),(1,2)} ,{(0,0),(1,0),(1,1)}
我们在该数据集上训练一个线性SVM模型,该模型中的支持向量是哪些( C )
A、(−1,2),(1,1),(1,0)
B、(−1,0),(−1,2),(1,1),(1,0)
C、(−1,0),(1,2),(0,0),(1,1)
D、(−1,0),(-1,2),(0,0),(1,0)
支持向量机是找到一条线或者一个超平面把他们分开,c的点都是在y=x+1和y=x组成的区间范围内
54、以下说法正确的是( D )
A、增加模型复杂度,模型在测试集上的准确率就能更好
B、L2正则化的解通常是稀疏的,L1正则化可以使得参数趋向于更平滑
C、对于PCA,我们应该选择是的模型具有最小variance的主成分
D、每次使用K-means算法得到的聚类结果可能会不一样
L1正则化可以产生稀疏权值矩阵,也就是产生一个稀疏模型,可以用于特征选择;
L2正则化可以防止模型过拟合,也就是拟合曲线更趋于平滑。
PCA应该选择协方差(Covariance)比较小的
55、如果假设h在n=65的独立抽取样本上出现r=10个错误,真实的错误率的90%的置信区间(双侧的,Z90=1.64)是( A )
A、0.16±0.073
B、0.16±0.73
C、1.6±0.073
D、1.6±0.73
56、下面哪些可能是一个文本语料库的特征( C )
1.一个文档中的词频统计
2.文档中单词的布尔特征
3.词向量
4.词性标记
5.基本语法依赖
6.整个文档
A、123
B、1234
C、12345
D、123456
57、随机抽样一致算法(random sample consensus,RANSAC),采用迭代的方式从一组包含离群的被观测数据中估算出数学模型的参数。对于RANSAC的基本假设描述不正确的是:( B )
A、给定一组(通常很小)的内群,存在一个程序,这个程序可以估算最佳解释或最适用于这一数据模型的参数
B、离群点离inliers集中区域的差距再可控范围内
C、”内群”数据可以通过几组模型的参数来叙述其分别,而“离群”数据则是不适合模型化的数据
D、数据会受噪声影响,噪声指的是离群,例如从极端的噪声或错误解释有关数据的测量或不正确的假设
58、列关于分类器的说法中不正确的是( C )
A、SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,属于结构风险最小化
B、Naive Bayes是一种特殊的Bayes分类器,其一个假定是每个变量相互条件独立。
C、Xgboost是一种优秀的集成算法,其优点包括速度快、对异常值不敏感、支持自定义损失函数等
D、随机森林中列采样的过程保证了随机性,所以就算不剪枝,也不容易出现过拟合。
59、下列关于分类器的说法中不正确的是( C )
A、SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,属于结构风险最小化
B、Naive Bayes是一种特殊的Bayes分类器,其一个假定是每个变量相互条件独立。
C、Xgboost是一种优秀的集成算法,其优点包括速度快、对异常值不敏感、支持自定义损失函数等等
D、随机森林中列采样的过程保证了随机性,所以就算不剪枝,也不容易出现过拟合。
xgboost可以自定损失函数,速度很快,但是对异常值很敏感
60、下列说法不正确的是( B )
A、梯度下降法是利用当前位置的负梯度作为搜索方向的方法
B、批量梯度下降和随机梯度下降相比,批量梯度下降优势是对于大规模样本效率很高
C、牛顿法和梯度下降法相比,一个劣势是求解复杂,一个优势是收敛速度加快
D、共轭梯度法仅需利用一阶导数的信息,但是收敛速度高于梯度下降法
批量梯度下降法在每次更新参数时同时迭代所有样本。优点是迭代次数少,可以进行并行计算。
每次更新参数时,随机梯度下降法迭代一个样本。优点是样本量大时训练速度快,缺点是迭代次数多,容易收敛到局部最优解;
牛顿法是一种计算二阶梯度的算法,与梯度下降法相比,收敛速度更快,但计算复杂,每次参数更新都要计算Hession矩阵的逆;
61、以下描述正确的是:( C )
A、KNN算法中K值对分类效果影响较为显著,一般K值较大时,对噪声比较敏感。
B、朴素贝叶斯算法对缺失数据特别敏感,事先需要知道先验概率。
C、SVM算法可以解决高维问题。提高泛化性能。
D、集成学习算法存在过拟合、鲁棒性不强等问题。
KNN:如果当K的取值过小时,一旦有噪声得成分存在们将会对预测产生比较大影响。如果K的值取的过大时,就相当于用较大邻域中的训练实例进行预测,学习的近似误差会增大。这时与输入目标点较远实例也会对预测起作用,使预测发生错误。K值的增大就意味着整体的模型变得简单;
EM算法对于缺失数据敏感,(原本就是为了计算缺失数据的)。
朴素贝叶斯算法:对缺失数据不太敏感,算法比较简单,常用于文本分类。先验概率需要知道,而先验概率往往取决于假设。假设模型可以有很多种,因此在某些情况下,由于假设的先验模型,预测效果会很差。
集成学习,顾名思义,就是多种学习算法的融合,使用集成学习可以有效减少过拟合的发生。
62、Apriori算法在机器学习和数据挖掘中被广泛使用,已知有1000名球迷看奥运会,分为AB两队,每队各500人,其中A队有500人看了乒乓球比赛,同时又有450人看了羽毛球比赛;B队有450人看了羽毛球比赛,如下表所示:那么 乒乓球→羽毛球的支持度、置信度和提升度分别是==( A )==
看乒乓球人数 | 看羽毛球人数 | |
---|---|---|
A队(500人) | 500 | 450 |
B对(500人) | 0 | 450 |
A、0.45 0.9 1
B、0.1 0.1 1
C、0.45 0.1 0
D、0.1 0.45 0
1.支持度(Support):支持度表示项集(X,Y)在总项集里出现的概率。公式为:Support(X→Y)=P(X,Y) / P(I)=P(XUY)/P(I)=num(XUY)/num(l)
2.置信度(Confidence):置信度表示在先决条件X发生的情况下,由关联规则”X→Y“推出Y的概率。即在含有X的项集中,含有Y的可能性,公式为:Confidence(X→Y)=P(YIX)=P(X,Y)/P(X)=P(XUY)/ P(X)
3.提升度(Lift):提升度表示含有X的条件下,同时含有Y的概率,与不含X的条件下却含Y的概率之比。
公式为:Lift(X-→Y)=P(YIX)/P(Y)
63、互为对偶的两个线性规划问题的解存在关系( B )
A、原问题无可行解,对偶问题也无可行解
B、对偶问题有可行解,原问题可能无可行解
C、若最优解存在,则最优解相同
D、一个问题无可行解,则另一个问题具有无界解
线性规划早期发展中最重要的发现是对偶问题,即每个线性规划问题(称为primal问题)都有对应的对偶线性规划问题(称为对偶问题)
64、以下哪个模型的系数矩阵不是全幺模矩阵(totally unimodular matrix)( D )
A、最短路问题
B、指派问题
C、最大流问题
D、最小生成树问题
65、下列哪个不属于CRF模型对于HMM和MEMM模型的优势( B )
A、特征灵活
B、速度快
C、可容纳较多上下文信息
D、全局最优
CRF 的优点:特征灵活,可以容纳较多的上下文信息,能够做到全局最优
CRF 的缺点:速度慢
66、在选择分治法解决问题时,应考虑待解决问题应具有哪些特征( ABCD )
A、待解决问题规模缩小到一定程度后可以容易解决
B、待解决问题应可以分解为若干个规模较小的相同问题,且子问题应可直接求解。
C、各子问题之间是相互独立的
D、分解后的子问题的解可以合并为源问题的解
I. 该问题的规模缩小到一定的程度就可以容易地解决;
II. 该问题可以分解为若干个规模较小的相同问题,即该问题具有最优子结构性质
III. 利用该问题分解出的子问题的解可以合并为该问题的解;
IV. 该问题所分解出的各个子问题是相互独立的,即子问题之间不包含公共的子问题。
67、两个种子点A(-1,1),B(2,1),其余点为(0,0),(0,2),(1,1),(3,2),(6,0),(6,2),利用Kmeans算法,点群中心按坐标平均计算。最终种子点A需要移动的次数,种子点B需要移动的次数,属于种子点A的点数(不包含A),属于种子点B的点数(不包含B)分别为( A )
A、2,2,3,3
B、1,1,3,3
C、1,1,2,4
D、2,2,2,4
算距离,把点分配到离它最近的点上,A分到两个点,B分到4个点
再按坐标中心计算中心点A1=(0,1),B1=(4,1.25)
A2=(1/3,1) B2=(5,4/3)
2.多项选择
1、以下哪些学科和数据挖掘有密切联系(CD)
A、计算机组成原理
B、矿产挖掘
C、统计
D、人工智能
2、在统计模式识分类问题中,当先验概率未知时,可以使用( BC )
A、最小损失准则
B、N-P判决
C、最小最大损失准则
D、最小误判概率准则
在贝叶斯决策中,对于先验概率p(y),分为已知和未知两种情况。
- p(y)已知,直接使用贝叶斯公式求后验概率即可;
- p(y)未知,可以使用**聂曼-皮尔逊决策(N-P决策)**来计算决策面。
最大最小损失规则主要用于解决最小损失规则的先验概率未知或难以计算的问题。
3、影响聚类算法效果的主要原因有:( A B C )
A、特征选取
B、模式相似性测度
C、分类准则
D、已知类别的样本质量
聚类是在不使用已经标记的数据的情况下对未分类的数据进行聚类。
已知类别的样本质量指的是监督训练,因为只有监督训练才需要知道样本的类别,然后作为监督训练的训练集,样本的质量自然很重要
4、以下方法属于集成方法的是( A B C D )
A、bagging
B、stacking
C、blending
D、boosting
综合学习:
①Bagging方法:随机森林
②Boosting方法:AdaBoost、GBDT、XGBoost、LightGBM、CatBoost
③Stacking方法:Stacking
④Blending方法:Blending
5、有监督机器学习方法可以被分为判别式模型和生成式模型,下面属于生成式模型的有( B C )
A、SVM支持向量机
B、朴素贝叶斯
C、隐马尔科夫
D、logistic回归
判别式模型(Discriminative Model):直接对条件概率p(y|x)进行建模,如:线性回归、逻辑回归、决策树、支持向量机SVM、k近邻、神经网络等;
生成式模型(Generative Model):对联合分布概率p(x,y)进行建模,然后求出条件概率作为预测模型,如:隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA 等;
6、在某神经网络的隐层输出中,包含0.75,那么该神经网络采用的激活函数可能是(ABC)
A、sigmoid
B、tanh
C、relu
7、假定某同学使用Naive Bayesian(NB)分类模型时,不小心将训练数据的两个维度搞重复了,那么关于NB的说法中正确的是:( BD )
A、这个被重复的特征在模型中的决定作用会被加强
B、模型效果相比无重复特征的情况下精确度会降低
C、如果所有特征都被重复一遍,得到的模型预测结果相对于不重复的情况下的模型预测结果一样。
D、当两列特征高度相关时,无法用两列特征相同时所得到的结论来分析问题
E、NB可以用来做最小二乘回归
F、以上说法都不正确
NB的核心在于它假设向量的所有分量之间是独立的。
在贝叶斯理论体系中,有一个重要的条件独立假设:假设所有特征相互独立,这样联合概率就可以被拆分
8、以下关于正则化的描述正确的是(ABCD )
A、正则化可以防止过拟合
B、L1正则化能得到稀疏解
C、L2正则化约束了解空间
D、Dropout也是一种正则化方法
L2本质是参数解的2阶范数,以二维为例,L2的最优解就是一个圆;如果你还记得话,loss func的组成是两部分一部分是预测值和真实值之间的error,一部分是正则项,前一部分的解空间可以看作是一个梯度下降的等高线,这样一来,loss func的所有局部解就是每层等高线和这个圆之间的切点,所以说约束了解空间。这也是为啥L2会让解平滑,L1会让解稀疏(因为L1的解是一个四个顶点在坐标轴上的正方形,等高线与它的交点多半落在坐标轴上,意味着某一维会变成零)
9、在机器学习中,下列关于各算法对应的损失函数正确的是( ABCD )
A、最小二乘-Square loss
B、SVM-Hinge Loss
C、Logistic Regression-(log-Loss)
D、AdaBoost-指数损失函数
1、平方和损失函数(square loss):L(yi,f(xi)) = (yi- f(xi))2,常用于回归中如最小二乘,权重可直接初始化,再通过梯度下降不断更新。
2、铰链损失函数(Hing loss): L(mi) = max(0,1-mi(w)),常用于SVM中,在SVM损失函数表示为:
L(y(i),x(i)) = max(0,1-y(i)f(x(i)))
3、对数损失函数:L(yi,f(xi)) = -logP(yi|xi),常用于逻辑回归。
4、指数损失函数:L(yi,f(xi)) = exp(-yif(xi)),主要应用于Boosting算法中。
10、当发现机器学习模型过拟合时,以下操作正确的是:( ABC )
A、降低特征维度
B、增加样本数量
C、添加正则项
D、增加特征维度
造成过拟合两个因素:1、数据量少 2、模型复杂度过高
因为增加维度会增加整个数据空间的稀疏性,从而更容易找到用于分类的超平面,降低维度有助于减少过拟合
11、现在假设负样本量:正样本量=20:1,下列哪些方法可以处理这种不平衡的情况?( ABC )
A、直接训练模型,预测的时候调节阈值
B、复制正样本,以增加正样本数量
C、随机降采样负样本
D、训练过程中,增加负样本的权重
12、在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为10w条数据,负样本只有1w条数据,以下最合适的处理方法是( ACD)
A、将负样本重复10次,生成10w样本量,打乱顺序参与分类
B、直接进行分类,可以最大限度利用数据
C、从10w正样本中随机抽取1w参与分类
D、将负样本每个权重设置为10,正样本权重为1,参与训练过程
解决这类问题主要分为重采样、欠采样、调整权重
1. 重采样。
A可视作重采样的变形。改变数据分布消除不平衡,可能导致过拟合。
2. 欠采样。
C的方案 提高少数类的分类性能,可能丢失多数类的重要信息。
如果1:10算是均匀的话,可以将多数类分割成为1000份。然后将每一份跟少数类的样本组合进行训练得到分类器。而后将这1000个分类器用assemble的方法组合位一个分类器。A选项可以看作此方式,因而相对比较合理。
另:如果目标是预测分布与训练分布一致,则增加不一致分布的惩罚系数。
3. 权值调整。
D方案也是其中一种方式。
13、在机器学习中需要划分数据集,常用的划分测试集和训练集的划分方法有哪些( ABC )
A、留出法
B、交叉验证法
C、自助法
D、评分法
bootstrap,也称为 bootstrap 采样
14、在某神经网络的隐层输出中,包含-1.5,那么该神经网络采用的激活函数不可能是( ABC )
A、sigmoid
B、tanh
C、relu
sigmoid 函数映射之后取值范围为(0,1)
tanh函数映射之后取值范围(-1,1)
Relu函数映射之后取值范围(0,…)≥0
15、以下哪些机器学习算法可以不对特征做归一化处理:( AD )
A、随机森林
B、逻辑回归
C、SVM
D、GBDT
树模型一般不需要归一化。归一化的目的是使同一特征的值在同一维度上,减少方差过大的影响。树模型不关心特征的具体值,只关心特征值的分布。
树模型本身不需要归一化,因为归一化是在梯度下降时让损失函数尽快收敛,而树模型不需要梯度下降,通过寻找最优切点来降低损失函数
16、下列关于随机森林(RF)与梯度提升树(GBDT)区别说法正确的是:( ACD )
A、组成随机森林的树可以分类树也可以是回归树,而GBDT只由回归树组成。
B、随机森林对异常值敏感,而GBDT对异常值不敏感。
C、随机森林不需要进行数据预处理,即特征归一化。而GBDT则需要进行特征归一化。
D、组成随机森林的树可以并行生成,而GBDT是串行生成。
概率模型不需要归一化,因为它们不关心变量的值,而是关心变量的分布和变量之间的条件概率,如决策树、rf。而像adaboost、gbdt、xgboost、svm、lr、KNN、KMeans之类的最优化问题就需要归一化。
17、假如你用logistic Regression 算法去预测用户在网上的购买项目,然而,当你在新的用户集上验证你的假设时,你发现预测值有很大的偏差。并且你的假设在训练集上表现也很差,下面那些步骤你应该采纳,选择出正确的选项( A )
A、尝试着减小正则项 λ
B、尝试增加交叉特征
C、减小样本量
D、尝试更小的测试集或者特征
**欠拟合:**训练误差和验证误差都很大。
**解决方案:**添加功能项;增加模型复杂度,例如使用核函数;降低正则化系数;集成学习方法。
18、类别不平衡(class-imbanlance)就是指分类问题中不同类别的训练样本相差悬殊的情况,例如正例有900个,而反例只有100个,这个时候我们就需要进行相应的处理来平衡这个问题,下列方法正确的是( ACD )
A、在训练样本较多的类别中进行欠采样
B、在训练样本较多的类别中进行过采样
C、直接基于原数据集进行学习,对预测值进行再缩放处理
D、通过对反例中的数据进行插值,来产生额外的反例
处理类不平衡的方法:
- 对样本多的类别欠采样(downsampling)
- 对样本少的类别过采样(upsampling)
- 对样本少类别分类错误加大惩罚力度(penalizing)
- 树模型
19、数据清理中,处理缺失值的方法是( ABCD )
A、估算
B、整例删除
C、变量删除
D、成对删除
20、影响基本K-均值算法的主要因素有( ABD )
A、样本输入顺序
B、模式相似性测度
C、聚类准则
D、初始类中心的选取
21、以下可以有效解决过拟合的方法是:( AD )
A、增加样本数量
B、增加特征数量
C、训练更多的迭代次数
D、采用正则化方法
添加特征会使你的模型更复杂,这实际上更过度拟合。
更多迭代的训练也会使你的模型更倾向于在训练集而不是测试集上训练的结果。
过拟合:得到更多的训练样例;减少特征的数量;增加正则化度(λ)。
欠拟合:获得更多特征;增加多项式特征;减少正则化(λ)。
22、下列方法中,可以用于特征降维的方法包括( ABCD )
A、主成分分析PCA
B、线性判别分析LDA
C、深度学习SparseAutoEncoder
D、矩阵奇异值分解SVD
E、最小二乘法LeastSquares
LDA是有监督的降维方法,而PCA是无监督的降维方法
关于C选项-稀疏自编码,当隐藏层的神经元数目比输入的少的时候,是对高维输入数据进行压缩表示,起到降维的作用。
23、隐马尔可夫模型三个基本问题以及相应的算法说法正确的是( ABC )
A、评估—前向后向算法
B、解码—维特比算法
C、学习—Baum-Welch算法
D、学习—前向后向算法
针对以下三个问题,人们提出了相应的算法
1 评估问题: 前向、后向算法。即给定一个模型,求某特定观测序列的概率,用于评估该序列最匹配的模型。
2 解码问题: Viterbi算法。给定一个模型和某个特定的输出序列,求最可能产生这个输出的状态序列。
3 学习问题: Baum-Welch算法(向前向后算法) 。即参数估计,是一种无监督的训练方法,主要通过EM迭代实现;
24、以下哪些模型是分类模型:( ACD )
A、KNN
B、Kmeans
C、Naïve Bayesian(朴素贝叶斯)
D、Logistic Regression
25、以下属于聚类算法的是:( AB )
A、K均值
B、DBSCAN
C、Apriori
D、朴素贝叶斯
DBSCAN是一个比较有代表性的基于密度的聚类算法
Apriori算法是经典的挖掘频繁项集和关联规则的数据挖掘算法。
朴素贝叶斯是一种基于贝叶斯定理和特征条件独立性假设的分类方法。两种最广泛使用的分类模型是决策树模型和朴素贝叶斯模型。
26、从使用的主要技术上看,可以把分类方法归结为哪几种类型( ABCD )
A、规则归纳方法
B、贝叶斯分类方法
C、决策树分类方法
D、基于距离的分类方法
27、下列关于决策树的说法正确的是( ABCD )
A、ID3决策树是根据信息增益来划分属性
B、C4.5决策树是根据增益率来划分属性
C、CART决策树是根据基尼指数来划分属性
D、基尼指数反映了从样本集D中随机抽取两个样本,其类别标记不一致的概率,因此越小越好
决策树通常使用三个指标来确定是否继续划分集合:信息增益、信息增益率和基尼指数。
信息熵:数据样本的纯度,纯度越高,熵越小。
信息增益:按照某一特征划分数据集后熵的减少量,选择减少量最多的特征进行划分,但是偏好特征取值较多的特征,常见模型ID3。
信息增益率:在信息怎亿的基础上除以一个固有值(intrinsic value,和取值数目有关),会对取值数目较多的特征有更多惩罚,偏好取值数较少的特征,常见模型C4.5
基尼指数:从样本集D中随机抽取两个样本,其类别标记不一致的概率,因此越小越好
28、机器学习中,如果一味的去提高训练数据的预测能力,所选模型的复杂度往往会很高,这种现象称为过拟合。所表现的就是模型训练时候的误差很小,但在测试的时候误差很大,对于产生这种现象以下说法正确的是:( AC )
A、样本数量太少
B、样本数量过多
C、模型太复杂
D、模型太简单
如果样本数量太少,或者模型太复杂,训练出来的模型会“完全记住”给定的训练样本之间的关系(相当于只是记住了试卷,但是等高考遇到新的问题或不会做)和缺乏泛化使模型过拟合
29、在( BD )情况下,用分支定界法做特征选择计算量相对较少?
A、选用的可分性判据J具有可加性
B、选用的可分性判据J对特征数目单调不减
C、样本较多
D、Cdn>>n ( n为原特征个数,d为要选出的特征个数 )
分支定界法是计算机最擅长的广义搜索穷举算法。
30、SPSS中,数据整理的功能主要集中在( AD )等菜单中
A、数据
B、直销
C、分析
D、转换
31、在机器学习中,解释学习器泛化性能中经常用到偏差-方差分解,下列说法正确的是( ACD )
A、泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的
B、方差指的是预测的期望值与真实值的偏差
C、偏差体现的是学习器预测的准确度
D、方差体现的是学习器预测的稳定性
方差反映了模型的每个输出与模型的预期输出之间的误差。
32、有如下数据集,现有测试样本(A=0,B=1,C=0),则以下描述正确的是:( AC)
A、测试样本属于+类的概率为0.008
B、测试样本属于-类的概率为0.08
C、测试样本属于+类的概率大于-的概率,则测试样本的类标号为+
D、测试样本属于-类的概率大于+的概率,则测试样本的类标号为-
A | B | C | 类 |
---|---|---|---|
0 | 0 | 0 | + |
0 | 0 | 1 | – |
0 | 1 | 1 | – |
0 | 1 | 1 | – |
0 | 0 | 1 | + |
1 | 0 | 1 | + |
1 | 0 | 1 | – |
1 | 0 | 1 | – |
1 | 1 | 1 | + |
1 | 0 | 1 | + |
假设:P(A=0,B=1,C=0)=k
则k属于两个类的概率为:
P(+|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(+)/k
=P(A=0|+)P(B=1|+)P(C=0|+)×P(+)/k=0.4×0.2×0.2×0.5/k=0.008/k
P(-|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(-)/k
=P(A=0|-)P(B=1|-)P(C=0|-)×P(-)/k=0.4×0.2×0×0.5/k=0/k
然后我们得到这个样本的类标签是+。
33、机器学习中L1正则化和L2正则化的区别是( AD )
A、使用L1可以得到稀疏的权值
B、使用L1可以得到平滑的权值
C、使用L2可以得到稀疏的权值
D、使用L2可以得到平滑的权值
L1会趋向于产生少量的特征,而其他的特征都是0
L2会选择更多的特征,这些特征都会接近于0
34、下列层次聚类算法中,哪些更适合处理大数据?( ABCD )
A、CURE算法
B、ROCK算法
C、Chameleon算法
D、BIRCH算法
CURE算法:可以处理大型数据、离群点和具有非球形大小和非均匀大小的簇的数据。
ROCK算法:基于划分的k-means等算法是聚类大数据集的算法,它处理的数据对象仅限于数值型数据。
Chameleon(变色龙)算法:
BIRCH算法:BIRCH算法比较适合于数据量大,类别数K也比较多的情况。它运行速度很快,只需要单遍扫描数据集就能进行聚类。
35、以下描述错误的是:(ABC)
A、SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier)
B、在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。
C、在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。
D、聚类分析可以看作是一种非监督的分类。
svm分类器是寻找最大边缘的超平面
训练误差减小,测试误差逐渐增大,这是过拟合的一个明显特征。
36、以下( ACD )属于线性分类器最佳准则。
A、感知准则函数
B、贝叶斯分类
C、支持向量机
D、Fisher准则
线性分类器有三大类:感知器准则函数、SVM、Fisher准则,而贝叶斯分类器不是线性分类器。
线性分类器有三个最佳标准:
Fisher准则:根据两类样本一般类内密集,类间分离的特点,寻找线性分类器最佳的法线向量方向,使两类样本在该方向上的投影满足类内尽可能密集,类间尽可能分开。这种度量通过类内离散矩阵 Sw 和类间离散矩阵 Sb 实现。
感知准则函数:准则函数是基于最小化错误分类样本到界面的距离之和的原理。优点是分类器函数通过错误分类样本提供的信息进行校正,而这个准则是人工神经网络多层感知器的基础。
支持向量机:基本思想是在两个类线性可分的条件下,设计分类器接口以最大化两个类之间的间隔,其基本出发点是使预期泛化风险尽可能小.
37、下列哪项叙述是正确的( BC )
A、Adaboost可以降低方差
B、Xgboost可以降低偏差
C、Random Forest可以降低方差
D、Decision Tree可以降低偏差
38、下列关于随机森林和Adaboost说法正确的是( ACD )
A、和adaboost相比,随机森林对错误和离群点更鲁棒
B、随机森林准确率不依赖于个体分类器的实例和他们之间的依赖性
C、随机森林对每次划分所考虑的属性数很偏感
D、Adaboost初始时每个训练元组被赋予相等的权重
38、以下可以有效解决过拟合的方法是:( ABD )
A、增加样本数量
B、通过特征选择减少特征数量
C、训练更多的迭代次数
D、采用正则化方法
39、数据挖掘的挖掘方法包括:( ABCD )
A、聚类分析
B、回归分析
C、神经网络
D、决策树算法
主要有决策树、神经网络、回归、聚类、关联规则、贝叶斯分类
40、以下说法中正确的是( BD )
A、SVM对噪声(如来自其他分布的噪声样本)鲁棒
B、在AdaBoost算法中,所有被分错的样本的权重更新比例相同
C、Boosting和Bagging都是组合多个分类器投票的方法,二者都是根据单个分类器的正确率决定其权重
D、给定n个数据点,如果其中一半用于训练,一般用于测试,则训练误差和测试误差之间的差别会随着n的增加而减少
SVM本身对噪声具有一定的鲁棒性,但实验证明,是当噪声率低于一定水平的噪声对SVM没有太大影响,但随着噪声率的不断增加,分类器的识别率会降低。
Bagging与Boosting的区别:取样方式不同。Bagging采用均匀取样,而Boosting根据错误率取样。Bagging的各个预测函数没有权重,而Boosting是由权重的,Bagging的各个预测函数可以并行生成,而Boosing的哥哥预测函数只能顺序生成。
41、统计模式分类问题中,当先验概率未知时,可以使用( AD )
A、最小最大损失准则
B、最小误判概率准则
C、最小损失准则
D、N-P判决(聂曼-皮尔逊决策)
先验概率未知,即不能使用生成模型,只能使用判别模型。
最小损失准则中需要使用先验概率
最大最小损失规则主要用于解决最小损失规则的先验概率未知或难以计算的问题。
在贝叶斯决策中,对于先验概率p(y),分为已知和未知两种情况。
- p(y)已知,直接使用贝叶斯公式求后验概率即可;
- p(y)未知,可以使用聂曼-皮尔逊决策(N-P决策)来计算决策面。
42、给定两个特征向量,以下哪些方法可以计算这两个向量相似度( ABD )
A、欧式距离
B、夹角余弦(Cosine)
C、信息熵
D、曼哈顿距离
熵 – 是杂质的量度。
43、下面哪些是基于核的机器学习算法( BCD )
A、Expectation Maximization
B、Radial Basis Function (径向基)
C、Linear Discrimimate Analysis
D、Support Vector Machine
核函数的作用是转化为高维空间。将非线性可分转化为线性可分的过程。
44、基于二次准则函数的H-K算法较之于感知器算法的优点是( BD )
A、计算量小
B、可以判别问题是否线性可分
C、其解完全适用于非线性可分的情况
D、其解的适应性更好
HK算法思想:在最小均方误差准则下求得权矢量.
它相对于感知器算法的优势在于它适用于线性可分和非线性可分的情况。对于线性可分的情况,给出了最优的权向量。对于非线性可分的情况,是可以区分的。退出迭代过程。
45、机器学习中做特征选择时,可能用到的方法有( ABCD )
A、卡方
B、信息增益
C、平均互信息
D、期望交叉熵
特征提取算法分为两类:特征选择和特征提取。
46、下列模型属于机器学习生成式模型的是( ABCD )
A、朴素贝叶斯
B、隐马尔科夫模型(HMM)
C、马尔科夫随机场(Markov Random Fields)
D、深度信念网络(DBN)
版权声明:本文为博主IT-cute原创文章,版权归属原作者,如果侵权,请联系我们删除!