提出了一个半监督回归框架 CoBCReg, 其既不需要冗余独立视图, 也不需要不同的基础学习算法. 现实数据并不总是能被划分为两个冗余的视图, 因此, 与传统的 Co-Training 相比, CoBCReg 基于单视图 .

Co-Training: 是一种流行的 SSL 范式, 其中两个分类器在两个充分且独立的视图上迭代训练. 分别使用两个视图训练两个分类器, 然后在每次迭代中, 每个分类器标记并选择一些未标记的示例来增加另一个分类器的训练集. 尽管多视图协同训练适用于某些领域, 但它的多视图要求在许多实际应用中是不切实际的.

Statistical Co-learning: 使用两种不同的监督学习算法将输入空间划分为一组等价类, 并应用折交叉验证:

在每次迭代中选择最可靠的示例进行标记。
结合这两个假设得出最终决定。

Tri-Training: 原始训练集通过引导采样生成新的数据集, 将这个数据集作为三个分类器的初始训练集, 进行训练. 然后在 Tri-Training 过程中细化这些分类器, 并通过多数投票产生最终假设.

CoBCReg(Co-training by Committee for Regression): 基于单视图委员会的半监督回归算法, 它扩展了标准的 Co-Training 算法.

基于 Bagging 构建的 RBF 网络回归器的集合.
基于闵可夫斯基距离而不是欧几里得距离的新高斯函数。

为了 CoBCReg 的有效性, 委员会成员之间必须存在一定的多样性, 并且 CoBCReg 应在 SSL 过程中保持这种多样性. 可以通过使用不同的训练子集训练回归器来实现, 也可以通过使用不同的距离度量和随机初始化的回归器参数来实现.

Table of Contents

1. CoBCReg 算法

Co-Training 风格的算法存在两个问题:

一个回归器错误地估计了未标记示例的输出，这导致将噪声示例添加到另一个回归器的训练集中。
不能保证一个回归器选择的最自信的例子是对另一个回归器有用（即信息丰富）的例子。

为了缓解前一个问题, CoBCReg 中使用了一个预测器委员会来预测未标记的示例. 对于后一个问题, 每个回归器为自己选择信息量最大的示例.

符号系统如下：

和分别表示标记和未标记的训练集。
是委员会成员的数量，即集成学习算法的数量。
为 Co-Training 最大迭代次数.
是缓冲池大小。
是增长率。
为 RBF 隐藏节点个数.
为 RBF 宽度参数.
是回归量的距离顺序。

CoBCReg 算法如下所示:
[半监督学习] Semi-supervised Learning for Regression with Co-training by Committee

步骤1. 遍历委员会中的每一个回归器, 对标记数据集使用随机采样获得, 其中为包内数据, 即选择的用于训练的数据,为包外数据(用于测试集). 利用 RBFNN 训练得到回归器.
步骤2. 对于每次迭代, 从中随机抽取个示例到缓冲池. 应用 SelectRelevantExamples 方法使同伴委员会(除之外的所有成员组成)估计中每个未标记示例的输出, 并返回最有意义的未标记示例.
步骤3. 对于每次迭代, 如果不为空, 则将其加入到, 然后利用更新后的通过 RBFNN 重新训练回归器.
重复步骤2, 3, 直到达到最大迭代次数或变为空.
最后返回回归量，即委员会所有回归量的加权和。

其中 SelectRelevantExamples 算法如下:
[半监督学习] Semi-supervised Learning for Regression with Co-training by Committee

首先计算在验证集上的 RMSE.
对于中的每个未标记示例，将委员会中所有回归者（不包括）的预测平均得到，并将其添加到。
利用更新后的通过 RBFNN 重新训练回归器. 然后计算在验证集上的 RMSE.
然后计算。
迭代后，定义空集。
通过迭代，选择与最大化的结果对应的未标记示例，并将它们添加到。
最后返回。

2. 创建多样性

回归变量的组合只有在它们多样化时才有效。显然，如果它们相同，那么对于每个回归器，其他回归器估计的输出将与回归器本身估计的输出相同。

在 CoBCReg 中, 创建多样性有三个来源, RBF 网络回归器的训练使用:

不同的引导样本。
不同的 RBF 中心随机初始化.
不同的距离测量。

两个维特征向量 x_1 和 x_2 之间的 Minkowski 距离定义如下:
$%5ClVert%20x_1-x_2%20%5CrVert_p%3D%28%5Csum_%7Bi%3D1%7D%5ED%5Cvert%20x_%7B1i%7D-x_%7B2i%7D%5Cvert%5Ep%29%5E%7B%5Cfrac%7B1%7D%7Bp%7D%7D$
用于以不同的距离阶训练不同的 RBF 网络回归器. 一般来说, 阶数越小, 得到的距离度量对数据变化的鲁棒性越强. 这种设置的另一个好处是, 由于很难预先找到给定任务的最佳值, 因此基于不同值的回归器可能会表现出互补的行为.

CoBCReg 不会损害回归器之间的多样性, 因为回归器选择的示例已从中删除. 因此, 其他回归器无法进一步选择它们, 这使得回归器的训练集不相似. 即使训练集变得相似, 回归器仍然可能是多样化的, 因为它们使用不同的距离度量进行实例化.

3. 置信度度量

影响任何 CoTraining 算法性能的最重要因素之一是如何衡量给定未标记示例的置信度. 不准确的置信度估计可能导致选择错误标记的示例并将其添加到标记的训练集中, 因此可能会对 SSL 算法的性能产生负面影响.

对于分类, 这是一项简单的任务, 因为许多分类器可以估计类后验概率, 例如朴素贝叶斯分类器, 或者返回可以转换为类概率估计的实值输出, 例如神经网络和决策树。假设分类器估计实例 x_1 属于类 w_1 和 w_2 的概率分别为 0.9 和 0.1, 而实例 x_2 的概率分别为 0.6 和 0.4, 那么分类器对 x_1 属于类 w_1 的置信度比 x_2 高。因此, 可以使用每个未标记示例的类概率分布为每个未标记示例分配一个标记置信度.

而回归中可能预测的数量是未知的. 在 CoBCReg 中, 提供另一种置信度度量, 称为选择置信度(参见算法 2). 最相关选择的示例应该是最小化验证集上的回归误差的示例.

4. RBF 网络

RBF 网络的两阶段学习算法用于训练以多元高斯径向基函数(g)作为激活函数的回归器. 在第一阶段, RBF 中心通过使用 Minkowski 距离执行-means 聚类来确定. 使用从中随机选择的训练示例初始化高斯中心集. 第个 RBF 神经元的宽度( %5Csigma_j )设置为: 中心 c_j 和两个最近的高斯中心之间的平均 Minkowski 距离乘以 %5Calpha . 在第二阶段, 最接近有限标记示例的输出层权重直接通过矩阵伪逆技术确定: W%20%3D%20H%2BT , 其中是训练示例的目标输出,是激活矩阵:
$H_%7Bij%7D%3Dg%28x_i%3Bc_j%3B%5Csigma_j%2Cp%29%3Dg%28%5ClVert%20x-c_j%20%5CrVert_p/%5Csigma_j%29%3D%5Cexp%28-%5Cfrac%7B%5ClVert%20x-c_j%5CrVert_p%5E2%7D%7B2%5Csigma%5E2_j%7D%29$