统计和大数据 semi-supervised

3

在机器学习的背景下，两者之间有什么区别无监督学习监督学习和半监督学习？还有哪些主要的算法方法需要研究？

27 machine-learning unsupervised-learning supervised-learning semi-supervised

4

我正在阅读Kaggle竞赛获奖解决方案的报告（恶意软件分类）。该报告可在此论坛帖子中找到。问题是分类问题（九个类别，度量标准是对数损失），其中训练集中有10000个元素，测试集中有10000个元素。在比赛期间，针对30％的测试集对模型进行了评估。另一个重要因素是模型的表现非常出色（准确性接近100％）作者使用以下技术：我们提出的另一项重要技术是半监督学习。我们首先通过选择最佳模型的最大概率来生成测试集的伪标签。然后，我们将使用训练数据和测试数据以交叉验证的方式再次预测测试集。例如，将测试数据集分为A，B，C和D四个部分。我们使用整个训练数据，并将测试数据A，B，C及其伪标签一起用作新的训练集，并预测测试设置D。相同的方法用于预测A，B和C。这是由Xiaozhou发明的，效果出乎意料，并且可以减少局部交叉验证损失，公共LB损失和私人LB损失。最佳的半监督学习模型可以使私人LB对数丢失达到0.0023，这是我们所有解决方案中的最高分。我真的不知道它如何改善结果。是因为30％的测试集被“泄漏”了，这是使用此信息的一种方式吗？还是有任何理论上的原因可以解释其原理？

21 machine-learning random-forest boosting overfitting semi-supervised

3

如何仅训练阳性病例来预测结果？

为了简单起见，假设我正在研究垃圾邮件/非垃圾邮件的经典示例。我有一组20000封电子邮件。在这些邮件中，我知道2000是垃圾邮件，但没有任何非垃圾邮件的例子。我想预测其余18000个垃圾邮件是否为垃圾邮件。理想情况下，我要寻找的结果是电子邮件为垃圾邮件的概率（或p值）。在这种情况下，我可以使用哪种算法做出明智的预测？目前，我正在考虑一种基于距离的方法，该方法可以告诉我电子邮件与已知垃圾邮件的相似程度。我有什么选择？更笼统地说，我可以使用监督学习方法吗？或者我是否必须在训练中包含负面案例才能做到这一点？我是否仅限于无监督学习方法？那么半监督方法呢？

21 machine-learning predictive-models unsupervised-learning supervised-learning semi-supervised

4

为什么使用伪标记会轻而易举地影响结果？

我一直在研究半监督学习方法，并遇到了“伪标签”的概念。据我了解，使用伪标签时，您将拥有一组标记的数据以及一组未标记的数据。首先，您仅根据标记的数据训练模型。然后，您可以使用该初始数据对未标记的数据进行分类（向其附加临时标签）。然后，您可以将标记和未标记的数据反馈回模型训练中，以（重新）拟合已知标记和预测标记。（重复此过程，并使用更新的模型重新标记。）所声称的好处是您可以使用有关未标记数据的结构的信息来改进模型。经常显示下图的变体，“表明”该过程可以根据（未标记）数据所在的位置制定更复杂的决策边界。图片来自Techerin CC BY-SA 3.0的Wikimedia Commons 但是，我不太喜欢那种简单的解释。天真的，如果原始的仅加标签的训练结果是上决策边界，则将基于该决策边界分配伪标签。也就是说，上部曲线的左手将被伪标记为白色，下部曲线的右手将被伪标记为黑色。重新训练后，您将不会获得很好的弯曲决策边界，因为新的伪标签只会增强当前的决策边界。或者换种说法，当前仅标记的决策边界将对未标记的数据具有完美的预测精度（因为这就是我们用来制作它们的方式）。没有驱动力（没有梯度）会导致我们仅通过添加伪标记数据即可更改决策边界的位置。我是否认为缺少该图所体现的解释是正确的？还是我想念的东西？如果没有，什么是伪标签的利益，考虑到-再培训预决策边界已超过伪标签完美的准确性？

19 machine-learning semi-supervised

1

远程监督，自我训练，自我监督学习与弱监督之间有什么区别吗？

从我读到的内容：远距离监督： A Distant supervision algorithm usually has the following steps: 1] It may have some labeled training data 2] It "has" access to a pool of unlabeled data 3] It has an operator that allows it to sample from this unlabeled data and label them and this operator is …

12 machine-learning terminology unsupervised-learning semi-supervised

2

如何找到权重来衡量差异性

我想学习（推论）可以用于聚类的差异度量的属性权重。我有一些例子对对象的是“相似的”（应该是相同的簇中），以及一些实施例中（Ç 我，ð 我）对对象的是“不相似”（不应位于同一群集中）。每个对象都有许多属性：如果您愿意，我们可以将每个对象视为特征的d维向量，其中每个特征都是非负整数。是否有技术使用类似/相似对象的此类示例，从中估算出相似度度量的最佳特征权重？（一个一世，b一世）（一个一世，b一世）(a_i,b_i)（c一世，d一世）（C一世，d一世）(c_i,d_i)ddd 如果有帮助，在我的应用程序中，集中精力学习作为加权L2范数的相异性度量可能是合理的： d（x ，y）= ∑ĴαĴ（x [ j ] − y[ j ] ）2。d（X，ÿ）=∑ĴαĴ（X[Ĵ]-ÿ[Ĵ]）2。d(x,y) = \sum_j \alpha_j (x[j] - y[j])^2. 其中权重不知道和应该汲取的。（或者，某种加权余弦相似度的可能是合理的了。）是否有好的算法来学习权重α Ĵ对于这样的措施，给出的例子？还是我应该考虑其他方法来学习相似性度量/相异性度量？αĴαĴ\alpha_jαĴαĴ\alpha_j 不幸的是，维数非常大（数千个或更高；它是从单词袋特征派生的）。但是，我确实有数以万计的示例。然后，我有成千上万个要聚类的对象，因此对示例进行归纳以学习良好的相异性度量很重要。我认为这属于半监督聚类的范畴，这听起来像是“适应相似性”的范畴，但是我无法找到用于此目的的算法的清晰描述。

9 clustering similarities supervised-learning semi-supervised

Questions tagged «semi-supervised»