Answers:
从某种意义上说,我认为这个问题是无法回答的。我之所以这样说,是因为一种特定的无监督方法的性能在很大程度上取决于为什么人们首先要进行无监督的学习,即该方法在最终目标的情况下是否表现良好?显然,这并非完全正确,人们正在研究这些问题并发布包括某种评估的结果。我将在下面概述一些我熟悉的方法。
sklearn的文档页面“ 集群性能评估”是一个很好的集群资源(带有参考)。这涵盖了几种方法,但是除了一种方法,即“轮廓系数”(Silhouette Coefficient),都假设可用地面真相标签。该问题的注释中链接的问题评估措施中也提到了该方法。
如果您的无监督学习方法是概率性的,则另一种选择是对保留的数据评估某种概率测度(对数似然,困惑等)。这样做的动机是,如果您的无监督学习方法将高概率分配给未用于拟合参数的相似数据,那么它可能在捕获兴趣分布方面做得很好。通常使用这种类型的评估的领域是语言建模。
我要提到的最后一个选项是在相关辅助任务上使用受监督的学习者。如果您是不受监督的方法会产生潜在变量,则可以将这些潜在变量视为输入的表示形式。因此,明智的做法是将这些潜在变量用作监督分类器的输入,该分类器执行与数据来源的域相关的某些任务。然后,监督方法的性能可以代替无监督学习者的性能。从本质上讲,这是您在大多数表示学习中看到的设置。
这个描述可能有点模糊,因此我将举一个具体的例子。几乎所有有关单词表示学习的工作都使用以下方法进行评估:
有关此方法的实际操作示例,请参阅Dahl等人的论文《单词观察中的受限玻尔兹曼机器训练》。