评估未监督学习的绩效指标


49

关于无监督学习(如聚类),是否有任何衡量绩效的指标?



4
我认为这个问题比那个问题更笼统,因此我投票决定不公开这一问题。
彼得·弗洛姆

我有相同的问题,并且有一些相关的参考文献(截至目前尚未完全阅读):聚类验证的内部有效性度量调查L.Jegatha Deborah,R.Baskaran,A.Kannan和聚类有效性度量技术FerencKovács,Csaba Legany,Attila Babos
kasterma

Answers:


44

从某种意义上说,我认为这个问题是无法回答的。我之所以这样说,是因为一种特定的无监督方法的性能在很大程度上取决于为什么人们首先要进行无监督的学习,即该方法在最终目标的情况下是否表现良好?显然,这并非完全正确,人们正在研究这些问题并发布包括某种评估的结果。我将在下面概述一些我熟悉的方法。

sklearn的文档页面“ 集群性能评估”是一个很好的集群资源(带有参考)。这涵盖了几种方法,但是除了一种方法,即“轮廓系数”(Silhouette Coefficient),都假设可用地面真相标签。该问题的注释中链接的问题评估措施中也提到了该方法。

如果您的无监督学习方法是概率性的,则另一种选择是对保留的数据评估某种概率测度(对数似然,困惑等)。这样做的动机是,如果您的无监督学习方法将高概率分配给未用于拟合参数的相似数据,那么它可能在捕获兴趣分布方面做得很好。通常使用这种类型的评估的领域是语言建模。

我要提到的最后一个选项是在相关辅助任务上使用受监督的学习者。如果您是不受监督的方法会产生潜在变量,则可以将这些潜在变量视为输入的表示形式。因此,明智的做法是将这些潜在变量用作监督分类器的输入,该分类器执行与数据来源的域相关的某些任务。然后,监督方法的性能可以代替无监督学习者的性能。从本质上讲,这是您在大多数表示学习中看到的设置。

这个描述可能有点模糊,因此我将举一个具体的例子。几乎所有有关单词表示学习的工作都使用以下方法进行评估:

  1. 使用无监督的学习者学习单词的表示形式。
  2. 将学习的表示形式用作执行某些NLP任务(例如语音标记或命名实体识别)的受监督学习者的输入。
  3. 通过使用标准表示(例如二进制词存在特征)作为输入,通过评估无监督学习者的性能与基线相比,提高无监督学习者的性能的能力,来评估无监督学习者的性能。

有关此方法的实际操作示例,请参阅Dahl等人的论文《单词观察中受限玻尔兹曼机器训练》。


11
+1“ 一种特定的无监督方法的执行情况在很大程度上取决于为什么人们首先要进行无监督的学习 ”。不要去寻找一个不可思议的数字,不用实际解释结果就可以用它来证明一个给定的结果是正当的。
马克·克莱森

1
我还要补充一点,使用监督方法作为无监督方法工作情况的代理不需要发现新功能。例如,聚类不能学习新功能,但是聚类通常用于提高受监督学习者的预测准确性,并具有解释为什么会这样的额外好处。例如,k-均值聚类可以产生k个预测,每个预测都可以通过利用发现的结构和来自聚类的压缩来进行改进。参见ttic.uchicago.edu/~shubhendu/Papers/clustering_bagging.pdf
控制论
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.