有监督的聚类或分类?


22

请提供“在网络上某处讨论”的链接
Atilla Ozgur


1
“聚类”是“非监督分类”的同义词,因此,“监督聚类”是矛盾的。有人可能会说,“自组织图”是一种用于非监督分类的监督技术,这将是与“监督聚类”最接近的东西。
Digio

据我所知,“我们使用聚类排列数据以使其准备好进行进一步处理,或者至少使其做好进一步分析的准备”,因此我们在聚类中所做的就是将数据分为A,B类, C等...因此现在以某种方式对这些数据进行监督。现在,这取决于需求,您希望对这些数据进行处理,或者该数据对分类操作或回归操作有何用处。如果我错了,请纠正我。
sak

Answers:


2

我的幼稚理解是,在您具有一组指定的类并且要将新事物/数据集分类为那些指定的类中的一个的情况下执行分类。

另外,集群没有任何起点,您可以使用所有数据(包括新数据)将其分成多个集群。

两者都使用距离量度来决定如何进行聚类/分类。区别在于分类基于先前定义的一组类,而聚类则根据整个数据确定聚类。

我再一次天真地了解到,有监督的聚类仍然基于整个数据进行聚类,因此将是聚类而不是分类。

实际上,我确信聚类和分类背后的理论是相互交织的。


我谦卑不同意。您建议按照定义,“分类”是默认情况下的监督过程,这是不正确的。分类分为有监督的案例和无监督的案例,后者是聚类的同义词。
Digio

15

我想我没有比您了解更多的信息,但是您发布的链接确实提供了答案。我将以http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf为例。他们基本上说:1)聚类取决于距离。2)成功使用k均值需要仔细选择距离。3)在给定训练数据的情况下,以项目集的形式对其进行期望的划分,我们提供了一种结构化的SVM方法,该方法学习距离度量,以便k均值产生期望的聚类。在这种情况下,聚类有一个受监督的阶段,同时包含训练数据和学习。此阶段的目的是学习距离函数,以便根据训练数据与应用程序域的相似程度,希望以此距离应用k均值聚类将是最佳的。适用于机器学习和集群的所有常规警告仍然适用。

进一步引用该文章:监督聚类是借助包含项目集和这些项目集的完整分区的训练集自动调整聚类算法的任务。。这似乎是一个合理的定义。


问题很简单:为什么要从一组标记的训练数据中学习距离度量,然后通过聚类方法应用该距离度量;为什么您不只是使用监督方法。换句话说,您想进行聚类(即,将数据集划分为聚类),但是假设您已经具有完整的期望分区,并且将使用它来学习距离度量,然后使用该知识将聚类应用于该数据集距离。充其量,您将获得与用于学习距离测度的分区相同的分区!您已经有
shn

在您写“然后在此数据集上应用聚类”的地方替换为“然后在相似的数据集上应用聚类”。就是这种情况:在实验X中,我们有数据A和B。A用于聚类,B帮助学习距离。B设定了黄金标准,并且据推测价格昂贵。在随后的实验X2,X3 ...我们得到了一个,但没有能力获得B.

好的,现在当您从数据集B说“学习距离”时:您是说“学习一些距离阈值”还是“学习距离度量函数”(一种参数化的不相似度量)?
2012年

1
我的意思是第二个,“学习距离度量函数”。通过更多的阅读,我上面的简单A和B公式可以在引用的手稿中找到:“给出具有正确聚类的项目集训练示例,目标是学习相似性度量,以便将来的项目集聚类以类似的方式。”
micans

1
好吧,看来“监督群集”与所谓的“半监督群集”非常相似。直到现在,我还没有看到任何区别。顺便说一下,在其他一些论文中,“(半)监督聚类”不是指“创建经过修改的距离函数”以类似的方式聚类未来的数据集。它实际上是在不更改距离函数的情况下“修改聚类算法本身”!
2012年

3

一些定义:有

监督的聚类应用于分类的示例,目的是识别对单个类别具有高概率密度的聚类。

无监督群集是一种使用特定对象功能的学习框架,例如,该功能可将群集内部的距离最小化以保持群集紧密。

半监督聚类是在聚类过程中利用辅助信息来增强聚类算法。

神经网络的进步-ISNN 2010

由于我不是该领域的新手,因此无需使用过多的行话,我对监督性聚类的理解越来越像这样:

在监督性聚类中,您从上而下开始使用一些预定义的类,然后使用自下而上的方法,您会发现哪些对象更适合您的类。

例如,您进行了有关人群中喜欢的橙子类型的研究。
从多种类型的橙子中,您发现一种特定的“种类”橙子是首选。
但是,这种类型的橙色非常脆弱,容易感染,气候变化和其他环境因素。
因此,您想将其与对这些侮辱非常有抵抗力的其他物种杂交。
然后您去实验室,发现了一些基因,这些基因导致一种类型的多汁和甜味以及另一种类型的抗性。
您进行了几次实验,然后以一百种不同的橙子亚型结束。
现在,您只对那些完全符合所述属性的子类型感兴趣。
您不想在人口中再次进行同样的研究...
您知道您要寻找的完美橙色的特性。
因此,您可以运行聚类分析并选择最符合您期望的分析。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.