数据挖掘中分类和聚类之间的区别?[关闭]


195

有人可以解释一下数据挖掘中分类和聚类之间的区别吗?

如果可以,请提供两个示例以了解主要思想。

Answers:


242

通常,在分类中,您有一组预定义的类,并且想知道新对象属于哪个类。

群集尝试对一组对象进行分组,并查找对象之间是否存在某种关系。

在机器学习的上下文中,分类是有监督的学习,而聚类是无监督的学习

还可以查看Wikipedia的分类聚类


3
谢谢您的回复。据我了解。在分类中,我有一些示例,并将这些示例组合到一个或另一个类中。但是在聚类中,我有示例,但没有用于将示例分组的类。因此,在基于示例的聚类中,我需要找到个案吗?我是对的还是有什么要注意的重要事项?可以请你举例吗?最好的问候,克里斯塔普斯
克里斯塔普斯

4
@Kristaps:我认为到目前为止你是对的。但是您不一定会找到具有聚类的类。您更想了解某些项目集是否形成某种关系(通过在某些模型中靠得更近)。通常,您不会找到类(如果您认为使用聚类来查找要分类的类)。事实并非如此。取而代之的是,您在开始时就有一个训练集,其中包括带标签的项目(因此您知道它们属于哪个班级)。然后,您训练分类算法以将项目分配给正确的类别,并验证
Felix Kling

4
正确性(您可以这样做,因为数据被标记了)。日常分类示例是垃圾邮件过滤。垃圾邮件过滤器必须确定邮件是否为垃圾邮件。您还可以告诉过滤器邮件是否被错误分类。对于集群,我真的不知道一个例子。但是您可以例如接收1000条Twitter消息,尝试进行聚类,然后检查聚类所显示的(以及是否)关系。
Felix Kling

我认为分类聚类都是分类方法,对吗?
WoooHaaaa

@MrROY如果用“分类”来表达,则是指:“根据共同的品质或特征,将(一群人或事物)分类或分类。” , 好的。
bitek


57

如果您向任何数据挖掘或机器学习人员提出了此问题,他们将使用术语监督学习和非监督学习向您解释聚类和分类之间的区别。因此,让我首先向您解释受监管和不受监管的关键字。

有监督的学习: 假设您有一个篮子,里面装有一些新鲜水果,您的任务是将同一类型的水果放在一个地方。假设水果是苹果,香蕉,樱桃和葡萄。因此,您已经从以前的工作中知道了每种水果的形状,因此很容易将同一类型的水果放在一个地方。在这里,您以前的工作在数据挖掘中被称为训练有素的数据。因此您已经从训练有素的数据中学到了东西,这是因为您有一个响应变量,该变量表示如果某些水果具有某某特性,那么它就是葡萄,就像每种水果一样。

您将从训练后的数据中获得此类数据。这种学习称为监督学习。此类型解决问题归类于“分类”下。因此,您已经学习了一些东西,因此可以自信地完成工作。

无人看管: 假设您有一个篮子,里面装有一些新鲜水果,您的任务是将同一类型的水果放在一个地方。

这次您对这些水果一无所知,您是第一次看到这些水果,因此您将如何布置相同类型的水果。

您首先要做的是接上水果,然后选择该特定水果的任何物理特性。假设你上色了。

然后,您将根据颜色排列它们,然后分组将像这样。 红颜色组:苹果和樱桃水果。 绿颜色组:香蕉和葡萄。所以现在您将以另一个物理字符作为大小,因此现在这些组将是这样的。 红颜色和大尺寸:苹果。 红色和小尺寸:樱桃果。 绿色和大尺寸:香蕉。 绿色和小尺寸:葡萄。工作完成了幸福的结局。

在这里,您之前没有学过任何东西,这意味着没有训练数据,也没有响应变量。这种类型的学习称为无监督学习。聚类属于无监督学习。


18

+分类:给您一些新数据,您必须为其设置新标签。

例如,一家公司希望对潜在客户进行分类。当有新客户来时,他们必须确定这是否是要购买其产品的客户。

+聚类:为您提供了一组历史记录,记录了谁买了什么。

通过使用聚类技术,您可以区分客户的细分。


3
我会争辩说:“当有新客户来时,他们必须确定这是否是要购买其产品的客户。” 是Logistic回归的更好候选者。分类的一个例子是预测客户是否要购买“溢价”,“标准”或“经济”模型。航空公司示例:教练,提前登机的教练,有额外腿部空间的教练。
GDB

16

我敢肯定,您中有许多人听说过机器学习。十几个人甚至可能知道它是什么。你们中的一些人可能也使用过机器学习算法。你知道这是怎么回事吗?从现在起的5年内,将有很多人熟悉这项必不可少的技术。Siri是机器学习。亚马逊的Alexa是机器学习。广告和购物商品推荐系统是机器学习的。让我们尝试以一个2岁男孩的简单类比来理解机器学习。只是为了好玩,我们称他为Kylo Ren

资料来源:blog.printkeg.com

假设Kylo Ren看到了一头大象。他的大脑会告诉他什么?(记住,即使他是维达的继任者,他的思维能力也很低)。他的大脑会告诉他,他看到了一个巨大的动人生物,颜色为灰色。他接下来看到一只猫,他的大脑告诉他这是一只动人的小动物,颜色金黄。最终,他看见旁边有一把军刀,大脑告诉他这是一个可以玩耍的无生命物体!

此时他的大脑知道军刀不同于大象和猫,因为军刀是一种可以玩的东西,并且不会自行移动。即使Kylo不知道可移动的含义,他的大脑也可以弄清楚这一点。这个简单的现象称为聚类。

资料来源:jeffcarpenterblog.tumblr.com

机器学习不过是此过程的数学形式。许多研究统计学的人都意识到,他们可以使某些方程式以与大脑相同的方式起作用。大脑可以聚集相似的物体,大脑可以从错误中学习,大脑可以学习识别事物。

所有这些都可以用统计来表示,此过程的基于计算机的模拟称为机器学习。为什么我们需要基于计算机的仿真?因为计算机可以比人脑更快地完成繁重的数学运算。我很想进入机器学习的数学/统计部分,但您不想在不首先清除一些概念的情况下跳入这一部分。

让我们回到Kylo Ren。假设Kylo拿起军刀并开始使用它。他不小心撞上了冲锋队,冲锋队受伤了。他不知道发生了什么,继续玩。接下来,他打了一只猫,猫受伤了。这次,Kylo确信自己做得不好,并且要谨慎一些。但是由于他的军刀技能不好,他击中了大象,并且绝对确定自己有麻烦。此后他变得非常小心,并且只在我们在《原力觉醒》中看到时才故意打他的父亲!

资料来源:joyreactor.com

可以用方程式模仿从错误中学习的整个过程,在方程式中,做错事的感觉由错误或代价表示。识别与军刀无关的过程称为分类。聚类和分类是机器学习的绝对基础。让我们看看它们之间的区别。

凯洛(Kylo)区分动物和轻型军刀,因为他的大脑决定轻型军刀不能自行移动,因此与众不同。该决定仅基于存在的对象(数据),没有提供外部帮助或建议。与此相反,Kylo通过首先观察击中物体的作用来区分小心轻剑的重要性。这个决定并非完全基于军刀,而是基于它对不同物体的作用。简而言之,这里有一些帮助。

资料来源:品脱

由于学习上的这种差异,因此将聚类称为无监督学习方法,将分类称为有监督学习方法。它们在机器学习世界中有很大的不同,并且通常由存在的数据类型决定。获得标记的数据(或帮助我们学习的东西,例如Kylo的突击队员,大象和猫)通常不容易,并且在要区分的数据很大时变得非常复杂。另一方面,没有标签的学习有其自身的缺点,例如不知道标签的标题是什么。如果Kylo想要在没有任何示例或帮助的情况下谨慎对待军刀,他将不知道该怎么做。他只知道这不是必须要做的。这有点la脚,但您明白了!

我们才刚刚开始使用机器学习。分类本身可以是连续数字的分类或标签的分类。例如,如果Kylo必须对每个突击队员的身高进行分类,那么会有很多答案,因为身高可以是5.0、5.01、5.011等。答案将非常有限。实际上,它们可以用简单数字表示。红色可以为0,蓝色可以为1,绿色可以为2。

如果您了解基本数学知识,就会知道0,1,2和5.1,5.01,5.011是不同的,分别称为离散数和连续数。离散数的分类称为Logistic回归,连续数的分类称为回归。Logistic回归也称为分类,因此在其他地方阅读此术语时请不要感到困惑

这是机器学习的非常基本的介绍。我将在下一篇文章中介绍统计方面的内容。如果需要任何更正,请告诉我:)

第二部分在这里发布。 在此处输入图片说明


2
嗨,阿米特,为什么不将您的博客文章添加到答案中,而不仅仅是一个链接。只链接链接的答案被皱着眉头,因为网站出现故障,答案也随之而来。
Mathemats

3
谢谢。我会做的:)
阿米特·朱尼娅

2
“离散数的分类称为逻辑回归”是极大的简化。LR只是可用于分类的许多可能技术之一(其他基于树的方法(RF,GBT / XGB),基于NN等)。“连续数的分类称为回归”是显而易见的自相矛盾;你的意思是“连续号码预测”
SMCI

7

我是Data Mining的新手,但正如我的教科书所述,CLASSICIATION应该是有监督的学习,而CLUSTERING无监督的学习。监督学习和非监督学习之间的区别可以在这里找到。


6

分类

是根据实例学习新观察值分配预定义类的方法

这是机器学习中的关键任务之一。

聚类(或聚类分析)

尽管通常被称为“无监督分类”,但它却大不相同。

与许多机器学习者将教给您的东西相反,这不是关于为对象分配“类”,而是在没有预定义它们的情况下。对于那些进行过多分类的人来说,这是非常有限的看法。一个典型的例子,如果您有一把锤子(分类器),那么一切对您来说就像钉子(分类问题)。但这也是为什么分类人员没有聚集的原因。

而是将其视为结构发现。聚类的任务是在您以前不知道的数据中查找结构(例如组)。如果您学到了一些新知识,集群成功。如果您只知道已经知道的结构,那么它将失败。

聚类分析是数据挖掘的关键任务(也是机器学习中的丑小鸭,所以不要听机器学习者拒绝聚类)。

“无监督学习”有点矛盾

这已经在文献中反复出现,但是无监督学习是必不可少的。它不存在,但是像“军事情报”一样是矛盾的。

该算法要么从示例中学习(然后是“监督学习”),要么不学习。如果所有聚类方法都是“学习”的,那么计算数据集的最小值,最大值和平均值也是“无监督学习”。然后,任何计算都会“获悉”其输出。因此,“无监督学习”一词是完全没有意义的,它意味着一切,一无所有。

但是,某些“无监督学习”算法确实属于优化类别。例如,k均值最小二乘优化。这样的方法遍布统计数据,因此我认为我们不需要将它们标记为“无监督学习”,而应继续将它们称为“优化问题”。更精确,更有意义。有很多聚类算法不涉及优化,也不适合机器学习范例。因此,不要在“无监督学习”的保护下将他们挤在那里。

有一些与集群相关的“学习”,但不是程序在学习。应当由用户来学习有关其数据集的新知识。


这个答案使我意识到我是一名分类人员。它真的帮助了我。
Kta

每个聚类算法都假设一个通用的元模型。顺便说一句,对于监督学习,例如神经网络(NN),也是如此。在两种情况下(有监督和无监督),我们都会根据(有时是隐藏的)成本函数优化通用元模型的参数以适合数据。(这部分称为“学习”。)这适用于聚类和分类。在这两种情况下,我们都会根据提供的数据进行优化,从而学习特定模型(基于假定的通用元模型)。使用特定的优化聚类模型,我们可以将数据聚类为组。
Make42 '19

TL; DR:您说对了,集群不是 “无监督分类”,这是正确的,但是无监督学习并不是矛盾,学习正在发生
Make42 '19

例如,DBSCAN中的“学习”在哪里?
已退出-Anony-Mousse

4

通过聚类,您可以将数据与所需的属性分组,例如提取的聚类的数量,形状和其他属性。而在分类中,组的数量和形状是固定的。大多数聚类算法都将聚类的数量作为参数。但是,有一些方法可以找到适当数量的群集。


4

首先,就像许多答案一样,分类是有监督的学习,聚类是无监督的。这表示:

  1. 分类需要标记的数据,以便可以对分类器进行此数据的训练,然后再根据他所知道的内容对新的看不见的数据进行分类。诸如聚类之类的无监督学习不使用标记的数据,它的实际作用是发现数据(如组)中的内在结构。

  2. 两种技术之间的另一个区别(与前一种技术有关)是,分类是离散回归问题的一种形式,其中输出是分类因变量。聚类的输出产生一组称为组的子集。由于相同的原因,评估这两个模型的方法也有所不同:在分类中,您通常必须检查精度和召回率,例如过拟合和欠拟合等,这些都将告诉您模型的质量。但是在群集中,您通常需要有远见的专家来解释您找到的内容,因为您不知道自己拥有哪种结构(组或群集的类型)。这就是为什么聚类属于探索性数据分析的原因。

  3. 最后,我想说应用程序是两者之间的主要区别。顾名思义,分类用于区分属于某个类别或另一类别的实例,例如男人或女人,猫或狗等。聚类通常用于诊断医学疾病,发现模式,等等


3

分类:预测离散输出的结果=>将输入变量映射为离散类别

在此处输入图片说明

流行的用例:

  1. 电子邮件分类:垃圾邮件或非垃圾邮件

  2. 对客户的制裁贷款:是的,如果他有能力为制裁的贷款金额支付EMI。不,如果他不能

  3. 癌细胞鉴定:关键或非关键?

  4. 推文的情感分析:推文是正面的还是负面的或中立的

  5. 新闻分类:将新闻分类为预定义类别之一-政治,体育,健康等

聚类(Clustering):是以一种方式对一组对象进行分组的任务,以使同一组(称为簇)中的对象彼此之间(在某种意义上)比其他组(集群)中的对象更相似

在此处输入图片说明

在此处输入图片说明

流行的用例:

  1. 营销:发现用于营销目的的客户群

  2. 生物学:不同种类动植物的分类

  3. 图书馆:根据主题和信息将不同的书籍分类

  4. 保险:确认客户,他们的保单并识别欺诈行为

  5. 城市规划:组成房屋并根据其地理位置和其他因素研究其价值。

  6. 地震研究:确定危险区域

  7. 推荐系统

参考文献:

极客

数据渴望者

3个叶节点


2

分类–预测分类的类别标签–根据训练集和类别标签属性中的值(类别标签)对数据进行分类(构建模型)–使用模型对新数据进行分类

群集:一组数据对象–在同一群集中彼此相似–与其他群集中的对象不同


2

聚类旨在查找数据中的组。“集群”是一个直观的概念,在数学上没有严格的定义。一个集群的成员应该彼此相似,并且与其他集群的成员不相同。聚类算法对未标记的数据集Z进行运算并在其上产生分区。

对于类和类标签,类包含相似的对象,而来自不同类的对象则不同。有些类具有明确的含义,在最简单的情况下是互斥的。例如,在签名验证中,签名是真实的或伪造的。真正的类是这两者之一,无论我们可能无法通过观察特定的签名来正确猜测。


2

聚类是一种对对象进行分组的方法,这种方法是将具有相似特征的对象放在一起,而将具有相似特征的对象分开。这是用于机器学习和数据挖掘的统计数据分析的常用技术。

分类是分类的过程,其中根据训练的数据集识别,区分和理解对象。分类是一种监督式学习技术,可以使用训练集和正确定义的观察结果。


2

从《行动中的Mahout》一书中,我认为它很好地解释了这一区别:

分类算法与聚类算法(例如k-means算法)有关,但仍然有很大不同。

分类算法是监督学习的一种形式,与聚类算法中发生的无监督学习相反。

监督学习算法是一种示例,其中包含目标变量的期望值。没有监督的算法并没有得到期望的答案,而是必须自己找到合理的方法。


2

一种用于分类的衬垫:

将数据分类为预定义的类别

一种集群集群:

将数据分组为一组类别

关键区别:

分类是在收集数据并将其放入预定义的类别中,而在将这些数据分组到的一组类别中,这是事先未知的。

结论:

  • 分类根据已标记的项目将类别分配给1个新项目,而聚类则将一堆未标记的项目划分为类别
  • 在分类中,要划分的类别\组是事先已知的,而在聚类中,要划分的类别\组是事先未知的
  • 在分类中,有两个阶段-训练阶段,然后是测试阶段,而在聚类中,只有1个阶段-将训练数据划分为聚类
  • 分类是监督学习,而聚类是监督学习

我在同一主题上写了一篇长文章,您可以在这里找到:

https://neelbhatt40.wordpress.com/2017/11/21/classification-and-clustering-machine-learning-interview-questions-answers-part-i/


1

如果您要在架子上放置大量纸张(基于日期或文件的其他说明),则表示正在分类。

如果要从一组图纸中创建群集,则意味着图纸之间存在相似之处。


1

数据挖掘中有两个定义:“有监督的”和“无监督的”。当有人告诉计算机,算法,代码...这东西就像一个苹果,那个东西就像一个橙色时,这就是监督学习,并使用监督学习(例如数据集中每个样本的标签)对分类进行分类。数据,您将获得分类。但是另一方面,如果您让计算机找出是什么并区分给定数据集的特征,实际上是在无人监督的情况下学习的,则可以对数据集进行分类,这称为聚类。在这种情况下,提供给算法的数据没有标签,算法应找出不同的类。


1

机器学习或AI在很大程度上由其执行/实现的任务来感知。

我认为,从任务的概念出发考虑聚类和分类确实可以帮助理解两者之间的区别。

聚类是对事物进行分组,分类是对事物进行标记。

假设您在一个宴会厅里,所有男人都穿着西服,女人都穿着礼服。

现在,您问朋友几个问题:

Q1:嘿,你能帮我分组吗?

您的朋友可以给出的可能答案是:

1:他可以根据性别(男,女)对人进行分组

2:他可以根据衣服将人分组,其中1件穿着西装,其他穿着礼服

3:他可以根据头发的颜色对人进行分组

4:他可以根据年龄段等对人进行分组等。

您的朋友可以通过多种方式完成此任务。

当然,您可以通过提供其他输入来影响他的决策过程,例如:

您能帮我根据性别(或年龄段,头发的颜色或穿着等)对这些人进行分组吗?

Q2:

在第二季度之前,您需要做一些准备工作。

您必须教导或通知您的朋友,以便他可以做出明智的决定。因此,假设您对朋友说:

  • 长发的人是女人。

  • 短发的人是男人。

Q2。现在,您指出一个长头发的人,并问您的朋友-是男人还是女人?

您可以期望的唯一答案是:女人。

当然,聚会中可以有长发的男人和短发的女人。但是,根据您提供给朋友的学习,答案是正确的。您可以通过向您的朋友传授更多关于如何区分两者的方法来进一步改进该过程。

在上面的示例中,

Q1代表聚类完成的任务。

在“聚类”中,您将数据(人员)提供给算法(您的朋友)并要求其对数据进行分组。

现在,由算法决定最佳分组方式是什么?(性别,颜色或年龄段)。

同样,通过提供额外的输入,您绝对可以影响算法的决策。

Q2代表分类完成的任务。

在那里,您给算法(您的朋友)一些数据(人),称为训练数据,并让他了解哪些数据对应于哪个标签(男性或女性)。然后,将算法指向某些数据(称为测试数据),并要求其确定是男性还是女性。您的教学越好,它的预测就越好。

Q2或分类中的Pre-work只是培训模型,以便它学习如何区分而已。在“聚类”或“第一季度”中,这项工作是分组的一部分。

希望这对某人有帮助。

谢谢


1

在此处输入图片说明

分类 -数据集可以具有不同的组/类别。红色,绿色和黑色。分类将尝试找到将它们划分为不同类别的规则。

缓冲-如果数据集不包含任何类,并且您想将它们放入某个类/分组中,则可以进行聚类。上面的紫色圆圈。

如果分类规则不好,则可能会导致测试分类错误或您的规则不够正确。
如果聚类不好,那么您将有很多异常值。数据点不能落入任何群集。


1

分类和聚类之间的主要区别在于:分类是借助类标签对数据进行分类的过程。另一方面,聚类类似于分类,但是没有预定义的类标签。分类是在监督学习的基础上进行的。与之相反,集群也称为无监督学习。分类方法提供训练样本,而在聚类的情况下不提供训练数据。

希望这会有所帮助!


-1

我认为分类是将数据集中的记录分类为预定义的类,甚至可以随时定义类。我将其视为进行任何有价值的数据挖掘的先决条件,我喜欢在无监督学习中考虑它,即在挖掘数据和分类时不知道他/她在寻找什么,这是一个很好的起点

另一端的聚类属于有监督的学习,即人们知道要寻找的参数,它们之间的相关性以及临界水平。我认为这需要对统计和数学有所了解


3
实际上是另一回事。分类通常是有监督的,而聚类通常是无监督的。
AlexK
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.