Answers:
如果您向任何数据挖掘或机器学习人员提出了此问题,他们将使用术语监督学习和非监督学习向您解释聚类和分类之间的区别。因此,让我首先向您解释受监管和不受监管的关键字。
有监督的学习: 假设您有一个篮子,里面装有一些新鲜水果,您的任务是将同一类型的水果放在一个地方。假设水果是苹果,香蕉,樱桃和葡萄。因此,您已经从以前的工作中知道了每种水果的形状,因此很容易将同一类型的水果放在一个地方。在这里,您以前的工作在数据挖掘中被称为训练有素的数据。因此您已经从训练有素的数据中学到了东西,这是因为您有一个响应变量,该变量表示如果某些水果具有某某特性,那么它就是葡萄,就像每种水果一样。
您将从训练后的数据中获得此类数据。这种学习称为监督学习。此类型解决问题归类于“分类”下。因此,您已经学习了一些东西,因此可以自信地完成工作。
无人看管: 假设您有一个篮子,里面装有一些新鲜水果,您的任务是将同一类型的水果放在一个地方。
这次您对这些水果一无所知,您是第一次看到这些水果,因此您将如何布置相同类型的水果。
您首先要做的是接上水果,然后选择该特定水果的任何物理特性。假设你上色了。
然后,您将根据颜色排列它们,然后分组将像这样。 红颜色组:苹果和樱桃水果。 绿颜色组:香蕉和葡萄。所以现在您将以另一个物理字符作为大小,因此现在这些组将是这样的。 红颜色和大尺寸:苹果。 红色和小尺寸:樱桃果。 绿色和大尺寸:香蕉。 绿色和小尺寸:葡萄。工作完成了幸福的结局。
在这里,您之前没有学过任何东西,这意味着没有训练数据,也没有响应变量。这种类型的学习称为无监督学习。聚类属于无监督学习。
我敢肯定,您中有许多人听说过机器学习。十几个人甚至可能知道它是什么。你们中的一些人可能也使用过机器学习算法。你知道这是怎么回事吗?从现在起的5年内,将有很多人熟悉这项必不可少的技术。Siri是机器学习。亚马逊的Alexa是机器学习。广告和购物商品推荐系统是机器学习的。让我们尝试以一个2岁男孩的简单类比来理解机器学习。只是为了好玩,我们称他为Kylo Ren
假设Kylo Ren看到了一头大象。他的大脑会告诉他什么?(记住,即使他是维达的继任者,他的思维能力也很低)。他的大脑会告诉他,他看到了一个巨大的动人生物,颜色为灰色。他接下来看到一只猫,他的大脑告诉他这是一只动人的小动物,颜色金黄。最终,他看见旁边有一把军刀,大脑告诉他这是一个可以玩耍的无生命物体!
此时他的大脑知道军刀不同于大象和猫,因为军刀是一种可以玩的东西,并且不会自行移动。即使Kylo不知道可移动的含义,他的大脑也可以弄清楚这一点。这个简单的现象称为聚类。
机器学习不过是此过程的数学形式。许多研究统计学的人都意识到,他们可以使某些方程式以与大脑相同的方式起作用。大脑可以聚集相似的物体,大脑可以从错误中学习,大脑可以学习识别事物。
所有这些都可以用统计来表示,此过程的基于计算机的模拟称为机器学习。为什么我们需要基于计算机的仿真?因为计算机可以比人脑更快地完成繁重的数学运算。我很想进入机器学习的数学/统计部分,但您不想在不首先清除一些概念的情况下跳入这一部分。
让我们回到Kylo Ren。假设Kylo拿起军刀并开始使用它。他不小心撞上了冲锋队,冲锋队受伤了。他不知道发生了什么,继续玩。接下来,他打了一只猫,猫受伤了。这次,Kylo确信自己做得不好,并且要谨慎一些。但是由于他的军刀技能不好,他击中了大象,并且绝对确定自己有麻烦。此后他变得非常小心,并且只在我们在《原力觉醒》中看到时才故意打他的父亲!
可以用方程式模仿从错误中学习的整个过程,在方程式中,做错事的感觉由错误或代价表示。识别与军刀无关的过程称为分类。聚类和分类是机器学习的绝对基础。让我们看看它们之间的区别。
凯洛(Kylo)区分动物和轻型军刀,因为他的大脑决定轻型军刀不能自行移动,因此与众不同。该决定仅基于存在的对象(数据),没有提供外部帮助或建议。与此相反,Kylo通过首先观察击中物体的作用来区分小心轻剑的重要性。这个决定并非完全基于军刀,而是基于它对不同物体的作用。简而言之,这里有一些帮助。
由于学习上的这种差异,因此将聚类称为无监督学习方法,将分类称为有监督学习方法。它们在机器学习世界中有很大的不同,并且通常由存在的数据类型决定。获得标记的数据(或帮助我们学习的东西,例如Kylo的突击队员,大象和猫)通常不容易,并且在要区分的数据很大时变得非常复杂。另一方面,没有标签的学习有其自身的缺点,例如不知道标签的标题是什么。如果Kylo想要在没有任何示例或帮助的情况下谨慎对待军刀,他将不知道该怎么做。他只知道这不是必须要做的。这有点la脚,但您明白了!
我们才刚刚开始使用机器学习。分类本身可以是连续数字的分类或标签的分类。例如,如果Kylo必须对每个突击队员的身高进行分类,那么会有很多答案,因为身高可以是5.0、5.01、5.011等。答案将非常有限。实际上,它们可以用简单数字表示。红色可以为0,蓝色可以为1,绿色可以为2。
如果您了解基本数学知识,就会知道0,1,2和5.1,5.01,5.011是不同的,分别称为离散数和连续数。离散数的分类称为Logistic回归,连续数的分类称为回归。Logistic回归也称为分类,因此在其他地方阅读此术语时请不要感到困惑
这是机器学习的非常基本的介绍。我将在下一篇文章中介绍统计方面的内容。如果需要任何更正,请告诉我:)
第二部分在这里发布。
是根据实例学习为新观察值分配预定义类的方法。
这是机器学习中的关键任务之一。
尽管通常被称为“无监督分类”,但它却大不相同。
与许多机器学习者将教给您的东西相反,这不是关于为对象分配“类”,而是在没有预定义它们的情况下。对于那些进行过多分类的人来说,这是非常有限的看法。一个典型的例子,如果您有一把锤子(分类器),那么一切对您来说就像钉子(分类问题)。但这也是为什么分类人员没有聚集的原因。
而是将其视为结构发现。聚类的任务是在您以前不知道的数据中查找结构(例如组)。如果您学到了一些新知识,则集群成功。如果您只知道已经知道的结构,那么它将失败。
聚类分析是数据挖掘的关键任务(也是机器学习中的丑小鸭,所以不要听机器学习者拒绝聚类)。
这已经在文献中反复出现,但是无监督学习是必不可少的。它不存在,但是像“军事情报”一样是矛盾的。
该算法要么从示例中学习(然后是“监督学习”),要么不学习。如果所有聚类方法都是“学习”的,那么计算数据集的最小值,最大值和平均值也是“无监督学习”。然后,任何计算都会“获悉”其输出。因此,“无监督学习”一词是完全没有意义的,它意味着一切,一无所有。
但是,某些“无监督学习”算法确实属于优化类别。例如,k均值是最小二乘优化。这样的方法遍布统计数据,因此我认为我们不需要将它们标记为“无监督学习”,而应继续将它们称为“优化问题”。更精确,更有意义。有很多聚类算法不涉及优化,也不适合机器学习范例。因此,不要在“无监督学习”的保护下将他们挤在那里。
有一些与集群相关的“学习”,但不是程序在学习。应当由用户来学习有关其数据集的新知识。
首先,就像许多答案一样,分类是有监督的学习,聚类是无监督的。这表示:
分类需要标记的数据,以便可以对分类器进行此数据的训练,然后再根据他所知道的内容对新的看不见的数据进行分类。诸如聚类之类的无监督学习不使用标记的数据,它的实际作用是发现数据(如组)中的内在结构。
两种技术之间的另一个区别(与前一种技术有关)是,分类是离散回归问题的一种形式,其中输出是分类因变量。聚类的输出产生一组称为组的子集。由于相同的原因,评估这两个模型的方法也有所不同:在分类中,您通常必须检查精度和召回率,例如过拟合和欠拟合等,这些都将告诉您模型的质量。但是在群集中,您通常需要有远见的专家来解释您找到的内容,因为您不知道自己拥有哪种结构(组或群集的类型)。这就是为什么聚类属于探索性数据分析的原因。
最后,我想说应用程序是两者之间的主要区别。顾名思义,分类用于区分属于某个类别或另一类别的实例,例如男人或女人,猫或狗等。聚类通常用于诊断医学疾病,发现模式,等等
分类:预测离散输出的结果=>将输入变量映射为离散类别
流行的用例:
电子邮件分类:垃圾邮件或非垃圾邮件
对客户的制裁贷款:是的,如果他有能力为制裁的贷款金额支付EMI。不,如果他不能
癌细胞鉴定:关键或非关键?
推文的情感分析:推文是正面的还是负面的或中立的
新闻分类:将新闻分类为预定义类别之一-政治,体育,健康等
聚类(Clustering):是以一种方式对一组对象进行分组的任务,以使同一组(称为簇)中的对象彼此之间(在某种意义上)比其他组(集群)中的对象更相似
流行的用例:
营销:发现用于营销目的的客户群
生物学:不同种类动植物的分类
图书馆:根据主题和信息将不同的书籍分类
保险:确认客户,他们的保单并识别欺诈行为
城市规划:组成房屋并根据其地理位置和其他因素研究其价值。
地震研究:确定危险区域
推荐系统:
参考文献:
聚类是一种对对象进行分组的方法,这种方法是将具有相似特征的对象放在一起,而将具有相似特征的对象分开。这是用于机器学习和数据挖掘的统计数据分析的常用技术。
分类是分类的过程,其中根据训练的数据集识别,区分和理解对象。分类是一种监督式学习技术,可以使用训练集和正确定义的观察结果。
一种用于分类的衬垫:
将数据分类为预定义的类别
一种集群集群:
将数据分组为一组类别
关键区别:
分类是在收集数据并将其放入预定义的类别中,而在将这些数据分组到的一组类别中,这是事先未知的。
结论:
我在同一主题上写了一篇长文章,您可以在这里找到:
机器学习或AI在很大程度上由其执行/实现的任务来感知。
我认为,从任务的概念出发考虑聚类和分类确实可以帮助理解两者之间的区别。
聚类是对事物进行分组,分类是对事物进行标记。
假设您在一个宴会厅里,所有男人都穿着西服,女人都穿着礼服。
现在,您问朋友几个问题:
Q1:嘿,你能帮我分组吗?
您的朋友可以给出的可能答案是:
1:他可以根据性别(男,女)对人进行分组
2:他可以根据衣服将人分组,其中1件穿着西装,其他穿着礼服
3:他可以根据头发的颜色对人进行分组
4:他可以根据年龄段等对人进行分组等。
您的朋友可以通过多种方式完成此任务。
当然,您可以通过提供其他输入来影响他的决策过程,例如:
您能帮我根据性别(或年龄段,头发的颜色或穿着等)对这些人进行分组吗?
Q2:
在第二季度之前,您需要做一些准备工作。
您必须教导或通知您的朋友,以便他可以做出明智的决定。因此,假设您对朋友说:
长发的人是女人。
短发的人是男人。
Q2。现在,您指出一个长头发的人,并问您的朋友-是男人还是女人?
您可以期望的唯一答案是:女人。
当然,聚会中可以有长发的男人和短发的女人。但是,根据您提供给朋友的学习,答案是正确的。您可以通过向您的朋友传授更多关于如何区分两者的方法来进一步改进该过程。
在上面的示例中,
Q1代表聚类完成的任务。
在“聚类”中,您将数据(人员)提供给算法(您的朋友)并要求其对数据进行分组。
现在,由算法决定最佳分组方式是什么?(性别,颜色或年龄段)。
同样,通过提供额外的输入,您绝对可以影响算法的决策。
Q2代表分类完成的任务。
在那里,您给算法(您的朋友)一些数据(人),称为训练数据,并让他了解哪些数据对应于哪个标签(男性或女性)。然后,将算法指向某些数据(称为测试数据),并要求其确定是男性还是女性。您的教学越好,它的预测就越好。
Q2或分类中的Pre-work只是培训模型,以便它学习如何区分而已。在“聚类”或“第一季度”中,这项工作是分组的一部分。
希望这对某人有帮助。
谢谢
分类 -数据集可以具有不同的组/类别。红色,绿色和黑色。分类将尝试找到将它们划分为不同类别的规则。
缓冲-如果数据集不包含任何类,并且您想将它们放入某个类/分组中,则可以进行聚类。上面的紫色圆圈。
如果分类规则不好,则可能会导致测试分类错误或您的规则不够正确。
如果聚类不好,那么您将有很多异常值。数据点不能落入任何群集。
我认为分类是将数据集中的记录分类为预定义的类,甚至可以随时定义类。我将其视为进行任何有价值的数据挖掘的先决条件,我喜欢在无监督学习中考虑它,即在挖掘数据和分类时不知道他/她在寻找什么,这是一个很好的起点
另一端的聚类属于有监督的学习,即人们知道要寻找的参数,它们之间的相关性以及临界水平。我认为这需要对统计和数学有所了解