监督学习和无监督学习有什么区别?[关闭]


283

在人工智能和机器学习方面,有监督学习和无监督学习有什么区别?您能否通过示例提供基本,简单的说明?

Answers:


501

由于您提出了一个非常基本的问题,因此似乎值得指定机器学习本身。

机器学习是一类由数据驱动的算法,即与“常规”算法不同的是,数据“说明”了“好答案”。示例:假设的用于图像中人脸检测的非机器学习算法将尝试定义人脸(皮肤圆形的彩色圆盘,期望眼睛的区域较暗,等等)。机器学习算法没有这样的编码定义,但是会“通过示例学习”:您将显示几张面孔和非面孔的图像,并且一个好的算法最终将学习并能够预测是否看不见图像是一张脸。

这个特定的人脸检测示例受到监督,这意味着您的示例必须标记为,或明确指出哪些是面部,哪些不是。

无监督算法中,您的示例未标记为,即您什么也没说。当然,在这种情况下,算法本身不能“发明”一张脸是什么,但是它可以尝试将数据聚类为不同的组,例如,它可以区分出脸与风景有很大不同,而风景与马有很大不同。

由于另一个答案提到了它(尽管以错误的方式):存在“中间”形式的监督,即半监督主动学习。从技术上讲,这些是受监督的方法,其中有些“智能”方法可以避免使用大量带标签的示例。在主动学习中,算法本身决定应该标记的东西(例如,可以很确定地识别风景和马匹,但是它可能会要求您确认大猩猩是否确实是一张脸的图片)。在半监督学习中,有两种不同的算法,从带标签的示例开始,然后以他们对大量未标签数据的思考方式相互“讲述”。他们从这种“讨论”中学习。


@ChuckTesta不,这是完全不同的。我们还可以找到有关在线主动学习的一些研究。
2013年

@ChuckTesta主动学习是在线学习的子集。在在线学习的情况下,该算法以顺序顺序(流)接收数据,这与批处理学习相反,在批学习中,该算法在整个数据集上进行整体学习。此外,在主动学习中,算法决定要从哪个输入数据点学习(从oracle查询它的标签)。在学习成本受到限制(存在查询预算)的情况下,主动学习通常会胜过几种在线学习算法。
贪婪的编码员

55

监督学习是指为算法提供的数据经过“标记”或“标记”时,可以帮助您的逻辑做出决策。

示例:贝叶斯垃圾邮件过滤,您必须将某个项目标记为垃圾邮件以优化结果。

无监督学习是尝试寻找关联而没有原始数据以外的任何外部输入的算法类型。

示例:数据挖掘聚类算法。


33

监督学习

训练数据包括输入向量的示例以及它们对应的目标向量的应用程序被称为监督学习问题。

无监督学习

在其他模式识别问题中,训练数据由一组输入向量x组成,没有任何相应的目标值。此类无监督学习问题的目标可能是发现数据中的相似示例组,其中将其称为聚类

模式识别和机器学习(Bishop,2006年)


2
您能否说明输入向量与目标向量之间的关系?
流氓小伙子

20

在监督学习中,为输入x提供了预期的结果y(即,当输入为时模型应该产生的输出x),通常将其称为相应输入的“类”(或“标签”)x

在无监督学习中,x不提供示例的“类” 。因此,可以将无监督学习视为在未标记的数据集中找到“隐藏结构”。

监督学习的方法包括:

  • 分类(1R,朴素贝叶斯,决策树学习算法,例如ID3 CART等)

  • 数值预测

无监督学习的方法包括:

  • 聚类(K均值,分层聚类)

  • 关联规则学习



12

我可以举个例子。

假设您需要识别哪种车辆是汽车,哪种车辆是摩托车。

监督下学习情况下,您的输入(训练)数据集需要标记,即对于输入(训练)数据集中的每个输入元素,应指定它代表的是汽车还是摩托车。

无监督学习的情况下,您不标记输入。无监督模型基于例如相似的特征/属性将输入聚类为聚类。因此,在这种情况下,没有像“汽车”这样的标签。


6

监督学习

监督学习基于训练来自数据源的数据样本,其中已经分配了正确的分类。此类技术用于前馈或多层感知器(MLP)模型中。这些MLP具有三个鲜明的特征:

  1. 不属于网络输入或输出层一部分的一层或多层隐藏神经元,这些层使网络能够学习和解决任何复杂的问题
  2. 神经元活动所反映的非线性是可区分的,并且
  3. 网络的互连模型表现出高度的连通性。

这些特征以及通过培训获得的学习解决了各种难题。通过在有监督的ANN模型中进行训练来学习,也称为错误反向传播算法。纠错学习算法基于输入输出样本来训练网络,并找到误差信号,该误差信号是计算出的输出与所需输出的差,并调整与误差乘积成比例的神经元的突触权重。信号和突触权重的输入实例。基于此原理,错误反向传播学习分两步进行:

前向通行证:

在这里,输入向量被呈现给网络。该输入信号向前传播,由神经元通过网络传播,并作为输出信号出现在网络的输出端:y(n) = φ(v(n))其中,v(n)是由定义的神经元的感应局部场。v(n) =Σ w(n)y(n).在输出层o(n)上计算出的输出为与所需的响应进行比较,d(n)并找到该e(n)神经元的错误。在此过程中,网络的突触权重保持不变。

后退通行证:

起源于该层输出神经元的错误信号通过网络向后传播。这将计算每一层中每个神经元的局部梯度,并允许网络的突触权重根据增量规则进行更改,如下所示:

Δw(n) = η * δ(n) * y(n).

递归计算将继续进行,每个输入模式的前向遍历,然后是后向遍历,直到网络收敛为止。

人工神经网络的监督学习范例非常有效,可以找到一些线性和非线性问题的解决方案,例如分类,工厂控制,预测,预测,机器人等。

无监督学习

自组织神经网络使用无监督学习算法进行学习,以识别未标记输入数据中的隐藏模式。这种无人监督是指在不提供错误信号来评估潜在解决方案的情况下学习和组织信息的能力。在无监督学习中缺少学习算法的方向有时可能是有利的,因为它使算法可以回顾以前未曾考虑过的模式。自组织图(SOM)的主要特征是:

  1. 它将任意维度的输入信号模式转换为一维或二维映射,并自适应地执行此转换
  2. 该网络表示前馈结构,具有单个计算层,该单个计算层由以行和列排列的神经元组成。在表示的每个阶段,每个输入信号都保持在适当的上下文中,并且
  3. 处理紧密相关信息的神经元靠在一起,并通过突触连接进行交流。

计算层也称为竞争层,因为该层中的神经元相互竞争以变得活跃。因此,该学习算法称为竞争算法。SOM中的无监督算法分为三个阶段:

比赛阶段:

对于每个输入模式 x呈现给网络的,w计算具有突触权重的内积,并且竞争层中的神经元找到判别函数,该判别函数会诱导神经元之间的竞争,并且突触权重向量在欧几里德距离内接近输入向量被宣布为比赛的冠军。该神经元被称为最佳匹配神经元,

i.e. x = arg min ║x - w║.

合作阶段:

获胜的神经元确定拓扑邻域的中心 h协作神经元。这是通过d协作神经元之间的横向相互作用来完成的。该拓扑邻域会在一段时间内减小其大小。

适应阶段:

通过适当的突触权重调整,使获胜的神经元及其附近的神经元相对于输入模式增加其判别功能的各个值,

 Δw = ηh(x)(x –w).

在重复呈现训练模式时,由于邻域更新,突触权重向量趋向于遵循输入模式的分布,因此ANN在没有主管的情况下学习。

自组织模型自然地代表了神经生物学行为,因此可用于许多实际应用中,例如聚类,语音识别,纹理分割,矢量编码等。

参考。


5

我一直发现,无监督学习和无监督学习之间的区别是任意的,有些令人困惑。两种情况之间没有真正的区别,相反,在一定范围内,算法可以具有或多或少的“监督”。半监督学习的存在就是明显的例子,这条线是模糊的。

我倾向于将监督视为对算法的反馈,指出应该采用哪种解决方案。对于传统的监督设置(例如垃圾邮件检测),您告诉算法“不要在训练集上犯任何错误”;对于传统的无监督设置(例如聚类),您告诉算法“彼此靠近的点应在同一聚类中”。碰巧的是,第一种反馈形式比后者更具体。

简而言之,当有人说“有监督”时,请思考分类,而当他们说“无监督”时,请考虑聚类,并尽量不要为此担心太多。


2
区别实际上定义明确且简单。参见David Robles的答案。
拜耳,

3
就目前而言,该定义尚可,但范围太窄。什么是半监督学习?它既有监督又无监督。如何以贝叶斯推理中的先验为条件呢?当然,这是一种监管形式。在带有(无监督)语言模型和(有监督分类)的对齐句子对集合的机器翻译中使用哪种推理呢?“监督”只是归纳偏差的另一种形式。
Stompchicken

1
我明白您的意思,并觉得很有趣。但是,我不会那么担心。经典的无监督/有监督的区别适用于大多数情况。
拜耳,

4

机器学习: 它研究和学习可以从数据中学习并进行数据预测的算法。这类算法通过从示例输入中构建模型来进行操作,以便将数据驱动的预测或决策表达为输出,而不是严格遵循静态程序说明。

监督学习: 这是从标记的训练数据中推断功能的机器学习任务,训练数据由一组训练示例组成。在监督学习中,每个示例都是一对,由输入对象(通常是矢量)和期望的输出值(也称为监督信号)组成。监督学习算法分析训练数据并产生一个推断函数,该函数可用于映射新示例。

呈现给计算机的样例输入及其期望的输出(由“老师”给出),目标是学习将输入映射到输出的通用规则。具体地说,监督学习算法采用一组已知的输入数据和已知的响应数据(输出),并训练模型以生成对新数据响应的合理预测。

无监督学习: 这是没有老师的学习。您可能希望对数据进行处理的一件事是将其可视化。机器学习的任务是从未标记的数据推断出描述隐藏结构的功能。由于提供给学习者的示例是未标记的,因此没有错误或奖励信号可以评估潜在的解决方案。这将无监督学习与有监督学习区分开来。无监督学习使用尝试查找模式自然划分的过程。

在无监督学习的情况下,没有基于预测结果的反馈,即没有老师纠正您。在无监督学习方法下,没有提供带标签的示例,并且在学习过程中没有输出的概念。结果,取决于学习方案/模型来找到模式或发现输入数据的组

当您需要大量数据来训练模型,实验和探索的意愿和能力时,应该使用无监督学习方法,当然,通过更成熟的方法也无法很好地解决挑战。与监督学习相比,可以学习更大,更复杂的模型。是一个很好的例子


4

有监督的学习:比如说一个孩子去幼儿园。老师给他看了3个玩具屋,球和汽车。现在老师给了他10个玩具。他将根据他以前的经验将它们分为3盒房屋,球和汽车。因此,kid首先是在老师的指导下进行指导的,目的是为了获得正确答案。然后他在未知玩具上接受了测试。 a

无监督学习:再次以幼儿园为例。给孩子一个10个玩具。他被告知将类似的人细分。因此,根据形状,大小,颜色,功能等特征,他将尝试将3个组说成A,B,C并将其分组。 bb

监督一词指的是对机器进行监督/指示,以帮助机器找到答案。一旦学习了说明,就可以轻松预测新情况。

无监督意味着没有监督或指示如何找到答案/标签,并且机器将使用其智能来在我们的数据中查找某种模式。在这里它不会做出预测,只会尝试查找具有相似数据的聚类。


4

已经有许多答案详细解释了差异。我在代码学院找到了这些gif ,它们通常可以帮助我有效地解释这些差异。

监督学习

在此处输入图片说明 请注意,训练图像在此处带有标签,并且模型正在学习图像的名称。

无监督学习

在此处输入图片说明 注意,这里要做的只是分组(聚类),模型对任何图像一无所知。


4

神经网络的学习算法可以是有监督的,也可以是无监督的。

如果已经知道所需的输出,则据说神经网络学习监督。示例:模式关联

无监督学习的神经网络没有这样的目标输出。无法确定学习过程的结果是什么样。在学习过程中,根据给定的输入值,将这种神经网络的单位(权重值)“安排”在一定范围内。目标是在值范围的某些区域将相似的单位组合在一起。示例:模式分类


3

有监督的学习,为数据提供答案。

给定标记为垃圾邮件/非垃圾邮件的电子邮件,请学习垃圾邮件过滤器。

给定一个被诊断为患有或未患有糖尿病的患者的数据集,学习将新患者分类为患有或不患有糖尿病。

无监督学习,给定没有答案的数据,让电脑将事物分组。

给定在网络上找到的一组新闻文章,将有关同一故事的文章归为一组。

给定自定义数据的数据库,可以自动发现市场细分并将客户分组到不同的市场细分中。

参考


3

监督学习

在这种情况下,用于训练网络的每个输入模式都与一个输出模式相关联,该输出模式是目标或所需模式。当在网络的计算输出与正确的预期输出之间进行比较以确定错误时,假定在学习过程中有教师在场。然后可以使用该错误更改网络参数,从而提高性能。

无监督学习

在这种学习方法中,目标输出不会呈现给网络。好像没有老师演示所需的模式,因此,系统通过发现并适应输入模式中的结构特征来学习自己的模式。


3

有监督的学习:您可以输入带有各种标签的示例数据以及正确答案。该算法将从中学习,然后根据输入结果开始预测正确的结果。示例:电子邮件垃圾邮件过滤器

无监督学习:您只是提供数据而不会告诉任何事情-例如标签或正确答案。算法自动分析数据中的模式。范例:Google新闻


3

我会尽量保持简单。

监督学习:在这种学习技术中,我们得到了一个数据集,系统已经知道该数据集的正确输出。因此,在这里,我们的系统通过预测自己的价值来学习。然后,它通过使用成本函数检查其预测与实际输出的接近程度来进行准确性检查。

无监督学习:通过这种方法,我们对结果的了解很少或根本不知道。因此,相反,我们从不知道变量影响的数据中获取结构。我们通过基于数据中变量之间的关系对数据进行聚类来构造结构。在这里,我们没有基于我们的预测的反馈。


2

监督学习

您有输入x和目标输出t。因此,您将训练算法以概括到缺少的部分。受到监督是因为给出了目标。您是告诉算法的主管:对于示例x,您应该输出t!

无监督学习

尽管通常在此方向上考虑分段,聚类和压缩,但我仍然很难为其提供一个良好的定义。

让我们以自动编码器进行压缩为例。虽然您只给出了输入x,但人工工程师如何告诉算法目标也是x。因此从某种意义上说,这与监督学习没有什么不同。

对于聚类和细分,我不太确定它是否真的符合机器学习的定义(请参阅其他问题)。


2

有监督的学习:您已经标记了数据并且必须从中学习。例如房屋数据以及价格,然后学习预测价格

无监督学习:您必须先找到趋势然后进行预测,而无需给出任何预先的标签。例如,班上有不同的人,然后有一个新的人来,那么这个新学生属于哪个组。


1

监督学习中我们知道输入和输出应该是什么。例如,给定一组汽车。我们必须找出哪些是红色的,哪些是蓝色的。

鉴于无监督学习是我们必须找出答案的地方,很少或根本不知道输出的方式。例如,学习者可能能够构建模型,该模型基于面部表情和诸如“您在微笑什么?”之类的词语的相关性来检测人们何时在微笑。


1

监督学习可以基于训练期间的学习将新项目标记为训练后的标签之一。您需要提供大量的培训数据集,验证数据集和测试数据集。如果您提供数字的像素图像矢量以及带有标签的训练数据,则它可以识别数字。

无监督学习不需要训练数据集。在无监督学习中,它可以根据输入向量的差异将项目分为不同的类。如果提供数字的像素图像矢量并将其分类为10个类别,则可以这样做。但是它确实知道如何为它加上标签,因为您还没有提供培训标签。


1

基本上,监督学习是您具有输入变量(x)和输出变量(y)并使用算法来学习从输入到输出的映射函数的地方。之所以称其为有监督,是因为算法是从训练数据集中学习的,算法会反复对训练数据进行预测。受监督有两种类型-分类和回归。分类是当输出变量是yes / no,true / false等类别时。回归是当输出是人的身高,体温等真实值时。

联合国监督学习是我们只有输入数据(X)而没有输出变量的地方。这被称为无监督学习,因为与上面的有监督学习不同,它没有正确的答案,也没有老师。算法由他们自己设计,以发现和呈现数据中有趣的结构。

无监督学习的类型是聚类和关联。


1

监督学习基本上是一种技术,其中机器要从中学习的训练数据已经被标记,这是假设您已经在训练过程中对数据进行了分类的简单偶数分类器。因此,它使用“ LABELLED”数据。

相反,无监督学习是一种机器自己标记数据的技术。或者,您可以说机器从头开始学习的情况。


1

在简单 监督学习中中,机器学习问题属于一种类型,其中我们具有一些标签,并且通过使用这些标签,我们可以实现诸如回归和分类之类的算法。在输出类似于0或1,真/假,是/否。并应用回归,将实际价值(例如价格之家)放出来

无监督学习是一种机器学习问题,其中我们没有任何标签意味着我们只有一些数据,非结构化数据,并且我们必须使用各种无监督算法对数据进行聚类(数据分组)


1

监督机器学习

“从训练数据集中学习算法并预测输出的过程。”

预测输出的准确性与训练数据(长度)成正比

监督学习是您具有输入变量(x)(训练数据集)和输出变量(Y)(测试数据集)的地方,并且您使用算法来学习从输入到输出的映射函数。

Y = f(X)

主要类型:

  • 分类(离散y轴)
  • 预测性(连续y轴)

算法:

  • 分类算法:

    Neural Networks  
    Naïve Bayes classifiers  
    Fisher linear discriminant  
    KNN 
    Decision Tree 
    Super Vector Machines
    
  • 预测算法:

    Nearest  neighbor  
    Linear Regression,Multi Regression 
    

应用领域:

  1. 将电子邮件分类为垃圾邮件
  2. 分类患者是否患有疾病
  3. 语音识别

  4. 预测HR是否选择特定候选人

  5. 预测股市价格


1

监督学习

监督学习算法分析训练数据并产生一个推断函数,该函数可用于映射新示例。

  1. 我们提供训练数据,并且知道某些输入的正确输出
  2. 我们知道输入和输出之间的关系

问题类别:

回归: 预测连续输出中的结果=>将输入变量映射到某个连续函数。

例:

给定一个人的照片,预测他的年龄

分类:预测离散输出的结果=>将输入变量映射为离散类别

例:

这是癌癌吗?

监督学习

无监督学习:

无监督学习从尚未标记,分类或分类的测试数据中学习。无监督学习可识别数据中的共性,并根据每个新数据中是否存在此类共性做出反应。

  1. 我们可以通过基于数据中变量之间的关系对数据进行聚类来得出此结构。

  2. 没有基于预测结果的反馈。

问题类别:

聚类:将一组对象进行分组的任务是,使同一组(称为簇)中的对象彼此之间(在某种意义上)比其他组(聚类)中的对象更相似(在某种意义上)

例:

收集1,000,000个不同的基因,并找到一种方法,将这些基因自动分组为通过不同变量(例如寿命,位置,角色等)在某种程度上相似或相关的组

无监督学习

此处列出了常用的用例。

数据挖掘中分类和聚类之间的区别?

参考文献:

监督学习

无监督学习

来自Coursera的机器学习

走向数据科学


1

监督学习

在此处输入图片说明

无监督学习

在此处输入图片说明

例:

监督学习:

  • 一袋苹果
  • 一袋橙

    =>建立模型

  • 一个混合的袋子苹果和桔子。

    =>请分类

无监督学习:

  • 一个混合的袋子苹果和桔子。

    =>建立模型

  • 另一个混合袋

    =>请分类


1

简单来说.. :)这是我的理解,随时可以纠正。 监督学习是,我们知道根据提供的数据可以预测的内容。因此,我们在数据集中有一列需要确定。 无监督学习是,我们尝试从提供的数据集中提取含义。我们不清楚要预测的内容。那么问题是为什么我们要这样做?.. :)答案是-无监督学习的结果是小组/群体(相似数据在一起)。因此,如果我们收到任何新数据,则将其与已识别的群集/组关联,并了解其功能。

希望对您有帮助。


1

监督学习

监督学习是我们知道原始输入的输出的地方,也就是说,对数据进行标记,以便在机器学习模型的训练期间它将了解需要在给定输出中检测到的内容,并将在训练期间指导系统进行以下操作:在此基础上检测预先标记的对象,它将检测我们在训练中提供的类似对象。

在这里,算法将知道什么是数据的结构和模式。监督学习用于分类

例如,我们可以有一个形状为正方形,圆形,三角形的不同对象,我们的任务是排列相同类型的形状,使标记的数据集具有所有标记的形状,然后我们将在该数据集上训练机器学习模型。根据训练日期集,它将开始检测形状。

无监督学习

无监督学习是一种无指导的学习,其最终结果未知,它将对数据集进行聚类,并根据对象的相似属性将对象划分为不同的束并检测对象。

在这里,算法将在原始数据中搜索不同的模式,并以此为基础对数据进行聚类。无监督学习用于聚类。

例如,我们可以有多个形状分别为正方形,圆形,三角形的对象,因此它将根据对象属性创建束,如果一个对象具有四个侧面,则将其视为正方形,如果三个侧面具有三角形和如果没有比圆更宽的面,则此处的数据未标记,它将学习以检测各种形状


1

机器学习是您尝试使机器模仿人类行为的领域。

您就像婴儿一样训练机器,人类学习,识别特征,识别模式和训练自己的方式,就像通过提供具有各种特征的数据来训练机器的方式一样。机器算法识别数据中的模式并将其分类为特定类别。

机器学习大致分为两类:监督学习和无监督学习。

监督学习是指具有相应目标值(输出)的输入向量/数据的概念;另一方面,无监督学习是指仅具有输入向量/数据而没有任何目标值的概念。

有监督学习的一个示例是手写数字识别,其中您具有带有对应数字[0-9]的数字图像,而无监督学习的一个示例是通过购买行为对客户进行分组。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.