有监督的学习与无监督的学习到底有什么区别?


28

我正在尝试了解聚类方法。

我想我明白的是:

  1. 在监督学习中,分配给类别/标签的数据在计算之前是已知的。因此,使用标签,类或类别来“学习”对于那些集群真正重要的参数。

  2. 在无监督学习中,将数据集分配给段,而无需了解聚类。

这是否意味着,如果我什至不知道哪个参数对于细分至关重要,我应该喜欢监督学习?


2
注意,聚类不是唯一的无监督学习类型。
乔治

1
当有标签的训练数据可用时,优选监督学习。您可以使用受监督或不受监督的方法对数据进行分区。主要区别在于在监督设置中,您知道训练数据的正确细分。
尼克

Answers:


23

不同之处在于在监督学习中,“类别”,“类”或“标签”是已知的。在无监督学习中,它们不是,并且学习过程会尝试找到适当的“类别”。在两种学习中,所有参数都被认为是确定最适合执行分类的参数。

选择是受监管还是不受监管,应基于您是否知道数据的“类别”是什么。如果您知道,请使用监督学习。如果您不知道,则使用无监督。

由于您有大量参数,而且您不知道哪些参数是相关的,因此可以使用主成分分析之类的方法来帮助确定相关的参数。


13

请注意,有两个以上的监督程度。例如,请参阅Christian Biemann博士论文中的24-25(6-7)页,《结构发现范式中的无监督和无知识的自然语言处理》,2007年。

论文确定了4个级别:有监督,半监督,弱监督和无监督,并解释了自然语言处理环境下的差异。以下是相关定义:

  • 监督系统中,提供给机器学习算法的数据被完全标记。这意味着:所有示例都带有机器要复制的分类。为此,从数据中学习分类器,将标签分配给尚未看到的实例的过程称为分类。
  • 半监督系统中,允许机器另外考虑未标记的数据。由于数据基础较大,半监督系统通常使用相同的标记示例胜过其监督的同类产品。进行此改进的原因是,更多未标记的数据使系统能够更准确地对数据的固有结构进行建模。
  • 自举,也称为自我训练,是一种学习形式,旨在使用更少的训练示例,因此有时也称为弱监督。自举以几个训练示例开始,训练一个分类器,并使用该分类器产生的被认为是积极的示例进行重新训练。随着训练示例集的增加,分类器也会有所改进,但前提是没有太多的负面示例被误分类为正面,这可能导致性能下降。
  • 没有监督的系统根本没有提供任何培训示例,并且无法进行聚类。这是将数据实例分为几个组。聚类算法的结果是数据驱动的,因此更“自然”,更适合于数据的基础结构。这个优点也是它的主要缺点:无法告诉机器要做什么(类似于分类),很难以结论性的方式判断聚类结果的质量。但是,缺少训练示例的准备工作使得无监督范式非常有吸引力。

0

在监督学习中,班级是预先知道的,并且它们的类型也是已知的,例如,两个班级的好顾客和坏顾客。当新对象(客户)基于其属性出现时,可以将客户分配给不良或良好的客户类别。

在无监督学习中,尚不知道组/类,我们有对象(客户),因此将具有相似购买习惯的顾客分组,因此,根据相似的购买习惯,对顾客进行了不同的分组,即未知。


0

在监督学习中,输出(因变量)取决于输入变量(因变量)。在某些给定的监督中,响应者尝试计算所需的目标。

在无监督学习中,没有监督,因此系统会尝试适应这种情况,并基于某种测度进行手动学习。

例如:班主任-监督-有监督的学习自学选修课-无监督无监督的学习

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.