无监督,有监督和半监督学习


27

在机器学习的背景下,两者之间有什么区别

  • 无监督学习
  • 监督学习和
  • 半监督学习?

还有哪些主要的算法方法需要研究?


8
首先,来自Wiki的两行内容:“在计算机科学中,半监督学习是一类机器学习技术,该技术利用标记和未标记的数据进行训练-通常是少量标记数据和大量未标记数据。半监督学习介于无监督学习(没有任何标记的训练数据)和监督学习(具有完全标记的训练数据)之间。” 有帮助吗?

您对“算法方法”有什么想法?我在回答中给出了一些应用程序示例,这就是您想要的吗?
Peter Smit

Answers:


20

通常,机器学习的问题可以被认为是用于分类,预测或建模的功能估计的变化。

监督学习中,有人配备了输入(x1x2,...,)和输出(y1y2,...,),并面临寻找以通用方式近似这种行为的功能的挑战。输出可以是类标签(分类)或实数(回归)-这些是监督学习中的“监督”。

无监督学习的情况下,在基本情况下,您会收到x1x2,...的输入,但是既没有目标输出,也没有提供来自其环境的奖励。根据问题(分类或预测)和您对采样空间的背景知识,您可以使用各种方法:密度估计(估计一些潜在的PDF以进行预测),k均值聚类(对未标记的实值数据进行分类),k-模式聚类(对未标记的分类数据进行分类)等

半监督学习涉及对标记和未标记数据进行功能估计。这种方法的动机是这样的事实,即标记数据的生成通常会很昂贵,而未标记数据通常不会。这里的挑战主要涉及技术问题,即如何处理以这种方式混合的数据。有关半监督学习方法的更多详细信息,请参见此半监督学习文献调查

除了这些学习之外,还有其他一些学习,例如强化学习,其中学习方法通​​过产生动作a1a2,...来与其环境相互作用。。..产生奖赏或惩罚r1r2,...


1
您的回答有点暗示在可行的情况下,监督学习比半监督学习更可取。那是对的吗?如果没有,什么时候半监督学习会更好?
naught101

@ naught101您怎么看他的回答?我同意约翰所说的,但我要说的与您所说的相反,即在任何可能的情况下,半监督学习优于监督学习。就是说,如果您有一些标记数据和一些未标记数据(通常比标记数据的数量要多得多),那么如果可以利用所有数据,则比只使用标记数据要好。使用半监督学习的全部目的是要超越通过进行监督学习或无监督学习而获得的性能。
HelloGoodbye

@HelloGoodbye:因为半监督学习的唯一好处是在某些情况下更便宜,但缺点是更具挑战性。在我看来,完全合理的学习将变得更容易,更准确(在所有其他条件相同的情况下),因为会提供更多的真实数据。所以我只是想问一些例子,考虑到两者之间的选择,最好选择半监督式。您的评论确实有道理,但是否有一种情况是所有数据都被标记了,而您仍然更喜欢半监督?
naught101年7

@ naught101我想如果所有数据都被标记了,那么使用半监督学习而不是普通的监督学习就不会赢得太多。当您拥有大量未标记的数据并进行半监督学习时,看到改进的性能的主要原因是因为您进行了转移学习并且也能够从未标记的数据中汲取经验。
HelloGoodbye

@ naught101但是,通过赋予网络从输出数据中尽可能重现输入数据的任务(即实现自动编码器,这是一种无监督的学习),网络被迫学习数据的良好表示形式。这可以充当一种正则化,这反过来也可以证明是有益的。因此,即使所有数据都将被标记,使用半监督学习而不是常规监督学习也可能会有小小的胜利。我不知道这种影响有多大。
HelloGoodbye

13

无监督学习

无监督学习是指您没有可用于培训的标记数据。这样的例子通常是聚类方法。

监督学习

在这种情况下,您的训练数据不存在于标记数据中。您在此处解决的问题通常是预测没有标签的数据点的标签。

半监督学习

在这种情况下,将同时使用标记数据和未标记数据。例如,这可以在深度信任网络中使用,其中某些层正在学习数据的结构(无监督),而一层用于进行分类(受监督的数据训练)


7

我不认为有监督/无监督是思考的最佳方法。对于基本数据挖掘,最好考虑一下您要做什么。有四个主要任务:

  1. 预测。如果您预测的是实数,则称为回归。如果您要预测整数或类别,则称为分类。

  2. 造型。建模与预测相同,但是模型可以被人类理解。神经网络和支持向量机可以很好地工作,但是不能产生可理解的模型[1]。决策树和经典线性回归是易于理解的模型。

  3. 相似。如果您要查找自然的属性组,则称为因子分析。如果您要查找自然的观察组,则称为聚类。

  4. 协会。它很像相关性,但适用于庞大的二进制数据集。

[1]显然,高盛(Goldman Sachs)创建了许多伟大的神经网络来进行预测,但是没人能理解它们,因此他们不得不编写其他程序来尝试解释神经网络。


您能提供有关GS故事的更多信息吗?(不知道为什么我不能在您的评论直接评论)
YA

我不记得确切在哪里读的书,但是这里有更多关于AI @ GS的信息:hplusmagazine.com/2009/08/06/…–
尼尔·麦奎根

我有一种感觉,其中1,2描述了在有监督的情况下学习,而3,4则描述了在无监督的情况下学习。另外:如果您寻找相似之处以进行预测该怎么办?是否考虑过建模?
Tsjolder先生17年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.