在机器学习的背景下,两者之间有什么区别
- 无监督学习
- 监督学习和
- 半监督学习?
还有哪些主要的算法方法需要研究?
在机器学习的背景下,两者之间有什么区别
还有哪些主要的算法方法需要研究?
Answers:
通常,机器学习的问题可以被认为是用于分类,预测或建模的功能估计的变化。
在监督学习中,有人配备了输入(,,...,)和输出(,,...,),并面临寻找以通用方式近似这种行为的功能的挑战。输出可以是类标签(分类)或实数(回归)-这些是监督学习中的“监督”。
在无监督学习的情况下,在基本情况下,您会收到,,...的输入,但是既没有目标输出,也没有提供来自其环境的奖励。根据问题(分类或预测)和您对采样空间的背景知识,您可以使用各种方法:密度估计(估计一些潜在的PDF以进行预测),k均值聚类(对未标记的实值数据进行分类),k-模式聚类(对未标记的分类数据进行分类)等
半监督学习涉及对标记和未标记数据进行功能估计。这种方法的动机是这样的事实,即标记数据的生成通常会很昂贵,而未标记数据通常不会。这里的挑战主要涉及技术问题,即如何处理以这种方式混合的数据。有关半监督学习方法的更多详细信息,请参见此半监督学习文献调查。
除了这些学习之外,还有其他一些学习,例如强化学习,其中学习方法通过产生动作,,...来与其环境相互作用。。..产生奖赏或惩罚,,...
我不认为有监督/无监督是思考的最佳方法。对于基本数据挖掘,最好考虑一下您要做什么。有四个主要任务:
预测。如果您预测的是实数,则称为回归。如果您要预测整数或类别,则称为分类。
造型。建模与预测相同,但是模型可以被人类理解。神经网络和支持向量机可以很好地工作,但是不能产生可理解的模型[1]。决策树和经典线性回归是易于理解的模型。
相似。如果您要查找自然的属性组,则称为因子分析。如果您要查找自然的观察组,则称为聚类。
协会。它很像相关性,但适用于庞大的二进制数据集。
[1]显然,高盛(Goldman Sachs)创建了许多伟大的神经网络来进行预测,但是没人能理解它们,因此他们不得不编写其他程序来尝试解释神经网络。