是否存在“无监督回归”?


Answers:


20

我以前从未遇到过这个学期。我不确定它会在统计领域中传播光明还是黑暗:机器学习(有监督和无监督的区别对于解决问题至关重要)和推论统计(其中最常使用回归,确认分析和NHST)。

在这两种哲学重叠的地方,大多数回归和相关术语都在严格监督的环境中抛出。但是,我认为无监督学习中的许多现有概念与基于回归的方法密切相关,尤其是当您天真地将每个类或功能作为结果迭代并汇总结果时。PCA和双变量相关分析就是一个例子。通过对多个变量迭代地应用最佳子集回归,您可以进行非常复杂的网络估算,如结构方程建模中所假设的那样(严格意义上是EFA)。在我看来,这似乎是无监督的回归学习问题。

但是,回归参数估计值不是自反的。对于简单的线性回归,回归X会给你不同的结果,不同的推断和不同的估计(甚至逆不一定),比Xÿ。在我看来,这种可交换性的缺乏使大多数幼稚的回归应用都不适合无监督的学习问题。ÿXXÿ


4
+1,我投票给黑暗。Google搜索产生了许多对“无监督回归”的引用,其中许多具有结构方程模型/潜在类的风味。从对这些论文的简要回顾中,我个人倾向于将它们描述为将最小二乘法(LS)和期望最大化(EM)方法应用于无监督问题,而不是“无监督回归”
JBK 2013年

谢谢!我想知道无监督学习问题是否具有可交换性?
2013年

我遇到的大多数无监督学习应用程序都涉及协方差估计和(高度相关)聚类。因为在这些应用程序中,您可以任意排列数据列而不会造成任何困扰,并且无需将变量指定为功能或响应,所以我想说这些应用程序是可交换的。
AdamO 2013年

4

我能想到的最接近的东西是几年前宣布时引起人们注意的一点黑魔法,但我不认为它在社区中获得了任何真正的吸引力。作者开发了一个统计信息,称为“最大信息系数(MIC)”。他们方法背后的总体思路是获取高维数据,将每个变量对成对绘制,然后对每个图应用有趣的窗口合并算法(计算这两个变量的MIC),以确定是否存在可能是两个变量之间的关系。该技术被认为在识别任意结构化的关系方面很强大,而不仅仅是线性的。

该技术的目标是成对的变量,但是我相信它可以扩展到研究多元关系。主要的问题是,您必须对越来越多的变量组合使用该技术,因为您需要对越来越多的变量进行排列。我想使用一对可能会花费一些时间:即使是在遥远的高维数据上尝试使用它,并考虑比变量对更复杂的关系也会变得难以处理。

参考论文《在大型数据集中检测新颖关联》(2011年)


0

自动回归是一种计算矩阵权重的方法,可将给定输入中的重构输入的误差最小化。


0

在研究有监督方法与无监督方法之间的区别时,我想到了这个问题。来自计量经济学背景,我更喜欢在模型中进行思考,因为我遇到的大多数机器学习文献都将重点放在方法上,这减慢了我的理解。

到目前为止,我发现clustering(无监督)与classification(有监督)之间应该严格区分。这些模型设计之间的关系的连续类比是principal component analysis(无监督)与linear regression(有监督)。

但是,我认为聚类和分类之间的关系纯粹是巧合。仅当我们将两个模型设计都解释为描述几何关系时,它才存在,我发现这是不必要的限制。我所知道的所有无监督方法(k均值,弹性映射算法,例如kohonen /神经气体,DBSCAN,PCA)也可以解释为潜在变量模型。在群集方法的情况下,这相当于将属于群集的状态视为处于状态,可以通过引入状态虚拟变量将其编码为潜在变量模型。

如果将其解释为潜变量模型,则可以自由指定任何可能的非线性模型,这些模型可以用连续潜变量来描述您的特征。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.