我想知道是否有任何算法可以同时进行分类和回归。例如,我想让算法学习一个分类器,同时在每个标签内,它也学习一个连续的目标。因此,对于每个训练示例,它都具有分类标签和连续值。
我可以先训练一个分类器,然后再在每个标签中训练一个回归器,但是我只是在想,如果有一种算法可以同时实现这两个功能,那就太好了。
我想知道是否有任何算法可以同时进行分类和回归。例如,我想让算法学习一个分类器,同时在每个标签内,它也学习一个连续的目标。因此,对于每个训练示例,它都具有分类标签和连续值。
我可以先训练一个分类器,然后再在每个标签中训练一个回归器,但是我只是在想,如果有一种算法可以同时实现这两个功能,那就太好了。
Answers:
您所描述的问题可以通过潜在类回归或聚类回归解决,也可以是广义线性模型的扩展混合,而广义线性模型都是有限混合模型或潜在类模型的更广泛成员。
它本身不是分类(监督学习)和回归的结合,而是聚类(无监督学习)和回归的结合。可以扩展基本方法,以便您使用伴随变量来预测类成员身份,这使得它与您正在寻找的内容更加接近。实际上,Vermunt和Magidson(2003)描述了使用隐性类模型进行分类,他将其推荐给这种用途。
这种方法基本上是形式上的有限混合模型(或潜在类分析)
其中是所有参数的向量,而是由参数化的混合成分,每个成分都以潜在比例。因此,我们的想法是数据的分布是成分的混合,每个成分都可以由回归模型出现,概率为来描述。有限混合模型在选择分量时非常灵活,可以扩展到其他形式以及不同类别模型的混合(例如因子分析仪的混合)。
可以将简单的潜在类别回归模型扩展为包括预测类别成员的伴随变量(Dayton和Macready,1998;另请参见:Linzer和Lewis,2011; Grun和Leisch,2008; McCutcheon,1987; Hagenaars和McCutcheon,2009)。 ,在这种情况下,模型变为
其中是所有参数的向量,但我们还包括伴随变量和函数(例如logistic),该函数用于根据伴随变量来预测潜在比例。因此,您可以首先预测类成员资格的概率,并估算单个模型中的聚类回归。
它的优点在于,它是一种基于模型的聚类技术,这意味着您可以将模型拟合到数据中,并且可以使用不同的方法(例如似然比测试,BIC,AIC等)对这些模型进行比较。 ),因此最终模型的选择并不像一般的聚类分析那样主观。将问题分解为两个独立的聚类问题,然后应用回归可能会导致结果有偏差,并且对单个模型中的所有内容进行估算可使您更有效地使用数据。
缺点是您需要对模型做出许多假设并进行一些思考,因此这不是一个黑盒方法,它只会简单地获取数据并返回一些结果而不会打扰您。使用嘈杂的数据和复杂的模型,您还可能遇到模型可识别性问题。此外,由于这种模式是不是受欢迎,有没有被广泛实现的(你可以检查巨大的R程序包flexmix
和poLCA
,据我所知,它也是在SAS和Mplus实施在一定程度上),是什么让你的软件依赖。
在下面,您可以从flexmix
库(Leisch,2004年; Grun和Leisch,2008年)中对两个回归模型与虚构数据进行混合拟合来进行小插图拟合。
library("flexmix")
data("NPreg")
m1 <- flexmix(yn ~ x + I(x^2), data = NPreg, k = 2)
summary(m1)
##
## Call:
## flexmix(formula = yn ~ x + I(x^2), data = NPreg, k = 2)
##
## prior size post>0 ratio
## Comp.1 0.506 100 141 0.709
## Comp.2 0.494 100 145 0.690
##
## 'log Lik.' -642.5452 (df=9)
## AIC: 1303.09 BIC: 1332.775
parameters(m1, component = 1)
## Comp.1
## coef.(Intercept) 14.7171662
## coef.x 9.8458171
## coef.I(x^2) -0.9682602
## sigma 3.4808332
parameters(m1, component = 2)
## Comp.2
## coef.(Intercept) -0.20910955
## coef.x 4.81646040
## coef.I(x^2) 0.03629501
## sigma 3.47505076
在以下绘图中可以直观看到(点形状是真实的类,颜色是分类)。
有关更多详细信息,您可以查看以下书籍和论文:
Wedel,M。和DeSarbo,WS(1995)。广义线性模型的混合似然法。 分类杂志,12,21–55。
Wedel和M. Kamakura,华盛顿(2001)。市场细分–概念和方法论基础。克鲁维尔学术出版社。
Leisch,F.(2004年)。Flexmix:R中有限混合物模型和潜影玻璃回归的通用框架。Journal of Statistics Software,11(8),1-18。
Grun B.和Leisch F.(2008)。FlexMix版本2:具有伴随变量以及变化和恒定参数的有限混合。 统计软件杂志,28(1),1-35。
McLachlan,G.和Peel,D.(2000年)。有限混合模型。约翰·威利父子。
代顿,CM和麦格迪,GB(1988)。伴随变量潜在类模型。美国统计协会杂志,83(401),173-178。
Linzer,DA和Lewis,JB(2011)。poLCA:用于多变量变量潜在类分析的R包。 统计软件杂志,42(10),1-29。
McCutcheon,AL(1987)。潜在类别分析。智者。
Hagenaars JA和McCutcheon,AL(2009)。应用潜在类别分析。剑桥大学出版社。
Vermunt,JK和Magidson,J。(2003)。潜在类模型进行分类。 计算统计与数据分析,41(3),531-537。
GrünB.和Leisch F.(2007)。回归模型的有限混合的应用。flexmix包装小插图。
Grün,B.,&Leisch,F.(2007)。在R.计算统计与数据分析,51(11),5247-5252中拟合广义线性回归的有限混合。