您希望LARS找到的模型与穷举搜索找到的模型有何不同?


9

更多信息;假设

  1. 您事先知道要选择多少个变量,并且您在LARS过程中设置了复杂度损失,例如要使具有不为0系数的变量恰好有多少,
  2. 计算成本不是问题(变量的总数很小,例如50),
  3. 所有变量(y,x)都是连续的。

在什么设置下,LARS模型(即LARS拟合中具有非零系数的那些变量的OLS拟合)与系数相同但通过穷举搜索找到的模型(la regsubsets())最大不同?

编辑:我使用的是50个变量和250个观测值,它们的真实系数是从标准高斯得出的,除了10个变量的“真实”系数为0(并且所有特征彼此之间具有很强的相关性)。这些设置显然不好,因为两组所选变量之间的差异很小。这实际上是一个问题,应该模拟哪种类型的数据配置以获得最大的差异。

Answers:


1

这是LARS算法的描述:http ://www-stat.stanford.edu/~tibs/lasso/simple.html 这种类型忽略了回归变量之间的相关性,因此我敢冒险猜测它可能会错过多重共线性时的拟合。


这实际上是促使我提出问题的原因。我用50个变量模拟了设置,其中vif的最大值超过30,并且我仍然发现两种方法之间的差异很小(例如,在所选模型的R ^ 2方面)。
user603 2011年

1
我本人在stepAIC和lars上找到了不同的答案,并且可以想象我的问题将由LASSO组处理-它与整个矩阵的VIF无关,而与许多相关变量簇有关。
亚历克斯(Alex)

有趣的...您如何生成此类数据?(即具有相关变量的簇)
2011年

将内部具有相关性的多个独立组堆叠在一起。我本人也对许多品牌提出了同样的问题-人们倾向于喜欢自己选择的品牌,而又不喜欢其他品牌。
亚历克斯(Alex)

3

与样本数量相关的功能越多,与LARS相比,精致的搜索方法可能会带来更多的拟合。LARS中使用的惩罚项强加了一个越来越复杂的模型的嵌套结构,该结构由单个正则化参数索引,因此LARS进行特征选择的“自由度”相当低。对于精细搜索,每个特征实际上具有一个(二进制)自由度,这意味着由于数据的随机采样,精细搜索能够更好地利用特征选择标准中的随机可变性。结果,随着“假设类别”变大,详尽的搜索模型可能会严重地不适合特征选择标准。


您的回答似乎与我的问题无关。明确地说:我真的很感兴趣生成这样的情况,即LARS选择为活动的变量的子集与穷举搜索选择的变量的子集最大不同,例如,用LARS模型之间的R ^ 2之差来衡量和具有有效变量数目的穷举搜索模型。您能想到这种差异会很大的对手情况吗?您可以用这些术语重新表述您的答案吗?
user603 2011年

3
我的回答与您的问题直接相关。过度拟合的程度不仅受特征数量的控制,还受权重值的控制。因此,可以在不使用更多功能的情况下过度拟合。LARS会对权重的大小进行惩罚,因此它不会选择仅以损失较大的权重为代价来减少平方损失的特征,这就是为什么它不太容易过拟合的原因。精致的搜索方法基本上是过度拟合的秘诀,因此在可能发生过度拟合的情况下,您将获得截然不同的解决方案。
Dikran有袋动物

好的,我明白你的意思:它来自我在原始问题中掩盖的内容(并希望现在可以更清楚地说明这一点)。我真的是在这里比较苹果与苹果(即所选模型),换句话说,使用LARS选择的变量对OLS进行拟合(R ^ 2),而使用那些进行OLS进行拟合对(R ^ 2)通过详尽搜索选择的变量。我没有直接使用LARS系数....
user603

3
它不是正交的,没有一个模型就不可能比另一个模型更好。在可能过度拟合的情况下,基于探索性搜索的模型可能会不稳定,即,如果您收集不同的500个样本,则可能会获得不同的功能集。另一方面,LARS更稳定。50个要素和500个样本是否会导致过度拟合取决于数据集的性质,但是肯定有可能。穷举搜索可能会选择能够解释该样本特有变异性的特征;LARS少了。
Dikran有袋动物2011年

2
如果您可以解释为什么要这样做,可能会有所帮助。我怀疑您需要查看的是真实模型权重的大小以及数据分布的大小。惩罚回归模型(LASSO,LARS,Elaris net,岭回归)在权重的预期分布上具有先验性,因此,如果您的数据集无效,那么这可能是一个很好的起点。
Dikran有袋动物
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.