您希望LARS找到的模型与穷举搜索找到的模型有何不同？

更多信息；假设

您事先知道要选择多少个变量，并且您在LARS过程中设置了复杂度损失，例如要使具有不为0系数的变量恰好有多少，
计算成本不是问题（变量的总数很小，例如50），
所有变量（y，x）都是连续的。

在什么设置下，LARS模型（即LARS拟合中具有非零系数的那些变量的OLS拟合）与系数相同但通过穷举搜索找到的模型（la regsubsets（））最大不同？

编辑：我使用的是50个变量和250个观测值，它们的真实系数是从标准高斯得出的，除了10个变量的“真实”系数为0（并且所有特征彼此之间具有很强的相关性）。这些设置显然不好，因为两组所选变量之间的差异很小。这实际上是一个问题，应该模拟哪种类型的数据配置以获得最大的差异。

regression model-selection

— 用户603
source

Answers:

这是LARS算法的描述：http ://www-stat.stanford.edu/~tibs/lasso/simple.html 这种类型忽略了回归变量之间的相关性，因此我敢冒险猜测它可能会错过多重共线性时的拟合。

— 亚历克斯
source

这实际上是促使我提出问题的原因。我用50个变量模拟了设置，其中vif的最大值超过30，并且我仍然发现两种方法之间的差异很小（例如，在所选模型的R ^ 2方面）。

— user603 2011年

我本人在stepAIC和lars上找到了不同的答案，并且可以想象我的问题将由LASSO组处理-它与整个矩阵的VIF无关，而与许多相关变量簇有关。

— 亚历克斯（Alex）

有趣的...您如何生成此类数据？（即具有相关变量的簇）

— 2011年

将内部具有相关性的多个独立组堆叠在一起。我本人也对许多品牌提出了同样的问题-人们倾向于喜欢自己选择的品牌，而又不喜欢其他品牌。

— 亚历克斯（Alex）

与样本数量相关的功能越多，与LARS相比，精致的搜索方法可能会带来更多的拟合。LARS中使用的惩罚项强加了一个越来越复杂的模型的嵌套结构，该结构由单个正则化参数索引，因此LARS进行特征选择的“自由度”相当低。对于精细搜索，每个特征实际上具有一个（二进制）自由度，这意味着由于数据的随机采样，精细搜索能够更好地利用特征选择标准中的随机可变性。结果，随着“假设类别”变大，详尽的搜索模型可能会严重地不适合特征选择标准。

— 迪克兰有袋动物
source

您的回答似乎与我的问题无关。明确地说：我真的很感兴趣生成这样的情况，即LARS选择为活动的变量的子集与穷举搜索选择的变量的子集最大不同，例如，用LARS模型之间的R ^ 2之差来衡量和具有有效变量数目的穷举搜索模型。您能想到这种差异会很大的对手情况吗？您可以用这些术语重新表述您的答案吗？

— user603 2011年

我的回答与您的问题直接相关。过度拟合的程度不仅受特征数量的控制，还受权重值的控制。因此，可以在不使用更多功能的情况下过度拟合。LARS会对权重的大小进行惩罚，因此它不会选择仅以损失较大的权重为代价来减少平方损失的特征，这就是为什么它不太容易过拟合的原因。精致的搜索方法基本上是过度拟合的秘诀，因此在可能发生过度拟合的情况下，您将获得截然不同的解决方案。

— Dikran有袋动物

好的，我明白你的意思：它来自我在原始问题中掩盖的内容（并希望现在可以更清楚地说明这一点）。我真的是在这里比较苹果与苹果（即所选模型），换句话说，使用LARS选择的变量对OLS进行拟合（R ^ 2），而使用那些进行OLS进行拟合对（R ^ 2）通过详尽搜索选择的变量。我没有直接使用LARS系数....

— user603

它不是正交的，没有一个模型就不可能比另一个模型更好。在可能过度拟合的情况下，基于探索性搜索的模型可能会不稳定，即，如果您收集不同的500个样本，则可能会获得不同的功能集。另一方面，LARS更稳定。50个要素和500个样本是否会导致过度拟合取决于数据集的性质，但是肯定有可能。穷举搜索可能会选择能够解释该样本特有变异性的特征；LARS少了。

— Dikran有袋动物2011年

如果您可以解释为什么要这样做，可能会有所帮助。我怀疑您需要查看的是真实模型权重的大小以及数据分布的大小。惩罚回归模型（LASSO，LARS，Elaris net，岭回归）在权重的预期分布上具有先验性，因此，如果您的数据集无效，那么这可能是一个很好的起点。

— Dikran有袋动物