更多信息;假设
- 您事先知道要选择多少个变量,并且您在LARS过程中设置了复杂度损失,例如要使具有不为0系数的变量恰好有多少,
- 计算成本不是问题(变量的总数很小,例如50),
- 所有变量(y,x)都是连续的。
在什么设置下,LARS模型(即LARS拟合中具有非零系数的那些变量的OLS拟合)与系数相同但通过穷举搜索找到的模型(la regsubsets())最大不同?
编辑:我使用的是50个变量和250个观测值,它们的真实系数是从标准高斯得出的,除了10个变量的“真实”系数为0(并且所有特征彼此之间具有很强的相关性)。这些设置显然不好,因为两组所选变量之间的差异很小。这实际上是一个问题,应该模拟哪种类型的数据配置以获得最大的差异。