我正在尝试阅读有关高维回归领域的研究;当大于,即。似乎经常出现在回归估计量的收敛速度方面。Ñ p > > Ñ 日志p / Ñ
例如,这里的等式(17)表示套索拟合满足 1
通常,这还意味着应该小于。
- 关于\ log p / n的比例为何如此突出,是否有任何直觉?
- 而且,从文献中看来,当\ log p \ geq n时,高维回归问题变得复杂。为什么会这样呢?
- 有没有很好的参考资料来讨论和应增长多快的问题?
我正在尝试阅读有关高维回归领域的研究;当大于,即。似乎经常出现在回归估计量的收敛速度方面。Ñ p > > Ñ 日志p / Ñ
例如,这里的等式(17)表示套索拟合满足 1
通常,这还意味着应该小于。
Answers:
(已按照@Greenparker的要求从评论移至答案)
第1部分)
该项来自(高斯)测量集中度。特别是,如果你有pIID高斯随机变量[F1],其最大的量级σ √概率很高。
该因子只是谈到其实你正在寻找的平均预测误差-也就是说,它的匹配ñ - 1的另一边-如果你看了总误差,也不会在那里。
第2部分)
本质上,您需要控制两种力量:
在经典统计中,我们通常将固定为n,然后使n变为无穷大:对于高维理论而言,该结构不是超级有用的,因为它在构造上是(渐近地)在低维结构中。
或者,我们可以让达到无穷大而n保持固定,但是随着问题变得基本上不可能,我们的错误就会爆发。根据问题的不同,错误可能会达到无穷大或在某个自然上限处停止(例如,100%错误分类错误)。
由于这两种情况都没有用,因此我们考虑将都设为无穷大,以便我们的理论都相关(保持高维)而不会成为世界末日(无限特征,有限数据)。
通常,拥有两个“旋钮”比拥有一个旋钮要难得多,因此我们将固定为某个固定的f,然后让n变为无穷大(因此p间接变为无穷大)。[F2] f的选择确定问题的行为。出于我对第1部分的回答中的原因,事实证明,来自额外功能的“不良”仅以log p增长,而来自额外数据的“良好”则以n增长。
在文献中,有时将这种最后的状态称为“超高维”。据我所知,“超高维”一词没有严格的定义,但非正式地只是“破坏套索和类似估计量的制度”。
我们可以通过在相当理想的条件下进行的小型仿真研究来证明这一点。在这里,我们采取的最优选择理论指导从[BRT09]和挑λ = 3 √。
首先考虑。这就是上述“可处理的”高维状态,并且如理论所预测的,我们看到预测误差收敛到零:
复制代码:
library(glmnet)
library(ggplot2)
# Standard High-Dimensional Asymptotics: log(p) / n -> 0
N <- c(50, 100, 200, 400, 600, 800, 1000, 1100, 1200, 1300)
P <- 3 * N
ERROR_HD <- data.frame()
for(ix in seq_along(N)){
n <- N[ix]
p <- P[ix]
PMSE <- replicate(20, {
X <- matrix(rnorm(n * p), ncol=p)
beta <- rep(0, p)
beta[1:10] <- runif(10, 2, 3)
y <- X %*% beta + rnorm(n)
g <- glmnet(X, y)
## Cf. Theorem 7.2 of Bickel et al. AOS 37(4), p.1705-1732, 2009.
## lambda ~ 2*\sqrt{2} * \sqrt{\log(p)/n}
## is good scaling for controlling prediction error of the lasso
err <- X %*% beta - predict(g, newx=X, s=3 * sqrt(log(p)/n))
mean(err^2)
})
ERROR_HD <- rbind(ERROR_HD, data.frame(PMSE=PMSE, n=n, p=p))
}
ggplot(ERROR_HD, aes(x=n, y=PMSE)) + geom_point() + theme_bw() +
xlab("Number of Samples (n)") +
ylab("Mean Prediction Error (at observed design points)") +
ggtitle("Prediction Error Converging to 0 under High-Dim Asymptotics") +
scale_x_continuous(sec.axis = sec_axis(~ 3 * ., name="Number of Features (p)")) +
scale_y_log10()
我们可以将其与log p的情况进行比较大致保持不变:我称其为“边界”超高维态,但这不是标准术语:
P <- 10 + ceiling(exp(N/120))
在这里,我们看到预测误差(使用与上述相同的设计)趋于平稳,而不是继续为零。
P <- 10 + ceiling(exp(N^(1.03)/120))
尽管我在上面说了什么以及它可能如何出现,但超高维体制实际上并不是完全没有希望(尽管它很接近),但是它需要比仅仅简单的高斯随机变量最大值要复杂得多的技术来控制误差。使用这些复杂技术的需求是您注意到的复杂性的最终来源。
第3部分)
如果您愿意并愿意研究研究文献,我将看看范建清和吕金池的作品,他们在超高维问题上做了大部分基础工作。(“筛选”是一个很好的搜索词)
[F1]实际上,任何亚高斯随机变量,但这并没有为讨论增加太多。
[F3] T. Hastie,R。Tibshirani和M. Wainwright。稀疏的统计学习。统计与应用概率论专着143. CRC出版社,2015年。可从以下地址免费下载:https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf
[BRT] Peter J. Bickel,Ya'acov Ritov和Alexandre B. Tsybakov。“套索和Dantzig选择器的同时分析。” 统计年鉴37(4),p。1705至1732年,2009年http://dx.doi.org/10.1214/08-AOS620