高维回归：为什么

我正在尝试阅读有关高维回归领域的研究；当大于，即。似乎经常出现在回归估计量的收敛速度方面。 $p$ $n$ $p >> n$ $\log p/n$

例如，这里的等式（17）表示套索拟合满足 $\hat{\beta}$

\frac{1}{n} ‖ X \hat{β} - X β ‖_{2}^{2} = O_{P} (σ \sqrt{\frac{\log p}{n}} ‖ β ‖_{1}) .

$\dfrac{1}{n}\|X\hat{\beta} - X \beta\|_2^2 = O_P \left(\sigma \sqrt{\dfrac{\log p}{n} } \|\beta\|_1\right)\,.$

通常，这还意味着 $\log p$ 应该小于 $n$ 。

关于比例为何 $\log p/n$ 如此突出，是否有任何直觉？
而且，从文献中看来，当时，高维回归问题变得复杂 $\log p \geq n$ 。为什么会这样呢？
有没有很好的参考资料来讨论 $p$ 和 $n$ 应增长多快的问题？

— 格林帕克
source

\sqrt{\log p}

$\sqrt{\log p}$ 术语来自（高斯）度量集中度。特别是，如果您有

p

$p$ IID高斯随机变量，则它们的最大值很有可能在

σ \sqrt{\log p}

$\sigma \sqrt{\log p}$ 上。该

n^{- 1}

$n^{-1}$ 因素只是谈到其实你正在寻找的平均预测误差-也就是说，它的匹配

n^{- 1}

$n^{-1}$ 另一边-如果你看了总误差，也不会在那里。

— mweylandt

2.本质上，您需要控制两个力量：i）具有更多数据的良好属性（因此我们希望大）；ii）困难具有更多（不相关）特征（因此我们希望较小）。在经典的统计数据，我们通常可以解决，让趋于无穷：因为它是通过建设低维政权这个政权不是高维理论超好用。或者，我们可以让达到无穷大，而保持固定，但是然后我们的错误就会爆发并达到无穷大。

n

$n$

p

$p$

p

$p$

n

$n$

p

$p$

n

$n$

— mweylandt

因此，我们需要考虑都将变为无穷大，以便我们的理论都是相关的（保持高维）而没有世界末日（无限的特征，有限的数据）。通常，拥有两个“旋钮”要比拥有单个旋钮更难，因此我们将为然后让达到无穷大（因此间接获得）。的选择确定问题的行为。出于我对Q1的回答中的原因，事实证明，来自额外功能的“不良”仅以增长，而来自额外数据的“良好”则以增长。

n, p

$n, p$

p = f (n)

$p = f(n)$

f

$f$

n

$n$

p

$p$

f

$f$

\log p

$\log p$

n

$n$

— mweylandt

因此，如果保持恒定（等效地，对于某些，），我们会踩水。如果（）我们渐近地实现零误差。如果（），则错误最终变为无穷大。在文献中，有时将这种最后的状态称为“超高维”。这并不是没有希望的（尽管很接近），但是它需要比简单的高斯函数来控制错误更多的复杂技术。使用这些复杂技术的需求是您注意到的复杂性的最终来源。

\log p / n

$\log p / n$

p = f (n) = Θ (C^{n})

$p = f(n) = \Theta(C^n)$

C

$C$

\log p / n \to 0

$\log p / n \to 0$

p = o (C^{n})

$p = o(C^n)$

\log p / n \to \infty

$\log p / n \to \infty$

p = ω (C^{n})

$p = \omega(C^n)$

— 姆韦兰特

@mweylandt谢谢，这些评论非常有用。您能否将它们转为正式答案，以便我能更连贯地阅读它们并支持您？

— Greenparker '18

（已按照@Greenparker的要求从评论移至答案）

第1部分）

该项来自（高斯）测量集中度。特别是，如果你有IID高斯随机变量[F1]，其最大的量级 $\sqrt{\log p}$ $p$ 概率很高。 $\sigma\sqrt{\log p}$

该因子只是谈到其实你正在寻找的平均预测误差-也就是说，它的匹配的另一边-如果你看了总误差，也不会在那里。 $n^{-1}$ $n^{-1}$

第2部分）

本质上，您需要控制两种力量：

i）具有更多数据的良好属性（因此我们希望大）； $n$
ii）困难具有更多（不相关）特征（因此我们希望较小）。 $p$

在经典统计中，我们通常将固定为然后使变为无穷大：对于高维理论而言，该结构不是超级有用的，因为它在构造上是（渐近地）在低维结构中。 $p$ $n$

或者，我们可以让达到无穷大而保持固定，但是随着问题变得基本上不可能，我们的错误就会爆发。根据问题的不同，错误可能会达到无穷大或在某个自然上限处停止（例如，100％错误分类错误）。 $p$ $n$

由于这两种情况都没有用，因此我们考虑将都设为无穷大，以便我们的理论都相关（保持高维）而不会成为世界末日（无限特征，有限数据）。 $n, p$

通常，拥有两个“旋钮”比拥有一个旋钮要难得多，因此我们将固定为某个固定的然后让变为无穷大（因此间接变为无穷大）。[F2] 的选择确定问题的行为。出于我对第1部分的回答中的原因，事实证明，来自额外功能的“不良”仅以增长，而来自额外数据的“良好”则以增长。 $p=f(n)$ $f$ $n$ $p$ $f$ $\log p$ $n$

如果保持恒定（对于某些，），我们踩水，问题是冲洗（误差渐近固定）； $\frac{\log p}{n}$ $p=f(n)=Θ(C^n)$ $C$
如果（）渐近地达到零误差； $\frac{\log p}{n} \to 0$ $p=o(C^n)$
如果（），误差最终变为无穷大。 $\frac{\log p}{n}→\infty$ $p=\omega(C^n)$

在文献中，有时将这种最后的状态称为“超高维”。据我所知，“超高维”一词没有严格的定义，但非正式地只是“破坏套索和类似估计量的制度”。

我们可以通过在相当理想的条件下进行的小型仿真研究来证明这一点。在这里，我们采取的最优选择理论指导从[BRT09]和挑 $\lambda$ 。 $\lambda = 3 \sqrt{\log(p)/n}$

首先考虑。这就是上述“可处理的”高维状态，并且如理论所预测的，我们看到预测误差收敛到零： $p = f(n) = 3n$

复制代码：

library(glmnet)
library(ggplot2)

# Standard High-Dimensional Asymptotics: log(p) / n -> 0

N <- c(50, 100, 200, 400, 600, 800, 1000, 1100, 1200, 1300)
P <- 3 * N

ERROR_HD <- data.frame()

for(ix in seq_along(N)){
  n <- N[ix]
  p <- P[ix]

  PMSE <- replicate(20, {
    X <- matrix(rnorm(n * p), ncol=p)
    beta <- rep(0, p)
    beta[1:10] <- runif(10, 2, 3)
    y <- X %*% beta + rnorm(n)

    g <- glmnet(X, y)

    ## Cf. Theorem 7.2 of Bickel et al. AOS 37(4), p.1705-1732, 2009. 
    ## lambda ~ 2*\sqrt{2} * \sqrt{\log(p)/n} 
    ## is good scaling for controlling prediction error of the lasso
    err <- X %*% beta - predict(g, newx=X, s=3 * sqrt(log(p)/n))
    mean(err^2)
  })

  ERROR_HD <- rbind(ERROR_HD, data.frame(PMSE=PMSE, n=n, p=p))
}

ggplot(ERROR_HD, aes(x=n, y=PMSE)) + geom_point() + theme_bw() + 
xlab("Number of Samples (n)") + 
ylab("Mean Prediction Error (at observed design points)") + 
ggtitle("Prediction Error Converging to 0 under High-Dim Asymptotics") + 
scale_x_continuous(sec.axis = sec_axis(~ 3 * ., name="Number of Features (p)")) + 
scale_y_log10()

我们可以将其与的情况进行比较大致保持不变：我称其为“边界”超高维态，但这不是标准术语： $\frac{\log p}{n}$

P <- 10 + ceiling(exp(N/120))

在这里，我们看到预测误差（使用与上述相同的设计）趋于平稳，而不是继续为零。

$P$ $e^n$ $e^{n^2}$ $e^{n^2}$

P <- 10 + ceiling(exp(N^(1.03)/120))

$X$ $e^{n^1.5}$

尽管我在上面说了什么以及它可能如何出现，但超高维体制实际上并不是完全没有希望（尽管它很接近），但是它需要比仅仅简单的高斯随机变量最大值要复杂得多的技术来控制误差。使用这些复杂技术的需求是您注意到的复杂性的最终来源。

$p, n$ $p = f(n)$

第3部分）

$\log p$ $n$

$n, p$ $n, p$

如果您愿意并愿意研究研究文献，我将看看范建清和吕金池的作品，他们在超高维问题上做了大部分基础工作。（“筛选”是一个很好的搜索词）

[F1]实际上，任何亚高斯随机变量，但这并没有为讨论增加太多。

$s$ $n$ $s = g(n)$

[F3] T. Hastie，R。Tibshirani和M. Wainwright。稀疏的统计学习。统计与应用概率论专着143. CRC出版社，2015年。可从以下地址免费下载：https：//web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf

[BRT] Peter J. Bickel，Ya'acov Ritov和Alexandre B. Tsybakov。“套索和Dantzig选择器的同时分析。” 统计年鉴37（4），p。1705至1732年，2009年http://dx.doi.org/10.1214/08-AOS620

— 姆韦兰特
source

\log p / n

$\log p/n$

n

$n$