统计和大数据 regularization

6

为什么L1范数适用于稀疏模型

我正在阅读有关线性回归的书籍。关于L1和L2范数有一些句子。我了解它们，只是不明白为什么L1规范适用于稀疏模型。有人可以给一个简单的解释吗？

97 regression lasso regularization ridge-regression

3

回归分析中的套索是什么？

我正在寻找套索的非技术定义及其用途。

81 regression lasso regularization shrinkage

3

套索为什么提供变量选择？

我一直在阅读《统计学习的元素》，我想知道为什么套索不能提供变量选择，而岭回归却不提供。两种方法都将残差平方和最小化，并对参数的可能值具有约束。对于套索，约束是，而对于山脊，约束是，对于某些。ββ\beta| | β | | 2 ≤ 吨吨||β||1≤t||β||1≤t||\beta||_1 \le t||β||2≤t||β||2≤t||\beta||_2 \le tttt 我已经看过这本书中的菱形与椭圆形图片，对于套索为什么会碰到约束区域的角点，我有一些直觉，这意味着系数之一设置为零。但是，我的直觉很弱，我没有被说服。它应该很容易看到，但是我不知道为什么这是真的。因此，我想我正在寻找数学上的证明，或者是对为什么残留平方和的轮廓可能会击中约束区域的角的直观解释（而这种情况不太可能发生，约束是）。| | β | | 2||β||1||β||1||\beta||_1||β||2||β||2||\beta||_2

75 regression feature-selection lasso regularization

5

普通英语的正则化是什么？

与其他文章不同，我发现非数学家（如我）无法阅读该主题的维基百科条目。我了解基本概念，即您倾向于使用规则较少的模型。我没有得到的是如何从一组规则获得一个“正则化分数”，该分数可用于对模型进行分类（从最小拟合到最大拟合）。您能描述一个简单的正则化方法吗？我对分析统计交易系统感兴趣。如果您能描述是否/如何应用正则化来分析以下两个预测模型，那就太好了：模型1-在以下情况下价格上涨： exp_moving_avg（价格，期间= 50）> exp_moving_avg（价格，期间= 200）模型2-在以下情况下价格上涨：价格[n] <价格[n-1]连续10次 exp_moving_avg（价格，期间= 200）上升但是我对了解如何进行正则化更感兴趣。因此，如果您知道更好的模型来进行说明，请这样做。

73 regularization

6

L2正则化等效于高斯先验

我一直在阅读，直觉上我可以看到这一点，但是从L2正则化到分析上说这是一个高斯先验又如何呢？说L1等于拉普拉斯先验也是如此。任何进一步的参考将是伟大的。

56 regression references regularization

2

收缩为什么起作用？

为了解决模型选择的问题，许多方法（LASSO，岭回归等）会将预测变量的系数缩小为零。我正在寻找一个直观的解释，为什么这会提高预测能力。如果变量的真实影响实际上很大，为什么不缩小参数会导致更糟的预测呢？

55 lasso regularization ridge-regression intuition shrinkage

7

为什么将正则化项“加”到成本函数上（而不是相乘等）？

每当使用正则化时，通常会将其添加到成本函数中，例如以下成本函数中。这对我来说很直观，因为将代价函数意味着同时最小化误差（左项）和最小化系数的大小（右项）（或至少平衡两个最小化）。J(θ)=12(y−θXT)(y−θXT)T+α∥θ∥22J(θ)=12(y−θXT)(y−θXT)T+α‖θ‖22 J(\theta)=\frac 1 2(y-\theta X^T)(y-\theta X^T)^T+\alpha\|\theta\|_2^2 我的问题是，为什么将这个正则化项α∥θ∥22α‖θ‖22\alpha\|\theta\|_2^2加到原始成本函数上而不是相乘，还是将正则化思想背后的动机精神保留下来？是因为如果我们仅在其上添加一个术语就足够简单并且可以使我们解析地解决这个问题，还是有更深层次的原因？

51 regularization

6

在高维度（

考虑一个具有预测变量和样本大小旧回归问题。通常的看法是，OLS估计量将过拟合，并且通常会比岭回归估计量好：通常使用交叉验证来找到最佳正则化参数。在这里，我使用10倍CV。澄清更新：当，通过“ OLS估计器”，我理解给出的“最小范数OLS估计器”pppβ = （X ⊤ X + λ 我）- 1 X ⊤ ÿ 。λ Ñ < p β OLS = （X ⊤ X ）+ X ⊤ Ŷ = X + ý 。nnnβ^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = (X^\top X + \lambda I)^{-1}X^\top y.λλ\lambdan<pn<pn1000yyyp=50<np=50<np=50npppp=1000p=1000p=1000λ→0λ→0\lambda\to 0与最佳岭回归效果一样好。λλ\lambda 这怎么可能？它对我的数据集有何影响？我是否遗漏了一些明显的东西，或者确实违反直觉？假设和都大于，则在质上有什么区别？p = 1000 np=100p=100p=100p=1000p=1000p=1000nnn 在什么条件下最小范数OLS解决方案不会过拟合？n<pn<pn<p 更新：注释中有些令人难以置信，因此这是使用的可复制示例glmnet。我使用Python，但是R用户可以轻松修改代码。 %matplotlib notebook import numpy …

50 cross-validation regularization overfitting ridge-regression shrinkage

6

为什么在现代统计/机器学习中不检查多重共线性

在传统统计中，在建立模型时，我们使用方差膨胀因子（VIF）估计之类的方法检查多重共线性，但在机器学习中，我们使用正则化进行特征选择，并且似乎不检查特征是否相关完全没有我们为什么要这样做？

44 regression machine-learning multicollinearity regularization vif

3

Logistic回归的正则化方法

使用诸如Ridge，Lasso，ElasticNet之类的方法进行正则化对于线性回归非常普遍。我想了解以下内容：这些方法是否适用于逻辑回归？如果是这样，则将它们用于逻辑回归的方式是否存在任何差异？如果这些方法不适用，如何对逻辑回归进行正则化？

42 regression logistic regularization

1

神经网络：体重变化动量和体重衰减

动量用于减少连续迭代中权重变化的波动：αα\alpha È（瓦特）瓦特ηΔωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), 其中是误差函数， -权重向量，学习率。E(w)E(w)E({\bf w})ww{\bf w}ηη\eta 重量衰减会影响重量变化：λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- \eta\frac{\partial E}{\partial w_i} - \lambda\eta\omega_i 问题是，在反向传播过程中将这两种技巧结合在一起是否有意义，并且会产生什么效果？ Δωi(t+1)=−η∂E∂wi+αΔωi(t)−ληωiΔωi(t+1)=−η∂E∂wi+αΔωi(t)−ληωi\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t) - \lambda\eta\omega_i

41 neural-networks optimization regularization gradient-descent

5

如何得出岭回归解？

我在脊回归解决方案的推导中遇到一些问题。我知道没有正则化项的回归解决方案： β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. 但是在将L2项到成本函数之后，解决方案变成了λ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.

40 regression least-squares regularization ridge-regression

3

使用交叉验证时针对一种标准错误规则的经验论证

是否有任何经验研究证明使用一个标准误差规则来支持简约？显然，这取决于数据的数据生成过程，但是任何分析大量数据集的内容都会非常有趣。通过交叉验证（或更普遍地通过任何基于随机化的过程）选择模型时，将应用“一个标准错误规则”。假设我们考虑由复杂性参数索引的模型，使得恰好在时比 “复杂” 。进一步假设我们通过某种随机化过程（例如，交叉验证）评估模型的质量。让表示的“平均”质量，例如，在许多交叉验证运行，平均出球袋预测误差。我们希望最小化此数量。 τ ＆Element; [R 中号τ 中号τ ' τ > τ '中号q （中号）中号MτMτM_\tauτ∈Rτ∈R\tau\in\mathbb{R}MτMτM_\tauMτ′Mτ′M_{\tau'}τ>τ′τ>τ′\tau>\tau'MMMq(M)q(M)q(M)MMM 但是，由于我们的质量度量来自某种随机化程序，因此具有可变性。令表示随机试验中的质量标准误差，例如，交叉验证试验中的袋外预测误差的标准偏差。M Ms(M)s(M)s(M)MMMMMM 然后我们选择模型，其中是最小的使得 τ τMτMτM_\tauττ\tauττ\tau q(Mτ)≤q(Mτ′)+s(Mτ′),q(Mτ)≤q(Mτ′)+s(Mτ′),q(M_\tau)\leq q(M_{\tau'})+s(M_{\tau'}), 其中索引（平均）最佳模型。τ′τ′\tau'q(Mτ′)=minτq(Mτ)q(Mτ′)=minτq(Mτ)q(M_{\tau'})=\min_\tau q(M_\tau) 也就是说，我们选择最简单的模型（最小的 ττ\tau），在随机化过程中，该模型的误差不超过最佳模型Mτ′Mτ′M_{\tau'}。我已经在以下地方找到了这种“一个标准错误规则”，但是从来没有任何明确的理由： Breiman，Friedman，Stone＆Olshen（1984）的分类树和回归树中的第80页 Tibshirani，Walther和Hastie的《通过间隙统计估计数据集中的簇数》中的第415页（JRSS B，2001年）（参考Breiman等人）。 Hastie，Tibshirani和Friedman在2009年的《统计学习要素》中的第61和244页 Hastie，Tibshirani和Wainwright（2015）在《稀疏的统计学习》中的第13页

39 cross-validation model-selection regularization

7

为什么不进行正则化解决深度神经网络对数据的渴望？

我通常在神经网络（尤其是深度神经网络）的环境中经常遇到的一个问题是，它们“渴望数据”-也就是说，除非我们拥有大量数据集，否则它们的性能将不佳用来训练网络。我的理解是，这是由于NNet（尤其是Deep NNet）具有许多自由度的事实。因此，作为一个模型，NNet具有大量参数，并且如果模型的参数数量相对于训练数据点的数量很大，则存在过拟合的趋势。但是，为什么不能通过正则化解决此问题？据我所知，NNets可以使用L1和L2正则化，也有自己的正则化方法（例如dropout），可以减少网络中的参数数量。我们是否可以选择我们的正则化方法以使它们强制简约并限制网络的大小？为了阐明我的想法：假设我们使用大型Deep NNet来尝试对数据建模，但是数据集很小，实际上可以通过线性模型建模。那么为什么网络权重不会以一种神经元模拟线性回归而所有其他神经元收敛为零的方式收敛呢？为什么正则化对此没有帮助？

37 neural-networks deep-learning regularization

3

为什么我们只看到和正则化而看不到其他规范？

我很好奇为什么通常只有和规范正则化。有证据证明为什么这些更好吗？L1L1L_1L2L2L_2

36 lasso regularization ridge-regression

Questions tagged «regularization»