Questions tagged «regularization»

在模型拟合过程中包括其他约束(通常是复杂性的代价)。用于防止过度拟合/提高预测准确性。

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 



6
为什么较小的权重会导致正规化模型更简单?
大约一年前,我完成了Andrew Ng的机器学习课程,现在正在写我的高中数学探索性知识,介绍Logistic回归的工作原理和优化性能的技术。这些技术之一当然是正则化。 正则化的目的是通过扩展成本函数以包括模型简化的目标来防止过度拟合。我们可以通过将权重的每一个乘以平方,再乘以一些正则化参数,来对权重的大小进行惩罚,从而实现这一目标。 现在,机器学习算法将旨在减小权重的大小,同时保持训练集的准确性。我们的想法是,我们将到达中间的某个点,在这里我们可以生成一个模型,该模型可以对数据进行泛化,而不会因为复杂度降低而无法适应所有随机噪声。 我的困惑是为什么我们要惩罚砝码的大小?为什么较大的权重创建更复杂的模型,为什么较小的权重创建更简单/平滑的模型?吴安德(Andrew Ng)在他的演讲中声称,这种解释很难讲,但我想我现在正在寻找这种解释。 Ng教授确实给出了一个示例,说明新的成本函数如何使要素的权重(即x ^ 3和x ^ 4)趋于零,从而降低了模型的程度,但这并不能创建一个完整的模型。说明。 我的直觉是,具有较小指数的特征将比具有较小指数的特征更易于接受(因为具有较小权重的特征就像函数的基础一样)。较小的权重意味着对高阶特征的较小“贡献”。但是这种直觉不是很具体。


3
为什么对套索识别的变量子集使用套索估计而不是OLS估计?
对于套索回归假设最佳解决方案(例如最小测试误差)选择了k个特征,这样\ hat {\ beta} ^ {lasso} = \ left(\ hat {\ beta} _1 ^ {lasso},\ hat {\ beta} _2 ^ {lasso},...,\ hat {\ beta} _k ^ {lasso},0,... 0 \ right)。L(β)=(Xβ−y)′(Xβ−y)+λ∥β∥1,L(β)=(Xβ−y)′(Xβ−y)+λ‖β‖1,L(\beta)=(X\beta-y)'(X\beta-y)+\lambda\|\beta\|_1,kkkβ^lasso=(β^lasso1,β^lasso2,...,β^lassok,0,...0)β^lasso=(β^1lasso,β^2lasso,...,β^klasso,0,...0)\hat{\beta}^{lasso}=\left(\hat{\beta}_1^{lasso},\hat{\beta}_2^{lasso},...,\hat{\beta}_k^{lasso},0,...0\right) 我们知道(β^lasso1,β^lasso2,...,β^lassok)(β^1lasso,β^2lasso,...,β^klasso)\left(\hat{\beta}_1^{lasso},\hat{\beta}_2^{lasso},...,\hat{\beta}_k^{lasso}\right)是一个\ left(\ beta_1,\ beta_2,...,\ beta_k \ right)的估计值有偏差(β1,β2,...,βk)(β1,β2,...,βk)\left(\beta_1,\beta_2,...,\beta_k\right),所以为什么我们仍将β^lassoβ^lasso\hat{\beta}^{lasso}作为最终解决方案,而不是更“合理的” β^new=(β^new1:k,0,...,0)β^new=(β^1:knew,0,...,0)\hat{\beta}^{new}=\left(\hat{\beta}_{1:k}^{new},0,...,0\right),其中β^new1:kβ^1:knew\hat{\beta}_{1:k}^{new}是部分模型Lnew(β1:k)=(X1:kβ−y)′(X1:kβ−y)Lnew(β1:k)=(X1:kβ−y)′(X1:kβ−y)L^{new}(\beta_{1:k})=(X_{1:k}\beta-y)'(X_{1:k}\beta-y)。(X1:kX1:kX_{1:k}表示与k个所选要素相对应的X列)。XXXkkk 简而言之,为什么我们同时将Lasso用于特征选择和参数估计,而不是仅用于变量选择(并将选定特征的估计留给OLS)? (此外,“套索最多可以选择nnn特征” 是什么意思?nnn是样本大小。)

5
最高主成分如何保持对因变量的预测能力(甚至导致更好的预测)?
假设我正在回归。为什么通过选择X的前k个主成分,模型对Y保持预测能力?ÿ〜XY∼XY \sim XķkkXXXÿYY 从降维/特征选择的角度来看,如果我理解。。。v k是X的协方差矩阵的特征向量,具有最高k个特征值,则X v 1,X v 2。。。X v k是具有最大方差的前k个主成分。据我所知,我们可以将特征数量减少到k并保留大多数预测能力。v1个,v2,。。。vķv1,v2,...vkv_1, v_2, ... v_kXXXķkkXv1个,Xv2。。。XvķXv1,Xv2...XvkXv_1, Xv_2 ... Xv_kķkkķkk 但是,为什么前分量保留对Y的预测能力?ķkkÿYY 如果我们谈论的一般OLS ,没有理由认为,如果功能ž 我有最大方差,然后ž 我对大多数预测能力Ÿ。ÿ〜žY∼ZY \sim Zž一世ZiZ_iž一世ZiZ_iÿYY 看到评论后进行更新:我想我已经看到了很多使用PCA进行降维的示例。我一直认为这意味着我们剩下的维度具有最大的预测能力。否则降维的目的是什么?

2
结合PCA和LDA是否有意义?
假设我有一个监督统计分类任务的数据集,例如通过贝叶斯分类器。该数据集包含20个特征,我想通过降维技术将其简化为2个特征,例如主成分分析(PCA)和/或线性判别分析(LDA)。 两种技术都将数据投影到较小的特征子空间上:使用PCA,我将找到使数据集中方差最大化的方向(分量)(不考虑类标签),而使用LDA,我将具有使两者之间的最大化的分量。级分离。 现在,我想知道是否可以,如何以及为什么可以结合使用这些技术,以及是否有意义。 例如: 通过PCA转换数据集并将其投影到新的2D子空间中 通过LDA转换(已经PCA转换的)数据集,最大 班级分离 要么 跳过PCA步骤并使用LDA的前2个组件。 或任何其他有意义的组合。

3
回归中岭正则化的解释
关于最小二乘背景下的岭罚,我有几个问题: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1)该表达式表明X的协方差矩阵朝对角线矩阵收缩,这意味着(假设变量在过程之前已标准化)输入变量之间的相关性将降低。这种解释正确吗? 2)如果它是收缩应用程序,为什么不使用,假设我们可以通过归一化将lambda限制在[0,1]范围内。(λID+(1−λ)X′X)(λID+(1−λ)X′X)(\lambda I_D + (1-\lambda)X'X) 3)什么是的规范化,以便可以将其限制在[0,1]之类的标准范围内。λλ\lambda 4)在对角线上添加一个常数会影响所有特征值。仅攻击奇异值或接近奇异值会更好吗?这是否等同于在回归之前将PCA应用于X并保留前N个主要成分,或者它具有不同的名称(因为它不会修改交叉协方差计算)? 5)我们可以对交叉协方差进行正则化吗,或者有什么用,意味着βridge=(λID+X′X)−1(γX′y)βridge=(λID+X′X)−1(γX′y)\beta_{ridge} = (\lambda I_D + X'X)^{-1}(\gamma X'y) 较小的会降低交叉协方差。显然,这会同等地降低所有,但是也许有一种更聪明的方法,如根据协方差值进行硬/软阈值设置。βγγ\gammaββ\beta


2
在弹性净回归中,为什么lambda“与最小值之间的标准误差之内”是lambda的推荐值?
我了解lambda在弹性净回归中扮演什么角色。而且我可以理解为什么要选择lambda.min,即将交叉验证错误最小化的lambda值。 我的问题是在统计资料中建议在哪里使用lambda.1se,即lambda的值可将CV误差加一个标准误差减到最小?我似乎找不到正式的引文,甚至找不到为什么这通常很有价值的原因。我知道这是一个限制性更强的正则化方法,会将参数进一步缩小为零,但我并不总是确定lambda.1se比lambda.min更好的选择。有人可以帮忙解释一下吗?

1
网桥惩罚与Elastic Net正则化
很好地研究了一些罚函数和近似值,例如LASSO()和Ridge()以及它们如何进行回归比较。L1L1L_1L2L2L_2 我一直在阅读有关Bridge惩罚的信息,即广义惩罚。将其与具有\ gamma = 1的LASSO 和具有\ gamma = 2的Ridge进行比较,使其成为特殊情况。 γ = 1 γ = 2∑∥βj∥γ∑‖βj‖γ\sum \|\beta_{j}\|^{\gamma}γ=1γ=1\gamma = 1γ=2γ=2\gamma = 2 Wenjiang [ 1 ]将\ gamma \ geq 1时的Bridge惩罚γ≥1γ≥1\gamma \geq 1与LASSO进行了比较,但是我找不到与LASSO和Ri​​dge惩罚相结合的弹性网正则化的比较,给出为∑λ2∥β∥2+λ1∥β∥1∑λ2‖β‖2+λ1‖β‖1\sum \lambda_{2} \|\beta\|^{2}+\lambda_{1}\|\beta\|_{1}。 这是一个有趣的问题,因为Elastic Net和此特定的Bridge具有相似的约束形式。使用不同的度量比较这些单位圆(ppp是Minkowski距离的幂): p=1p=1p = 1对应于LASSO,p=2p=2p = 2对应于Ridge,p=1.4p=1.4p = 1.4于一个可能的网桥。弹性网在L1L1L_1和L2L2L_2罚分上具有相等的权重。例如,这些数字可用于识别稀疏性(Bridge明显缺少稀疏性,而Elastic Net将其保存在LASSO中)。 那么在正则化(稀疏性除外)方面,具有1 &lt;\ gamma &lt;2的Bridge与1&lt;γ&lt;21&lt;γ&lt;21<\gamma <2Elastic Net相比如何?我对监督学习特别感兴趣,因此也许有关特征选择/加权的讨论是适当的。也欢迎几何论证。 也许更重要的是,在这种情况下,Elastic Net是否总是更理想? …

2
为什么拉普拉斯事前生产稀疏解决方案?
我浏览了有关正则化的文献,经常看到一些段落将L2重新调节与高斯先验联系起来,将L1与拉普拉斯联系起来的中心是零。 我知道这些先验的样子,但我不知道它如何转换为线性模型中的权重。在L1中,如果我理解正确,我们期望稀疏解,即某些权重将被精确地推为零。在L2中,我们获得较小的权重,但没有获得零权重。 但是为什么会发生呢? 如果需要提供更多信息或阐明我的思路,请发表评论。

2
什么是“降秩回归”?
我一直在阅读《统计学习的要素》,但我不明白第3.7节“多结果缩减和选择”的含义。它谈论的是RRR(降秩回归),我只能理解前提是关于一个广义多元线性模型,该模型的系数未知(需要估算),但已知其不具有完整的秩。那是我唯一的了解。 其余的数学超出了我。作者说“一个人可以展示”并将事情留为练习甚至没有帮助。 有人可以帮忙直观地解释这里发生的事情吗?本章是否应该讨论新方法?或者是什么?

3
为什么Lars和Glmnet为Lasso问题提供不同的解决方案?
我想更好地理解R封装Lars和Glmnet,这是用来解决问题的套索: (有关变量和样本,请参见第3页的www.stanford.edu/~hastie/Papers/glmnet.pdf)米我Ñ( β0β)∈ [Rp + 1[ 12 N∑我= 1ñ( y一世- β0- xŤ一世β)2+ λ | |β| |升1个]米一世ñ(β0β)∈[Rp+1个[1个2ñ∑一世=1个ñ(ÿ一世-β0-X一世Ťβ)2+λ||β||升1个]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + \lambda||\beta ||_{l_{1}} \right]pppññN 因此,我将它们都应用于相同的玩具数据集。不幸的是,对于相同的数据输入,这两种方法不能提供相同的解决方案。有人知道差异的来源吗? 我得到的结果如下:生成一些数据(8个样本,12个特征,Toeplitz设计,所有内容都居中)之后,我使用Lars计算了整个套索路径。然后,我使用由Lars计算的lambda序列(乘以0.5)运行Glmnet,希望获得相同的解决方案,但我没有。 可以看到解决方案是相似的。但是我如何解释这些差异?请在下面找到我的代码。这里有一个相关的问题:用于计算LASSO解决方案的GLMNET或LARS?,但没有包含我的问题的答案。 设定: # Load packages. library(lars) library(glmnet) library(MASS) # Set parameters. nb.features &lt;- 12 nb.samples &lt;- 8 nb.relevant.indices &lt;- 3 snr &lt;- 1 nb.lambdas …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.