Questions tagged «shrinkage»

在模型拟合过程中包括其他约束(通常是复杂性的代价)。用于防止过度拟合/提高预测准确性。

1
在什么条件下,岭回归能够比普通最小二乘回归有所改善?
岭回归估计参数ββ\boldsymbol \beta中的线性模型y=Xβy=Xβ\mathbf y = \mathbf X \boldsymbol \beta通过β^λ=(X⊤X+λI)−1X⊤y,β^λ=(X⊤X+λI)−1X⊤y,\hat{\boldsymbol \beta}_\lambda = (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} \mathbf X^\top \mathbf y,其中λλ\lambda是正则化参数。众所周知,当有许多相关的预测变量时,它的性能通常优于OLS回归(λ=0λ=0\lambda=0)。 岭回归的存在定理说,总是存在一个参数λ∗>0λ∗>0\lambda^* > 0,使得β^λβ^λ\hat{\boldsymbol \beta}_\lambda均方误差严格小于OLS的均方误差估算β^OLS=β^0β^OLS=β^0\hat{\boldsymbol \beta}_\mathrm{OLS}=\hat{\boldsymbol \beta}_0。换句话说,\ lambda的最佳值λλ\lambda始终为非零。这显然是在1970年的Hoerl和Kennard中首先得到证实的,并且在我在网上找到的许多讲义中都重复了这一点(例如,在这里和在这里)。我的问题是关于该定理的假设: 是否有关于协方差矩阵\ mathbf X ^ \ top \ mathbf X的假设X⊤XX⊤X\mathbf X^\top \mathbf X? 是否有关于\ mathbf X的维数的假设XX\mathbf X? 尤其是,如果预测变量正交(即X⊤XX⊤X\mathbf X^\top \mathbf X是对角线),或者即使\ mathbf …

1
为什么“宽松套索”与标准套索不同?
如果我们开始与一组数据的,应用套索给它,将获得的溶液β 大号,我们可以再次应用套索到数据集(X 小号,ÿ ),其中小号是一组非零的指标β 大号,以得到溶液,β - [R 大号,被称为“放松套索”的解决方案(如果我错了指正!)。将溶液β 大号必须满足Karush-库恩-塔克(KKT)条件下对(X ,ÿ )(X,Y)(X,Y)(X,Y)βLβL\beta^L(XS,Y)(XS,Y)(X_S, Y)SSSβLβL\beta^LβRLβRL\beta^{RL}βLβL\beta^L(X,Y)(X,Y)(X,Y),但考虑的KKT条件的形式它是否也满足这些条件?如果是这样,第二次做LASSO有什么意义?(XS,Y)(XS,Y)(X_S, Y) 该问题是针对以下问题的后续措施: 做“双套索”或两次执行套索的优势?

2
为什么收缩真正起作用,0有什么特别之处?
该网站上已经有一篇文章谈论同一问题: 收缩为什么起作用? 但是,即使答案很流行,我也不认为这个问题的实质能够真正解决。很明显,在估计中引入一些偏差会导致方差减少,并可能提高估计质量。然而: 1)为什么引入偏差造成的损害要比方差获得的损害少? 2)为什么它总是可以工作?例如,在岭回归的情况下:存在定理 3)0(原点)有什么有趣的地方?显然,我们可以缩小到我们喜欢的任何位置(例如Stein estimator),但是它能像原点一样工作吗? 4)为什么各种通用编码方案更喜欢原点周围的位数较少?在这些假设只是更可能? 期望参考已证明的定理或确定的结果进行回答。

5
James-Stein在野外收缩?
我被詹姆斯·斯坦因收缩的思想所吸引(即,对可能独立的法线向量的一次观测的非线性函数可能是对随机变量均值的更好估计,其中“更好”是通过平方误差来衡量的) )。但是,我从未在应用程序工作中看到它。显然,我没有足够的阅读能力。是否有经典的例子说明James-Stein在实际应用中改进了估计?如果不是,这种缩水仅仅是出于好奇吗?

4
套索的最佳罚分选择
是否有关于任何分析结果或实验论文最优的系数的选择罚项。通过优化,我的意思是最大化选择最佳模式,或最大限度地减少预期损失的概率相关的参数。我之所以问是因为,由于问题的实例很多,或者由于手头的问题的大小,通过交叉验证或引导程序选择参数通常是不切实际的。唯一积极的结果,我所知道的是Candes和计划,通过近理想模型选择ℓ 1的最小化。ℓ1ℓ1\ell_1ℓ1ℓ1\ell_1

2
什么是收缩?
收缩一词在某些圈子里泛滥了。但是什么是收缩,似乎没有一个明确的定义。如果我有一个时间序列(或某个过程的任何观察结果集合),我可以用什么不同的方式来测量该序列的某种经验性收缩?我可以谈论哪些不同类型的理论收缩?收缩率如何帮助预测?人们能否提供一些好的见解或参考?

1
LASSO自由度的直觉
邹等。“关于套索的“自由度””(2007年)表明,非零系数的数量是对套索的自由度的无偏且一致的估计。 对我来说似乎有点违反直觉。 假设我们有一个回归模型(变量为零均值) y=βx+ε.y=βx+ε.y=\beta x + \varepsilon. 假设的无限制OLS估计值为\ hat \ beta_ {OLS} = 0.5。对于非常低的惩罚强度,它可能与LASSO估计值\ beta大致吻合。ββ\betaβ^OLS=0.5β^OLS=0.5\hat\beta_{OLS}=0.5ββ\beta 进一步假设特定惩罚强度\ lambda ^ *的LASSO估计λ∗λ∗\lambda^*值为β^LASSO,λ∗=0.4β^LASSO,λ∗=0.4\hat\beta_{LASSO,\lambda^*}=0.4。例如,对于使用交叉验证发现的现有数据集,λ∗λ∗\lambda^*可能是“最优” λλ\lambda。 如果我理解正确,则在两种情况下自由度均为1,因为两次均存在一个非零回归系数。 题: 即使β^LASSO,λ∗=0.4β^LASSO,λ∗=0.4\hat\beta_{LASSO,\lambda^*}=0.4表示拟合的“自由度”比\ hat \ beta_ {OLS} = 0.5小,两种情况下的自由度又如何相同β^OLS=0.5β^OLS=0.5\hat\beta_{OLS}=0.5? 参考文献: 邹辉,特雷弗·哈斯蒂和罗伯特·蒂布希拉尼。“关于套索的“自由度”。” 统计年鉴 35.5(2007):2173-2192。

1
在LASSO中为正则化参数选择范围和网格密度
同时,我正在学习LASSO(最小绝对收缩和选择算子)。我看到可以通过交叉验证来选择正则化参数的最佳值。我还看到在岭回归和应用正则化的许多方法中,我们可以使用CV来找到最佳正则化参数(说惩罚)。现在我的问题是关于参数上限和下限的初始值以及如何确定序列的长度。 具体来说,假设我们有一个LASSO问题 ,我们想找到惩罚的最佳值。那么我们如何为选择下界和上限?以及这两个值之间有多少分割?LogLikelihood=(y−xβ)′(y−xβ)+λ∑|β|1LogLikelihood=(y−xβ)′(y−xβ)+λ∑|β|1 LogLikelihood = (y-x\beta)'(y-x\beta) + \lambda \sum|\beta|_1 λλ\lambdaλ∈[a=?,b=?]λ∈[a=?,b=?]\lambda \in [a=?,b=?](b−a)k=?(b−a)k=?\frac{(b-a)}{k=?}

2
如果以巧妙的方式应用收缩率,对于效率更高的估算器来说,收缩率是否始终会更好?
假设我有两个估算器和是相同参数一致估算器,并且 ,在psd的意义上为。因此,渐近比更有效。这两个估计器基于不同的损失函数。 β 2β0√βˆ1β^1\widehat{\beta}_1βˆ2β^2\widehat{\beta}_2β0β0\beta_0n−−√(βˆ1−β0)→dN(0,V1),n−−√(βˆ2−β0)→dN(0,V2)n(β^1−β0)→dN(0,V1),n(β^2−β0)→dN(0,V2)\sqrt{n}(\widehat{\beta}_1 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_1), \quad \sqrt{n}(\widehat{\beta}_2 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_2) β 1 β 2V1≤V2V1≤V2V_1 \leq V_2βˆ1β^1\widehat{\beta}_1βˆ2β^2\widehat{\beta}_2 现在,我想寻找一些收缩技术来改善估计量的有限样本属性。 假设我发现了一种收缩技术,可以改善有限样本中的估算器,并为我提供等于的MSE值。这是否意味着我可以找到一种适用于收缩方法 ,使我的MSE 不大于? γ 2 β 1βˆ2β^2\widehat{\beta}_2γˆ2γ^2\widehat{\gamma}_2βˆ1β^1\widehat{\beta}_1 γˆ2γ^2\widehat{\gamma}_2 换句话说,如果巧妙地应用了收缩率,那么对于更高效的估算器来说,收缩率是否总是更好地工作?

1
具有不等方差的James-Stein估计量
我发现的James-Stein估计量的每条陈述均假设所估计的随机变量具有相同(和单位)的方差。 但是所有这些示例还提到,可以使用JS估计器来估计彼此无关的数量。在维基百科的例子是台湾光,茶叶消费,并在蒙大拿州生猪重量的速度。但是,假设您对这三个量的测量将具有不同的“真实”方差。这会带来问题吗? 这与一个我不理解的,与这个问题有关的更大的概念问题联系在一起:James-Stein估计量:埃夫隆和莫里斯是如何计算棒球范例中的收缩因子的?σ2σ2\sigma^2我们计算收缩率如下:ccc c=1−(k−3)σ2∑(y−y¯)2c=1−(k−3)σ2∑(y−y¯)2 c = 1 - \frac{(k-3) \sigma^2} {\sum (y - \bar{y})^2} 直觉,我认为项实际上是-对于每个估计的数量而言都是不同的。但是该问题的讨论仅涉及使用合并方差...σ2σ2\sigma^2σ2iσi2\sigma^2_i 如果有人能消除这种混乱,我将不胜感激!

3
如何获得总体r平方变化的置信区间
为了简单的示例,假设有两个线性回归模型 模型1有三个预测,x1a,x2b,和x2c 模型2具有从模型1 3个预测和两个附加的预测x2a和x2b 有一个种群回归方程,其中模型1 解释的种群方差为,模型解释为 。模型2解释的种群中的增量方差为ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δ ρ2= ρ2(2 )- ρ2(1 )Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 我有兴趣获取\ Delta \ rho ^ 2的估计量的标准误差和置信区间Δ ρ2Δρ2\Delta\rho^2。虽然该示例分别涉及3个和2个预测变量,但我的研究兴趣涉及大量不同数量的预测变量(例如5个和30个)。我首先想到的是使用 Δ [R2一dĴ= r2一dj (2 )- - [R2一dĴ (1 )Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)}作为估计量并进行引导,但是我不确定是否会适当的。 问题 是Δ [R2一dĴΔradj2\Delta r^2_{adj}一个合理的估计Δ ρ2Δρ2\Delta \rho^2? 如何获得总体r平方变化的置信区间(即Δ ρ2Δρ2\Delta\rho^2)? 引导Δ ρ2Δρ2\Delta\rho^2是否适合计算置信区间? 任何对模拟或已发表文献的引用也将受到欢迎。 范例程式码 如果有帮助,我在R中创建了一个小的模拟数据集,可用于演示答案: …

4
套用滞后的顺序?
假设我有形式的纵向数据(我有多个观察结果,这只是一个形式)。我对限制感兴趣。不受限制的等效于 与。Y=(Y1,…,YJ)∼N(μ,Σ)Y=(Y1,…,YJ)∼N(μ,Σ)\mathbf Y = (Y_1, \ldots, Y_J) \sim \mathcal N(\mu, \Sigma)ΣΣ\SigmaΣΣ\SigmaYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εjYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εj Y_j = \alpha_j + \sum_{\ell = 1} ^ {j - 1} \phi_{\ell j} Y_{j-\ell} + \varepsilon_j εj∼N(0,σj)εj∼N(0,σj)\varepsilon_j \sim N(0, \sigma_j) 通常不这样做,因为它需要估计协方差参数。如果我们采用则模型为“ ” 即我们仅使用前面的项可以根据历史预测。O(J2)O(J2)O(J^2)kkkYj=αj+∑ℓ=1kϕℓjYj−ℓ+εj,Yj=αj+∑ℓ=1kϕℓjYj−ℓ+εj, Y_j = \alpha_j + \sum_{\ell = 1} ^ k \phi_{\ell j} Y_{j - \ell} + \varepsilon_j, …

2
根据混合顺序分配“未混合”零件
假设我已将成对iid的观测值配对为对于。令和表示由的Ĵ的第最大观测值ž。X_ {i_j}的(条件)分布是什么?(或等效地,Y_ {i_j}的值)Xi∼N(0,σ2x),Yi∼N(0,σ2y),Xi∼N(0,σx2),Yi∼N(0,σy2),X_i \sim \mathcal{N}\left(0,\sigma_x^2\right), Y_i \sim \mathcal{N}\left(0,\sigma_y^2\right),i=1,2,…,ni=1,2,…,ni=1,2,\ldots,nZi=Xi+Yi,Zi=Xi+Yi,Z_i = X_i + Y_i,ZijZijZ_{i_j}jjjZZZXijXijX_{i_j}YijYijY_{i_j} 也就是说,在Z_i是Z的n个观测值的第j大时,X_i的分布是什么?XiXiX_iZiZiZ_ijjjnnnZZZ 我猜想,当ρ=σxσy→0ρ=σxσy→0\rho = \frac{\sigma_x}{\sigma_y} \to 0,X_ {i_j}的分布XijXijX_{i_j}收敛为X的无条件分布XXX,而当ρ→∞ρ→∞\rho \to \infty,X的分布XijXijX_{i_j}收敛到X的jjj阶统计量的无条件分布。不过在中间,我不确定。XXX

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.