如果以巧妙的方式应用收缩率,对于效率更高的估算器来说,收缩率是否始终会更好?


11

假设我有两个估算器和是相同参数一致估算器,并且 ,在psd的意义上为。因此,渐近比更有效。这两个估计器基于不同的损失函数。 β 2β0β^1β^2β0

n(β^1β0)dN(0,V1),n(β^2β0)dN(0,V2)
β 1 β 2V1V2β^1β^2

现在,我想寻找一些收缩技术来改善估计量的有限样本属性。

假设我发现了一种收缩技术,可以改善有限样本中的估算器,并为我提供等于的MSE值。这是否意味着我可以找到一种适用于收缩方法 ,使我的MSE 不大于 γ 2 β 1β^2γ^2β^1 γ^2

换句话说,如果巧妙地应用了收缩率,那么对于更高效的估算器来说,收缩率是否总是更好地工作?

Answers:


4

让我提出一个无聊的反例。假设不仅比渐近高效,而且还可以达到Cramer Rao下界。对于来说,一种聪明的收缩方法是: with。的渐近方差为 ,其中最后一个等式使用引理在Hausman的论文中。我们有 β 2 β 2 β * 2 =瓦特 β 2+1-瓦特 β 1瓦特01 β * 2 V*=v一个[R 瓦特 β 2+1-瓦特 β 1=β^1β^2β^2

β^2=wβ^2+(1w)β^1
w(0,1)β^2V 2 - V * = V 21 - 瓦特2- V 11 - 瓦特20 β 2
V=Avar(wβ^2+(1w)β^1)=Avar(w(β^2β^1)+β^1)=V1+w2(V2V1)
V2V=V2(1w2)V1(1w2)0
因此有渐近风险的改善(没有偏差项)。因此,我们发现了一种收缩技术,可以对一些渐近(因此希望是有限的样本)改进。但是,此过程没有类似的收缩估计值。β^2β^1

当然,这里的要点是收缩是朝着有效估计量进行的,因此不适用于有效估计量本身。从高层次看,这似乎很明显,但我想在一个特定示例中,它并不是那么明显(均匀分布的MLE和矩矩估计器可能就是一个示例?)。


1
感谢您提供有趣的示例!(+1)但是,我不清楚这是否应视为反例:它既渐近又没有表明不能提高为具有相同或更低的风险。(实际上,自动具有与相同的风险。)为了提供一个反例,修改估计量的风险必须为小于的风险,并且尚不清楚这种方案是否有可能。 β * 2 β 1 β * 2 β 1β^1β^2β^1β^2β^1
user795305

谢谢你,并指出。但是,让我指出,问题中没有任何地方指定修改后的的MSE 必须低于的MSE 。因此, 在这种情况下是一种有效的收缩技术。但是我同意这只是部分答案,我期待看到其他人在这个问题上要说的话。 β 1 β2β^2β^1β^2
Matthias Schmidtblaicher

1
在“假设我已经找到...”开头的段落中,OP似乎确实指定了这一点。我误会了吗 接下来,让星星表示修改后的估计量,以便对于某些(可能是收缩)函数。假设我们找到从而得到。在引用的段落中,OP询问是否可以找到一些从而使。˚FĴ β * 2 - [R小号ķβ^j=fj(β^j)fjβ^2risk(β^2)risk(β^2)f1risk(β^1)risk(β^2)
user795305

我知道了。如果这是一个问题,则在示例中,只是身份,答案是肯定的。我将问题读为“如果我们可以找到函数以便在那里做存在一个所以吗?” f1f(β,x)risk(f(β^2,x))<risk(β^2)g(β,x)risk(g(β^1,x))<risk(β^1)
Matthias Schmidtblaicher

1
感谢您分享这些功劳,即使我没有真正回答您的问题……
Matthias Schmidtblaicher

-2

这是一个有趣的问题,在这里我想先指出一些要点。

  • 两个估计量是一致的
  • β^1比效率因为它的变化较少β^2
  • 损失函数不一样
  • 一种收缩方法被应用于一种收缩方法,从而减少了变化,从而最终获得了更好的估计量
  • 问题:换句话说,如果巧妙地应用了收缩率,那么对于更高效的估算器来说,收缩率 总是会更好吗?

从根本上讲,可以在特定框架内改进估计量,例如无偏估计量。但是,正如您所指出的,不同的损失函数会使情况变得困难,因为一个损失函数可能会使二次损失最小化,而另一个损失函数会使熵最小化。而且,使用“始终”一词非常棘手,因为从逻辑上讲,如果一个估计量是班上最好的一个,则您不能要求任何更好的估计量。

对于一个简单示例(在同一框架中),让两个估计量分别为Bridge(具有范数罚分的惩罚回归)和Lasso(第一个范数罚分似然)以及稀疏的参数集,线性模型,误差项的正态性,,已知,二次损失函数(最小二乘误差)和中协变量的独立性。让我们为一个估计器的选择,为第二个估计器选择。然后,可以通过选择来改进估计量 β ÿ = Xlpβy=xβ+eeN(0,σ2<)σxlpp=3p=2p1最终得到了更好的估计量,方差较低。然后,在此示例中,就有机会改进估计量。

因此,鉴于您假设相同的估计量族和相同的损失函数以及假设,我对您的问题的回答是肯定的。


我不清楚您将取是什么意思。给定两个估计量(例如,在最小二乘正则化中有和,就像您在响应中所讨论的那样),该问题询问如何对这些估计量进行后处理(通过收缩)。具体来说,它询问是否存在可以在一致且渐近的正常估计量上产生类似改善(就MSE而言)的方法。我不清楚您的答案应该传达与此有关的内容。p1p=3p=2p
user795305

@本谢谢。问题是关于收缩,我试图举一个简单的例子,通过在估计量上施加范数罚分来应用收缩。我认为这很相关。PS:LASSO(范式受惩罚的可能性)代表最小绝对收缩和选择算子lpl1
TPArrow

我仍然不清楚。您是否建议我们采用初始估计值和,然后对它们的近端运算符求值,以使新的估计值为,对于?如果是这样,您能为您关于MSE改善的主张提供证明(或其他论点)吗?我曾尝试过强调一点,这个问题是关于后处理估计量的-您对后处理的估计是多少? β 2p α p Ĵ =ARG分钟αα - β Ĵ 2 2 +λαpĴ{12}p=23β^1β^2pα^jp=argminααβ^j22+λαpj{1,2}p=2,3
user795305

感谢@Ben,我觉得我们对收缩的定义没有共识。您将其视为后处理,而将其视为内联处理。我认为我们都是正确的,因为问题没有考虑收缩的类型。PS:我猜你从收缩中得到的意思就像是硬阈值。
TPArrow

收缩率既可以是内联的,也可以作为后处理的。您在响应中提到的示例是关于“行内收缩”的,而问题是关于“后处理收缩”的。注意,该问题给出了两个估计量和,然后要求收缩技术应用于或。因此,我认为值得重新阅读该问题。 β 2 β 1 β 2β^1β^2 β^1β^2
user795305
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.