假设我正在尝试使用某种正则化估计从一些高维数据中估计大量参数。正则化器在估计中引入了一些偏差,但这仍然是一个很好的权衡,因为方差的减少应足以弥补这一不足。
当我想估计置信区间时(例如使用拉普拉斯逼近法或自举法),问题就来了。具体来说,我的估算偏差会导致我的置信区间覆盖不良,这使得难以确定我的估算器的频繁性。
我已经找到了一些讨论此问题的论文(例如“基于Edgeworth展开的岭回归中的渐近置信区间”),但是数学大多超出了我的理解。在链接的论文中,方程式92-93似乎为通过岭回归进行正则化的估计值提供了校正因子,但我想知道是否存在适用于一系列不同正则化器的良好程序。
即使是一阶校正也将非常有帮助。
4
+1及时而重要的问题-尽管我不确定目前是否有人可以肯定地回答这个问题(我想我们只是不知道如何正确地做到这一点,如果我知道的话,我可能会整理统计文件)。相关问题:stats.stackexchange.com/questions/91462/…我们知道,引导程序纯粹是在这种情况下执行的,但这无济于事。
—
Momo 2015年
感谢您的链接。您能澄清一下自举的含义吗?
—
David J. Harris
另外,我仍然希望有人可以拥有对非稀疏正则化器有效的方法。我以为L1罚则使事情变得特别困难,因为所有的估计都堆积为零。再次感谢。
—
David J. Harris
Dave,Tibshirani和合著者的所谓选择间隔是否合适?他们至少通过多面体形式解决了套索,LARS和逐步回归问题。由此,您基本上可以以通常的方式形成置信区间,但可以使用截断法线,并从数据中得知极限和d。在Taylor&Tibshirani(2015,PNAS)中,有详细的表述以及与实际论文的链接(其中大部分都在ArXiv上)。
—
恢复莫妮卡
据我所知,Ruben Dezeure,PeterBühlmann,Lukas Meier和Nicolai Meinshausen的论文是关于高维推理的最新,最全面的说明。
—
NRH 2015年