我认为有历史意义的论文首先证明了偏倚估计量可以改善普通线性模型的估计量:
- Stein,C.,1956年1月。多元正态分布均值的通常估计量的不允许性。在第三届伯克利数学统计和概率研讨会论文集(第1卷,第399号,第197-206页)中。
一些更现代和重要的惩罚措施包括SCAD和MCP:
- Fan,J.和Li,R.,2001。通过非凹惩罚似然及其变量的预言性进行变量选择。美国统计协会杂志,96(456),第1348-1360页。
- Zhang,CH,2010。在极大极小凹惩罚下几乎无偏的变量选择。统计年鉴,38(2),第894-942页。
关于使用这些方法获得估算值的非常好的算法的更多信息:
- Breheny,P.和Huang,J.,2011年。用于非凸惩罚回归的协调下降算法及其在生物特征选择中的应用。《应用统计》,第5卷第1期,第232页。
- Mazumder,R.,Friedman,JH和Hastie,T.,2011年。稀疏网:具有非凸罚分的协调下降。美国统计协会杂志,106(495),第1125-1138页。
还值得一看的是与LASSO密切相关的Dantzig选择器的这篇论文,但是(我相信)它为统计估计器引入了oracle不等式的想法,这是一个非常有力的想法
- Candes,E.和Tao,T.,2007。Dantzig选择器:p远大于n时的统计估计。统计年鉴,第2313-2351页。