收缩一词在某些圈子里泛滥了。但是什么是收缩,似乎没有一个明确的定义。如果我有一个时间序列(或某个过程的任何观察结果集合),我可以用什么不同的方式来测量该序列的某种经验性收缩?我可以谈论哪些不同类型的理论收缩?收缩率如何帮助预测?人们能否提供一些好的见解或参考?
收缩一词在某些圈子里泛滥了。但是什么是收缩,似乎没有一个明确的定义。如果我有一个时间序列(或某个过程的任何观察结果集合),我可以用什么不同的方式来测量该序列的某种经验性收缩?我可以谈论哪些不同类型的理论收缩?收缩率如何帮助预测?人们能否提供一些好的见解或参考?
Answers:
1961年,詹姆斯(James)和斯坦(Stein)发表了一篇名为“二次损失的估计”的文章,网址为https://projecteuclid.org/download/pdf_1/euclid.bsmsp/1200512173。尽管它不是专门针对收缩的术语,但他们讨论了针对高维(实际上甚至对于3参数位置)统计量的minimax估计量,该统计量的风险(预期损失)比正常数据的常规MLE(每个样本平均值)要小。布拉德利·埃夫隆(Bradley Efron)称他们的发现为“战后数学统计最惊人的定理”。该文章已被引用3,310次。
1983年,Copas撰写了第一篇文章《回归,预测和收缩》,以表达“收缩”一词。它是在抽象中隐式定义的:
回归预测变量对新数据的拟合几乎总是比其对原始数据的拟合差。预期这种收缩会导致Stein型预测变量,在某些假设下,预测变量的均方误差要比最小二乘均低。
并且在所有后续研究中,收缩率似乎是指在找到允许的和/或最小极大估计量的情况下预测和估计的样本外有效性的操作特性(及其估计)。
这是关于正则化的。假设您想拟合一条曲线,并且使用平方损失函数(可以选择其他函数)。通过fit
您想恢复控制生成该曲线的过程的参数。现在,假设您想使用第100个多项式拟合该曲线(例如)。您很可能会过度拟合或捕获曲线的每个扭结和噪声。此外,在给定训练数据间隔之外的预测能力可能非常差。因此,将正规化项添加到目标函数中,然后将其权重乘以正规化因子-l_1,l_2或custom。在l_2的情况下(可能更容易理解),将具有以下效果:将强制较大的参数值以减小aka收缩。您可以认为正则化或收缩是将算法推向解决方案的动力,这可能是更好的解决方案。