统计程序的假设是什么?
我不是统计学家,所以这可能是错误的,但是我认为“假设”一词通常是非正式使用的,可以指各种事物。对我而言,严格地说,“假设”是只有理论结果(定理)才能具有的东西。
当人们谈论线性回归的假设时(请参阅此处进行深入讨论),他们通常指的是高斯-马尔可夫定理,该定理说在不相关,等方差,零均值误差的假设下,OLS估计为蓝色,即无偏且具有最小的方差。在高斯-马尔可夫定理的上下文之外,我不清楚“回归假设”的含义。
类似地,一个样本t检验的假设是指统计分布为t分布的假设,因此推论是有效的。它不被称为“定理”,但是它是一个明确的数学结果:如果n个样本呈正态分布,则t统计量将遵循具有n − 1个自由度的Student t分布。ttnttn−1
惩罚回归技术的假设
现在考虑使用任何正则化回归技术:岭回归,套索,弹性网,主成分回归,偏最小二乘回归等。这些方法的重点是对回归参数进行偏向估计,并希望减少期望值通过利用偏差方差权衡来实现损失。
所有这些方法都包含一个或几个正则化参数,并且它们都没有用于选择这些参数值的确定规则。最佳值通常是通过某种交叉验证程序找到的,但是存在多种交叉验证方法,它们可能会产生一些不同的结果。此外,除了交叉验证之外,调用一些其他经验法则也很常见。其结果是,实际结果β任何这些惩罚回归方法实际上并不完全由该方法定义,但可以依赖于分析师的选择。β^
因此,我不清楚怎么可以有任何理论上的最优性陈述β,而谈论的惩罚方法,如岭回归“假设”(存在或不存在物)都有道理,所以我不知道。β^
但是,岭回归总是胜过OLS的数学结果呢?
Hoerl&Kennard(1970)在“ 岭回归:非正交问题的有偏估计”中证明,总是存在正则化参数的值,以使β的岭回归估计具有比OLS估计严格小的期望损失。这是一个令人惊讶的结果- 请参阅此处进行一些讨论,但这仅证明了λ的存在,它将与数据集有关。λβλ
该结果实际上不需要任何假设,并且始终是正确的,但是声称岭回归没有任何假设可能会很奇怪。
好的,但是我怎么知道是否可以应用岭回归呢?
我要说,即使我们不能谈论假设,我们也可以谈论经验法则。众所周知,在具有相关预测变量的多重回归的情况下,岭回归往往最有用。众所周知,它往往比OLS表现要好得多。即使在异方差,相关错误或其他情况下,它也往往会胜过它。因此,简单的经验法则表明,如果您具有多重共线性数据,则进行岭回归和交叉验证是个好主意。
可能还有其他有用的经验法则和交易技巧(例如,处理总体异常值)。但是它们不是假设。
pp