当我研究新的统计方法和概念时,常常会遇到平方差(或均方误差,或其他过多的表述)。举例来说,Pearson的r是根据与这些点所在的回归线的均方差确定的。对于方差分析,您正在查看平方和,依此类推。
现在,我了解到,通过对所有数据求平方,可以确保包含异常值的数据确实受到惩罚。但是,为什么指数正好使用2?为什么不使用2.1或e或pi?使用2还是有某种特殊的原因?我怀疑这种解释可能与钟形曲线有关,但我很确定。
当我研究新的统计方法和概念时,常常会遇到平方差(或均方误差,或其他过多的表述)。举例来说,Pearson的r是根据与这些点所在的回归线的均方差确定的。对于方差分析,您正在查看平方和,依此类推。
现在,我了解到,通过对所有数据求平方,可以确保包含异常值的数据确实受到惩罚。但是,为什么指数正好使用2?为什么不使用2.1或e或pi?使用2还是有某种特殊的原因?我怀疑这种解释可能与钟形曲线有关,但我很确定。
Answers:
统计的决策理论方法提供了深刻的解释。 它说,平方差代表了广泛的损失函数,这些损失函数(无论何时有可能被合理采用)导致人们必须考虑的可能的统计程序大大简化。
不幸的是,要解释这意味着什么并指出其正确性,需要进行大量设置。这种表示法很快就会变得难以理解。因此,我的目的是在不花力气的情况下勾勒出主要思想。有关完整的帐户,请参见参考。
一个标准的,丰富的数据模型假定它们是一个(实向量值的)随机变量其分布仅是某个分布分布(状态)的元素自然的。统计过程是一个函数的在某组决定采取值的决策空间。X ˚F Ω 吨X d
例如,在预测或分类问题中,将由“训练集”和“数据测试集”的并集组成,并且将映射到测试集的一组预测值中。在所有可能的预测值将是。吨X d
关于程序的完整理论讨论必须适应随机程序。随机过程根据某个概率分布(取决于数据)在两个或多个可能的决策中进行选择。它概括了一个直观的想法,即当数据似乎无法区分两个替代方案时,您随后可以“掷硬币”来确定一个确定的替代方案。许多人不喜欢随机程序,反对以这种不可预测的方式做出决定。
决策理论的显着特征是其使用的损失函数 。 对于任何自然状态和决策,损失d ∈ d
是一个数值,表示当自然的真实状态为时做出决策有多“坏” :小损失为好,大损失为坏。例如,在假设检验的情况下,具有两个元素“接受”和“拒绝”(原假设)。损失函数强调做出正确的决策:决策正确时将其设置为零,否则为常数。(这被称为“损失函数:”所有错误的决定都是同样糟糕的,所有良好的决定都同样出色。)特别是,当在原假设中且时,F D w 0 − 1 W (F , 接受)= 0 F W (F , 拒绝)= 0 F在另一个假设中。
使用过程,可以将自然的真实状态为时数据的损失写为。这使损失成为随机变量,其分布由(未知数)确定。x F W (F ,t (x ))W (F ,t (X ))F
一个过程的预期损失称为它的风险,。期望使用自然状态的真实状态,因此将明确显示为期望运算符的下标。我们将风险视作的函数,并用表示法强调:- [R 吨 ˚F ˚F
更好的程序风险更低。 因此,比较风险函数是选择良好统计程序的基础。由于用通用(正)常数重新缩放所有风险函数不会改变任何比较,因此的大小没有区别:我们可以将其乘以我们喜欢的任何正值。具体地,在乘以由我们可以总是取为一个损失函数(证明其名称)。W 1 / w w = 1 0 − 1
继续说明损失函数的假设检验示例,这些定义暗示在原假设中任何的风险都是决策被“拒绝”的机会,而在替代假设中任何的风险都是决定是“接受”的机会。的最大值(在所有在零假设)是测试尺寸,而在另一种假设所定义的风险函数的部分是测试的补功率()。在这本书中,我们看到了整个经典(频率论)假设检验理论如何构成一种比较特殊损失类型的风险函数的特殊方式。F F F 功率t(F )= 1 − r t(F )
顺便说一句,到目前为止介绍的所有内容都与所有主流统计数据完全兼容,包括贝叶斯范式。此外,贝叶斯分析引入了的“先验”概率分布,并使用它来简化风险函数的比较:相对于先验分布,潜在的复杂函数可以用其期望值代替。因此,所有过程的特征都是一个单一的数字;贝叶斯过程(通常是唯一的)使最小化。损失函数在计算中仍然起着至关重要的作用。ř 吨吨- [R 吨ř 吨ř 吨
关于损失函数的使用存在一些(不可避免的)争议。 如何挑选?它在假设检验中本质上是唯一的,但在大多数其他统计设置中,许多选择都是可能的。它们反映了决策者的价值。例如,如果数据是对医疗患者的生理测量,而决定是“治疗”或“不治疗”,则医师必须考虑并权衡任何一种行动的后果。如何衡量后果可能取决于患者的意愿,年龄,生活质量以及许多其他因素。损失函数的选择可能会充满烦恼且深具个性。通常情况下,不应该让统计学家去做!
那么,我们想知道的一件事是,当损失发生变化时,最佳程序的选择将如何变化? 事实证明,在许多常见的实际情况下,可以容忍一定数量的变化,而无需更改哪个过程是最佳的。这些情况的特征在于以下条件:
决策空间是一个凸集(通常是一个数字间隔)。这意味着任何两个决策之间的任何值也是有效的决策。
当做出最佳决策时,损失为零,反之则增加(以反映所做出的决策与可能为真实(但未知)的自然状态做出的最佳决策之间的差异)。
损失是决策的可区分函数(至少局部在最佳决策附近)。这意味着它是连续的-不会像损失那样跳跃-但也意味着当决策接近最佳决策时,它的变化相对较小。
当这些条件成立时,涉及风险功能比较的一些复杂性就消失了。可微性和凸性使我们可以应用Jensen不等式证明
(1)我们不必考虑随机程序[Lehmann,推论6.2]。
(2)如果一个过程被认为对一个这样的风险最高,则可以将其改进为仅取决于足够统计量并且至少具有所有此类函数的风险函数的过程 [基弗,第 151]。W t ∗ W
例如,假设是均值(和单位方差)的正态分布的集合。这用所有实数的集合标识,因此(滥用符号)我也将使用“ ”来标识平均值为的分布。令为来自这些分布之一的大小为的iid样本。假设目标是估计。这用所有可能的值(任何实数)来标识决策空间让指定任意决定,损失是一个函数μ Ω μ Ω μ X Ñ μ d μ μ
当且仅当,。前面的假设暗示(通过泰勒定理)
对于一些恒定的正数。(小o表示法“ ”是指的极限值为且任何函数。)如前所述,我们可以自由缩放使。对于这个族,用表示的的均值是足够的统计量。先前的结果(引自Kiefer)表示任何估计量,它可能是变量任意函数,对一个这样的有用可以仅根据转换为估计量,对于所有此类至少都如此。
在此示例中完成的操作很典型:最初由变量的可能随机函数组成的极其复杂的可能过程集,已简化为由单个变量的非随机函数组成的更为简单的过程集(或在统计量足够多的情况下至少减少变量的数量)。而且,只要不必担心决策者的损失函数是凸且可微的,就可以做到这一点。
最简单的这种损失函数是什么? 当然,忽略余项的函数纯粹是二次函数。同一类中的其他损失函数包括幂。大于(例如问题中提到的和),等。
蓝色(上方)曲线绘制,红色(下方)曲线绘制。由于蓝色曲线在处也有一个最小值,它是可微且凸的,因此二次损失(红色曲线)所具有的统计过程的许多优良特性也将适用于蓝色损失函数z 2 0(即使全局指数函数也是如此)行为与二次函数不同)。
这些结果(尽管显然受到所施加条件的限制)有助于解释为何统计理论和实践中普遍存在二次损失:在一定程度上,它是任何凸微分损失函数的分析方便代理。
二次损失绝不是要考虑的唯一或什至最佳损失。 确实,雷曼兄弟写道
凸损失函数被认为导致估计问题的许多简化。但是,人们可能会怀疑这样的损失函数是否可能是现实的。如果表示不准确的程度,而且还表示实际损失(例如财务损失),则可能会认为所有此类损失都是有界的:一旦失去全部,就再也不会损失。...
... [快速增长的损失函数导致估计器倾向于对关于[假设分布的]尾部行为所做的假设敏感,这些假设通常基于很少的信息,因此不是很可靠。
事实证明,由平方误差损失产生的估计量通常在这方面不敏感。
[雷曼兄弟,第1.6节;表示法有所改变。]
考虑替代损失带来了丰富的可能性:分位数回归,M估计量,稳健的统计数据等等都可以通过这种决策理论框架进行构建,并使用替代损失函数进行证明。有关简单示例,请参见百分损失函数。
杰克·卡尔·基弗(Jack Carl Kiefer),《统计推断》。 施普林格出版社1987年。
EL Lehmann,点估计理论。威利(Wiley)1983年。
此距离量度的几何属性非常易于使用。
如果您有针对大多数问题的解析解决方案,那么当然可以简化数学。