估计量和统计量有什么区别?


30

我了解到统计量是您可以从样本中获得的属性。以许多相同大小的样本为例,为所有样本计算该属性并绘制pdf,得出对应属性的分布或对应统计数据的分布。

我还听说统计数据是用来估算的,这两个概念有何不同?


2
谢谢所有的回答。现在这个概念对我来说更加清楚了
。– gutto

Answers:


17

定义

从维基百科:

统计 [...]是一个示例(例如,它的算术平均值)的一些属性的单一测量值。

[A] n estimator是用于根据观测数据计算[基础分布]的给定数量的估算值的规则。

重要的区别是:

  • 统计是样本的函数。
  • 一种估计是样品的功能有关的一些发行量

(有关“数量”的含义,请参阅下面的部分。)

统计数据不是估计量

一种估计统计与补上一。要将统计数据转换为估算器,您只需简单说明要估算的目标数量。这是令人困惑的,因为您没有在统计信息中添加任何“真实”内容,而只是添加了一些意图。

要知道差异很重要,您必须意识到您无法仅凭统计数据就可以计算估计量的属性(例如偏差方差等)。要计算偏差,您必须找到统计量给您的值与真实值之间的差。只有一个估计器带有一个“真值”,它可以计算偏差。统计仅是数据的函数,既不是对也不是错误。

基于相同统计量的不同估计量

您可以为同一统计数据拼写出不同的目标数量,从而得出不同的估计量。每个此类估算器都有其自己的偏差,尽管它们都(基于)相同的值,相同的统计量。

  • 您可以将样本均值用作分布均值的估计量。该估计量的偏差为零
  • 您还可以将样本均值用作分布方差的估计量。对于大多数分布,此估计量是有偏差的。

所以说“样本均值是无偏的”是没有道理的。使用样本均值估计分布均值时,样本均值是无偏的。但是同时,在使用它来估计分布方差时,它是有偏差的。

分配数量和样品数量

这里的数量是指分布的某些属性,通常未知,因此必须进行估计。这与统计量相反,后者是样本的属性,例如,分布平均值是您的分布量,而样本平均值是统计量(您的样本量)。


1
这些报价并没有明显的错,但是它们让我困惑“数量”的确切含义。例如,引用似乎并未排除“数量”是基于相同数据的另一种统计数据,或者也许是基于一组相似数据的另一种统计数据的可能性。(在后一种情况下,第一个统计数据可能用作预测变量。在前一种情况下,我认为没有名称,但绝对不是“估计量”。)
笨拙

@whuber参见编辑。最初我想给出一个简短的答案... :(
ziggystar 2013年

假设样本均值和样本中位数仅在分布为其中位数=均值的情况下才会估计相同的基础值
Stumpy Joe Pete 2013年

根据您的编辑,我的批评没有那么大的意义。我只是说在许多分布中,!=均值,因此样本中值和样本均值在这种情况下将不会收敛到相同的值(即,不要估计相同的事物)。
笨拙的乔·皮特

1
@Stumpy我认为您在这里有点误解。中位数和均值是否“收敛”于同一事物(或所有事物)并不重要。为了澄清这一点,让我有点荒谬:如果愿意,我可以使用样本方差来估计均值。绝对没有理论上的限制-也没有-表示我不能这样做。我的程序满足定义的所有部分:样本方差确实是一个统计量,而平均值确实是基础分布的一个属性。对于定义,这无关紧要,这通常是一个可怕的过程。
whuber

15

该线程有些旧,但是看来Wikipedia可能已更改其定义,如果准确,它会为我更清楚地解释它:

“估计器”或“点估计”是用于推断统计模型中未知参数值的统计信息(即数据的函数)。

因此,统计信息是指数据本身以及对该数据的计算。估计器引用模型中的参数。

如果我正确理解,那么平均值就是一个统计量,也可能是一个估计量。样本的平均值是统计量(样本的总和除以样本大小)。假设均值是正态分布的,则样本均值也是总体均值的估计量。

我会问@whuber和其他真正了解这些知识的人,如果(新的?)维基百科的报价正确无误。


6
+1我认为您基本上是对的。您可能想知道估计器的目标不一定是模型的特定“参数”:它可以是模型的任何属性,例如其参数的函数。例如,μ2是不是一个普通的参数的模式,但它可以被估计。(μ,σ2)
whuber

5

由于其他回答都相同,因此没有权威性的参考,因此让我为您提供Casella和Berger的《统计推断手册》中的两句话:

定义5.2.1为总体中大小为n的随机样本,令T x 1x n为实值或向量值函数,其域包括样本空间的 X 1X nX1,,XnnT(x1,,xn)。然后调用随机变量或随机向量 Y = T X 1X n(X1,,Xn)Y=T(X1,,Xn)统计。统计的概率分布被称为的抽样分布ÿYY

定义7.1.1点推定是任何函数的样品; 也就是说,任何统计量都是点估计量。W(X1,,Xn)

并不是在这里说这是对这个问题的肯定答案,因为我似乎同意两个最受欢迎的答案,表明存在差异,只是给出了相反的参考,以强调这不是问题。清晰的案例。


4

“ 6”是估计量的示例。说您的问题是:“最佳线性函数将x映射到y的斜率是多少?” 您的答案可能是“ 6”。或者,它可能是(XX)1XY

一个非常好的助教曾经以这种方式向我解释了估算器的概念。

基本上,估算器是一种应用于数据以获取不知道其值的数量的东西。您知道统计信息的价值-它是数据的函数,没有“最佳”或“最佳”数据。没有“最好”的意思。这只是一个意思。

假设您有一个关于每个人拥有的山羊数量以及每个人的幸福感的数据集。您对人们的幸福如何随着他们拥有的山羊数量的变化而感兴趣。估算器可以帮助您根据数据估算这种关系。统计信息只是您所拥有数据的功能。例如,山羊所有权的方差可能等于7。计算山羊和烤面包机方差的Te公式将是相同的,或者您是否对幸福或患癌症的兴趣感兴趣。从这个意义上说,所有明智的估计量都是统计量。


3

有趣的问题。不过,估算器和统计数据不必是不同的东西。它们是不同的概念。

统计是一种函数(广义上),其中输入是(统计)数据。结果是您从该统计数据中获得结果,通常是数字。用更抽象的术语来说,一个统计量可能产生不止一个数字。统计取决于数据,但是过程是确定的。因此,统计数据可能是:“将所有数字相加,然后除以计数”,或者从广义上讲,是“获取gdp数据并准备一份报告”。
在统计意义上,我们当然是在谈论数学函数作为统计量。

这样做的意义在于,如果您知道输入数据的属性(例如,它是一个随机变量),那么您可以计算统计信息的属性,而无需实际输入经验数据。

估计器是估计器,因为您的意图是:估计属性。事实证明,一些统计数据是不错的估计。
例如,如果您从iid变量池中提取数据点,则算术平均值-基于您提取的数据的统计信息可能会是一个不错的估计该分布的期望值。但是,任何再次产生估计的东西都是估计器。

实际上,您使用的估算器将是统计信息,但是有些统计信息不是估算器。例如测试统计量-尽管可以争论该语句的语义并使情况更糟,但测试统计量不仅可以是估计量,还可以包括估计量。尽管从概念上来说并非一定如此。

当然,您可以使用非统计量的估算器,尽管它们可能不太擅长估算。


1
2nnn+1

是的,我会说“选择一个值”是确定性统计量,并且事前所有事情都与您选择的样本的修改有关。再说一次,既然“程序”是确定性的,那么我可以在我对统计的定义中允许这样的随机元素……直言不讳的是,不是统计的估计至少可以独立于任何数据。例如,下面的答案中的数字“ 6”。请注意,我并不是说非统计量估计值不一定很糟糕。
IMA 2013年

1
我认为也许您做出了太多不必要的细微区分,最终使您的论述复杂化了。例如,“ 1/2”是伯努利变量参数的一个很好的估计值(对于二次损失,它是极小值),因此仅仅因为它独立于数据而将其排除是可耻的。(这类似于在欧几里得几何中排除正方形作为矩形的示例:您可以这样做,但是那会使大多数有关矩形属性的语句的长度加倍。)类似地,它有助于排除随机统计信息。
Whuber

我认为我们不是在谈论同一件事。我在哪里排除什么?如果二分之一是一个很好的估计,那么情况就是这样。我只是不认为大多数不估计统计数据的估计量都还不错。对于伯努利变量,“ 1/2”是好的。但是-非常-来自“实数”类的其他一些估计量不是很好,您同意吗?关于仍然基于数据的随机统计问题,我没有排除它,因为我仍然会说您将需要确定性的过程。但是我承认我应该在上面加上这一点。
IMA

2

我认为对样本的理解更好帮助的。

[更新:样本是一个非常广泛的概念,我所说的是“随机样本”。当样本不是随机的时,我不知道估计量是否有意义。]

来自维基百科

随机样本定义为样本,其中种群的每个个体成员都有已知的非零机会被选为样本的一部分。

ñññññ样本。

我们将样本中的样本替换为样本的值。我们得到一个估计值,这是一个特定的度量。而这个特定的度量是一个统计数据。

(检查此链接以了解估算器的定义,最后一句话揭示了为什么我们总是感到困惑。)


1

本文的目标:

我在这里要做的是为您提供两个紧密相关的概念,即“统计量”和“估计量”之间的异同。但是,我不想遍历参数和统计量之间的差异,我认为这对于每个在统计量和估计量之间的差异中苦苦挣扎的人都足够清楚。如果您不是这种情况,则需要先学习以前的文章,然后再开始研究此文章。

关系:

基本上,样本中可观察到的随机变量的任何实值函数都称为统计量。有一些统计数据表明,如果对它们进行了精心设计并具有一些良好的属性(例如,一致性等),则可以将它们用于估计总体潜在分布的参数。因此,统计量很大,估计量是统计量内部的子集。因此,每个估计量都是一个统计量,但并不是每个统计量都是一个估计量。

相似之处:

说到相似性,如前所述,它们都是随机变量的函数。另外,两者都有称为“采样分布”的分布。

差异:

说到差异,它们在目标和任务方面是不同的。统计的目标和任务可以是汇总样本中的信息(通过使用足够的统计数据),有时还可以进行假设检验等。相反,估计器的主要目标和任务,顾名思义,是估计研究人口的参数。值得一提的是,有各种各样的估算器,每个估算器背后都有自己的计算逻辑,例如MOME,MLE,OLS估算器等。这两个概念之间的另一个区别与它们所需的属性有关。统计量最期望的属性之一是“充分性”,而估计量的期望属性是诸如“一致性”,“无偏性”,“精度”等。

警告:

因此,在处理统计信息和估计量时,需要注意正确使用术语。例如,谈论纯粹的统计数据的偏倚并没有多大意义,这绝不是一个估计量,因为在这样的上下文中没有任何参数可以使我们能够计算偏斜,并且说说它。因此,您需要注意术语!

底线:

综上所述,样本中可观察到的随机变量的任何函数都是统计量。如果统计量具有估算总体参数的能力,则我们将其称为(目标参数的)估算器。但是,有些统计信息并非旨在估算参数,因此这些统计信息不是估算器,在这里我们称它们为“纯粹的统计信息”。

我在上面提供的是看待和思考这两个概念的方式,我尽力用简单的词来表达。希望对您有所帮助!


0

旧问题的新答案:

定义1 一个统计是每个样品的实数映射的函数。

每个估计量都是一个统计量。

但是我们倾向于仅将那些用于生成估计值(“猜测”)的统计量称为某些参数。

因此,例如,t统计量和样本均值都是统计量。样本均值也是一个估计量(因为我们经常使用它来估计真实总体均值)。

相反,我们很少/从来没有将t统计量称为估计量,因为我们很少/从来没有使用t统计量来估计任何参数。

PQ

Example_

θ

θ

这是一种可能的方法。我们掷骰子3次。

s=(x1,x2,x3)x1x2x3

s1=(5,4,1)s2=(4,1,6)s3=(6,3,2)

PQPQs=(x1,x2,x3)

P(s)=x1ln(x2+x3),
Q(s)=x1+x2+x33.

P

Qθ

Pθ


1
这个答案朝着正确的方向发展。但是,“定义2”由于具有圆形性而似乎不是有效的定义(它在“估计”的意义上定义了“估计”,而没有对后者进行解释)。为了使它有效,您需要足够详细和清楚地解释“参数的估计”是什么,以便人们可以对估计器的工作状况进行定量度量。
ub

θθ5

2
不幸的是,正如我试图暗示的那样,简化过程似乎失去了一些基本要素,因为您的第二个定义根本没有将估算器与其他任何统计信息区分开。
ub

@whuber:是的。正式而言,估算器只是一个统计信息。但是,如果该统计信息用于估算某些感兴趣的参数,则倾向于使用“估计器”一词来表示该统计信息。我已经编辑了答案以澄清这一点。
肯尼·李·约翰逊

-3

假设检验中

检验统计量是关于假设检验的。检验统计量是在零假设下给出的随机变量。现在,在给定样本的情况下,有些人可能将统计量称为测试统计量的值/度量。

使用这两个值,您可以得到p值,该值可以帮助拒绝或不拒绝原假设。总而言之,统计数据是对您的假设有多远的估计。

链接可能有用。


2
您似乎正在解决一个不同的问题,该问题与假设检验而不是估计有关。您对“统计”的定义在范围上要比标准定义要严格得多:统计适用于所有形式的决策,而不仅是假设检验和无效假设的非常有限的情况。此外,假设检验与估计量并不相同,并且大多数统计数据都没有用作接近某些假设的估计量。
ub

我不会说这是一个不同的问题。它至少给出了关于假设检验的情况的图片!
dfhgfh 2013年

2
因为此答案侧重于该问题的有限和专业版本,并且以非常规的方式使用了关键术语“估计”和“统计”,而没有使读者意识到这一事实,所以我担心它可能会误导人们或使人们感到困惑。
ub

我认为假设检验远远不是一个有限的专业统计领域。
dfhgfh 2013年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.