不独立于样本分布的统计示例?


14

这是维基百科上统计的定义

更正式地说,统计理论将统计量定义为样本的函数,其中函数本身与样本的分布无关。也就是说,可以在实现数据之前说明功能。统计信息一词既用于函数,也用于给定样本上的函数值。

我想我对这个定义大体上了解,但是我不能弄清函数独立于样本分布的那部分。

我到目前为止对统计的理解

一个样本是一组的一些数目的独立的实现中的,同分布与分布F(iid)的随机变量(10层的实现一个20面公平骰子,一个六面公平骰子的5个辊100米的实现的一个辊,从人口中随机抽取100个人)。

一个函数,其域就是该集合,其范围是实数(或者它可以产生其他事物,例如矢量或其他数学对象……)将被视为统计信息

当我想到示例时,均值,中位数,方差在这种情况下都是有意义的。它们是一组实现的函数(来自随机样本的血压测量)。我还可以看到如何将线性回归模型视为统计yi=α+βxi -这不仅是一组实现上的函数吗?

我感到困惑的地方

假设我从上面的理解是正确的,那么我将无法理解某个函数可能与样本分布无关的地方。我一直在想一个例子来理解它,但是没有运气。任何见解将不胜感激!

Answers:


45

该定义陈述起来有些尴尬。“统计”是可观察值的任何函数。该定义的全部含义是,统计信息仅是可观察值的函数,而不是分布或其任何参数的函数。例如,如果X1,X2,...,XnN(μ,1)然后统计将任何功能T(X1,...,Xn)而功能H(X1,....,Xn,μ)将不是一个统计量,因为它取决于μ。以下是一些其他示例:

StatisticX¯n=1ni=1nXi,StatisticSn2=1ni=1n(XiX¯n)2,Not a statisticDn=X¯nμ,Not a statisticpi=N(xi|μ,1),Not a statisticQ=10μ.

每个统计信息仅是可观察值的函数,而不是其分布或其参数的函数。因此,没有作为分布或其参数的函数的统计量的示例(任何此类函数都不是统计量)。但是,重要的是要注意,统计量分布(与统计量本身相反)通常取决于值的基础分布。(对于所有统计信息(辅助统计信息除外)都是如此。)


已知参数的函数呢?在下面的评论中,Alecos提出了一个很好的后续问题。使用固定的参数假定值的函数呢?例如,统计n(x¯μ)其中μ=μ0被取为等于一个已知的假设的值μ0R。只要在适当限制的域上定义该函数,该函数实际上就是统计信息。因此函数H0:RnRH0(x1,...,xn)=n(x¯μ0)将是一个统计量,但功能H:Rn+1RH(x1,...,xn,μ)=n(x¯μ)不会是一个统计量。


1
将基础统计参数视为非统计数据的一部分,这非常有帮助,特别有帮助。
杰克·基尔希

4
1010(X1+X2++X1000)/1000(X1++Xn/2)/(n/2)(Xn/2+1++Xn)/(n/2)

4
这些例子对我似乎完全有效。您是说将数据分为训练集和验证集的想法无效吗?
詹姆斯·马丁

2
我也对此感到困惑。让我尝试描述@CarlWitthoft点。就数学定义而言,它仍然是统计数据,但是我可以看到一个情况,即顾问对观察结果进行了“统计”,但任意决定删除一些结果(顾问一直在这样做吗?)。从某种意义上说,这仍然是“有效的”,但仍取决于观察结果,但是,统计数据的呈现和解释方式可能无效。
杰克·基尔希

2
@Carl Withhoft: With respect to the point you are making, it is important to distinguish between a statistic (which need not include all the data, and may not encompass all the information in the sample) and a sufficient statistic (which will encompass all the information with respect to some parameter). Statistical theory already has well-developed concepts like sufficiency that capture the idea that a statistic includes all relevant information in the sample. It is not necessary, or desirable, to try to build that requirement into the definition of a "statistic".
Reinstate Monica

4

I interpret that as saying that you should decide before you see the data what statistic you are going to calculate. So, for instance, if you're going to take out outliers, you should decide before you see the data what constitutes an "outlier". If you decide after you see the data, then your function is dependent on the data.


this is also helpful! So making a decision on which observations to include in the function after knowing what observations are available, which is more or less what I was describing in my comment on the previous answer.
Jake Kirsch

2
(+1) It might be worth noting that this important because if you define a rule a prior about what constitutes a data point that will be dropped, it is (relatively) easy to derive a distribution for statistic (i.e., truncated mean, etc.). It's really hard to derive a distribution for a measure that involves dropping data points for reasons that are not cleanly defined before hand.
Cliff AB
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.