为什么足够的统计信息包含计算参数估计值所需的所有信息?


16

我刚刚开始研究统计信息,但我对直觉性没有一个直观的了解。更准确地说,我无法理解如何证明以下两段是等效的:

大致地,给定一组以未知参数θ为条件的独立相同分布的数据X,足够的统计量是函数T(X),其值包含计算该参数的任何估计所需的所有信息。

如果在给定统计量T(X)的情况下数据X的条件概率分布不依赖于参数θ,则统计量T(X)足以满足基础参数θ的需要。

(我引用了足够的统计信息中的引号)

尽管我理解第二条语句,并且我可以使用分解定理来说明给定的统计量是否足够,但是我不明白为什么具有这样一个属性的统计量还具有“包含计算任何数据所需的所有信息”的属性。参数估计”。我不是要寻找正式的证明,无论如何这将有助于我的理解,我想对为什么这两个陈述是等效的进行直观的解释。

回顾一下,我的问题是:为什么两个陈述是相等的?有人可以为他们的等效性提供直观的解释吗?


1
主要的直观想法是,有时您不需要查看整个样本,因为您可以找到一个统计信息,该统计信息汇总了样本中所需的所有信息。以二项式分布为例:对于模型,您需要知道的就是成功的总和。如果我只告诉您,而不是向您显示整个采样值,则不会丢失任何价值。X = { 1 0 0 1 0 1 }inxi=cx={1,0,0,1,0,1,...}

我理解为什么我需要足够的统计信息,以及如何证明成功的总和对于伯努利过程中的p是足够的统计信息。我不明白的是,为什么第二段所述的统计信息包含计算该参数的任何估计所需的所有信息。
gcoll 2015年

3
严格来说,第一引号是完全错误的。可以从整个数据集计算出很多估计值,而不能仅从足够的统计数据中计算出这些估计值。这是报价“大约”开始的原因之一。另一个原因是它没有提供“信息”的定量或严格定义。但是,由于在上一段中给出了更加准确(但仍很直观)的特征,因此在适当的上下文中
ub

1
它与最大似然有关,本质上是最大似然所需要的信息
Kamster,2015年

1
遵循whuber和@Kamster的评论之后,我可能有了更好的理解。当我们说一个足够的统计信息包含计算该参数的任何估计所需的所有信息时,我们实际上是否意味着计算最大似然估计值就足够了(这是所有足够统计信息的函数)?的确如此,正如胡布尔建议的那样,问题全都与“信息”的(非)定义有关,我的问题得到了回答。
gcoll

Answers:


3

在@whuber和@Kamster的评论之后,我可能有了更好的理解。当我们说一个足够的统计信息包含计算该参数的任何估计所需的所有信息时,实际上是指足以计算最大似然估计值(这是所有足够的统计信息的函数)。

鉴于我正在回答自己的问题,因此我对答案没有100%的确定,在得到一些反馈之前,我不会将其标记为正确。如果您认为我错/不精确/等,请添加任何评论和不赞成投票...

(让我知道这是否与SE礼仪不兼容,这是我的第一个问题,如果我违反任何规则,请您宽恕)


1

在研究自给自足的过程中,我遇到了您的问题,因为我也想了解以下直觉:从我收集的信息中,这就是我的想法(让我知道您的想法,如果我犯了任何错误等)。

为来自均值θ > 0的泊松分布的随机样本。X1,,Xnθ>0

我们知道对于θ是足够的统计量,因为给定T XX 1... X n的条件分布没有θ,换句话说,不是取决于θT(X)=i=1nXiθX1,,XnT(X)θθ

现在,统计学家知道的是X 1... X ñ d P ö 小号小号ø Ñ 4 ,并创建ñ = 400从该分布的随机值:A X1,,Xni.i.dPoisson(4)n=400

n<-400
theta<-4
set.seed(1234)
x<-rpois(n,theta)
y=sum(x)

freq.x<-table(x) # We will use this latter on
rel.freq.x<-freq.x/sum(freq.x)

对于统计学家创建的值,他取其总和并向统计学家B询问以下内容:AB

“我有这些样本值从泊松分布中提取。知道n i = 1 x i = y = 4068时,您能告诉我有关该分布的什么信息?”x1,,xni=1nxi=y=4068

因此,仅知道(以及样本来自泊松分布这一事实)就足以让统计学家B说出θ?因为我们知道这是足够的统计信息,所以我们知道答案是“是”。i=1nxi=y=4068Bθ

为了获得关于此含义的一些直觉,让我们执行以下操作(摘自Hogg&Mckean&Craig的“数学统计简介”,第7版,练习7.1.9):

决定创建一些伪观测,他将其称为z 1z 2z n(因为他知道它们可能不等于原始x值)。他指出,独立泊松的条件概率在给定z i = y的情况下,随机变量Z 1Z 2Z n等于z 1z 2z nBz1,z2,,znxZ1,Z2,Znz1,z2,,znzi=y

θz1eθz1!θz2eθz2!θzneθzn!nθyenθy!=y!z1!z2!zn!(1n)z1(1n)z2(1n)zn

因为是均值的泊松分布Ñ θ。后一种分布是具有y个独立试验的多项式,每个试验都以n种互斥且穷举的方式之一终止,每种方式具有相同的概率1 / n。因此,B进行了这样的多项式实验y次独立试验,并获得z 1z n。”Y=Zinθyn1/nByz1,,zn

这就是练习所指出的。因此,我们要做的就是:

# Fake observations from multinomial experiment
prob<-rep(1/n,n)
set.seed(1234)
z<-as.numeric(t(rmultinom(y,n=c(1:n),prob)))
y.fake<-sum(z) # y and y.fake must be equal
freq.z<-table(z)
rel.freq.z<-freq.z/sum(freq.z)

Zk=0,1,,13

# Verifying distributions
k<-13
plot(x=c(0:k),y=dpois(c(0:k), lambda=theta, log = FALSE),t="o",ylab="Probability",xlab="k",
     xlim=c(0,k),ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(8,0.2, legend=c("Real Poisson","Random Z given y"), 
       col = c("black","green"),pch=c(1,4))

enter image description here

θY=Xin

XZ|y

plot(rel.freq.x,t="o",pch=16,col="red",ylab="Relative Frequency",xlab="k",
     ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(7,0.2, legend=c("Random X","Random Z given y"), col = c("red","green"),pch=c(16,4))

enter image description here

我们看到它们也非常相似(如预期)

So, "for the purpose of making a statistical decision, we can ignore the individual random variables Xi and base the decision entirely on the Y=X1+X2++Xn" (Ash, R. "Statistical Inference: A concise course", page 59).


0

Let me give another perspective that may help. This is also qualitative, but there is a rigorous version of that particularly important in Information Theory - known as Markov property.

In the beginning, we have two objects, data (coming from a Random Variable, call it X) and parameter, θ (another rv, implicitly assumed since we are talking about its estimator). These two, are assumed to be dependent (otherwise, there is no point in trying to estimate one from the other). Now, the third object enters the game, Sufficient Statistic, T. The intuitive idea when we say T is enough to estimate θ really means that if we know T (ie conditioned on T), X provides no additional info, that is, X and θ are independent. In other word, knowledge of X is equivalent to knowledge of T as far as estimation of θ is concerned. Note that in probabilities are where all the uncertainties are captured, and hence "any estimate" when (conditional) probabilities are independent (eg conditional densities factorize).

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.