Answers:
足够的统计信息汇总了样本中包含的所有信息,因此无论我们是给您样本还是统计信息本身,您都可以对参数进行相同的估计。减少数据而不会丢失信息。
这是一个例子。假设的对称分布约为零。我没有给您样本,而是给您了一个绝对值样本(这是统计数据)。您看不到标志。但是您知道分布是对称的,因此对于给定值,和的可能性相同(条件概率为)。这样您就可以掷出公平的硬币。如果出现正面,则将设为负数。如果有尾巴,请使其正面。这为您提供了的样本,该样本的分布与原始数据。您基本上可以从统计信息中重建数据。这就是足够的原因。
假设您有一枚硬币,而您不知道它是否公平。换句话说,它的概率为出现头顶()和出现头尾(),而您不知道的值。
您尝试通过多次抛硬币(例如说n次)来了解的值。
假设,而您碰巧得到的结果就是序列。
现在,您希望统计学家的朋友为您估计的值,并也许告诉您硬币是否可能是公平的。您需要告诉他们什么信息,以便他们进行计算并得出结论?
您可以告诉他们所有数据,即。不过这有必要吗?您可以汇总这些数据而不会丢失任何相关信息吗?
显然,投掷硬币的顺序是无关紧要的,因为您对每个投掷硬币都执行相同的操作,并且投掷硬币不会互相影响。例如,如果结果为,则我们的结论不会有任何不同。因此,您真正需要告诉您的统计学家朋友的唯一信息就是头数。
我们通过说正面数足以表示p来表达这一点。
这个例子说明了这个概念。如果您想了解它与正式定义之间的联系,请继续阅读。
从形式上来说,如果给定统计值,则结果的概率分布不涉及该参数,则对于该参数而言,统计就足够了。
在这个例子中,才知道磁头数,任何结果的概率为。显然,这取决于。
但是,一旦我们知道,磁头数为3(或任何其他值),所有的3头(成果,,)同样有可能(实际上有十个可能使它们都具有概率)。因此,分布不再与。直观地讲,这意味着我们观察到的任何具体结果都不会告诉我们有关p的更多信息。,因为结果不受影响。
顺便说一句,请注意,在我们知道正面数之前的概率仅取决于到正面。事实证明,这等同于足以用于p 。