动态计算估计均值所需的样本数量


9

我正在尝试通过抽样估计高斯分布的均值。我尚无关于其均值或方差的知识。每个样品的获取都很昂贵。如何动态确定要获得一定水平的置信度/准确性所需的样本数量?另外,我如何知道何时可以停止采样?

我能找到的所有类似问题的答案似乎都是对方差的一些了解,但我也需要一路发现这一点。其他人则适合进行民意调查,但我(初学者是我)还不清楚这种说法的普遍性-我的意思不是[[0,1]等)。

我认为这可能是一个答案很简单的简单问题,但是我的Google-fu令我失望。即使只是告诉我要搜索的内容也会很有帮助。


您为何将其标记为CW?这个问题似乎足够具体,可以提供一个正确的答案,因此不应该是CW。

1
@josh很好。我只是对您的选择感到好奇。

1
Google的“自适应采样”和“顺序采样”。如果您仍然感到困惑,可以使用“ Wald”作为关键字,然后进行历史改进(例如,查看引用Wald的有关顺序采样的论文,然后查看引用它们的论文,等等)。
ub

1
@Robby McKilliam:但是您使用什么数据?在收集任何数据之前就出现了这个问题。如果您一次收集一个值并在将每个新值添加到数据集之后计算CI,则由于要进行相关的多次比较,因此无法使用标准公式作为间隔。因此,您需要一个停止规则,以优化估算器的统计风险之和与收集每个其他样本的成本之和。
ub

1
@whuber谢谢!我仍在消化这些资料,但是我认为这正是我想要的。如果这是答案,我会接受...
Josh Bleecher Snyder

Answers:


2

您需要搜索“贝叶斯自适应设计”。基本思想如下:

  1. 您可以为感兴趣的参数初始化先验。

    在收集任何数据之前,您的先验将是分散的。随着其他数据的到来,您需要将先验值重新设置为与“到该时间点的先验+数据”相对应的后验值。

  2. 收集数据。

  3. 根据数据+先验计算后验。如果您实际上收集了其他数据,则后验将用作步骤1中的后验。

  4. 评估是否满足您的停止条件

    停止条件可能包括诸如95%可信区间之类的参数,该区间不应大于单位。您还可以具有与目标参数关联的更多形式损失函数,并针对目标参数的后验分布计算预期损失。±ϵ

然后重复步骤1、2和3,直到满足步骤4的停止条件为止。


0

通常,您至少需要30才能调用中心极限定理(尽管这在一定程度上是任意的)。与使用二项式分布建模的民意测验等情况不同,您无法预先确定样本大小,而样本大小无法保证高斯过程的准确性,这取决于您获得的残差决定了标准误差。

应该注意的是,如果您拥有可靠的采样策略,则与采用不良策略的较大样本量相比,可以获得更准确的结果。


3
从已知的(或假定的)高斯分布进行采样时,为什么需要调用CLT?即使是一个样本的均值也将呈正态分布!
ub

好点子!RTQ设置不正确。
詹姆斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.