动态计算估计均值所需的样本数量

我正在尝试通过抽样估计高斯分布的均值。我尚无关于其均值或方差的知识。每个样品的获取都很昂贵。如何动态确定要获得一定水平的置信度/准确性所需的样本数量？另外，我如何知道何时可以停止采样？

我能找到的所有类似问题的答案似乎都是对方差的一些了解，但我也需要一路发现这一点。其他人则适合进行民意调查，但我（初学者是我）还不清楚这种说法的普遍性-我的意思不是[[0,1]等）。

我认为这可能是一个答案很简单的简单问题，但是我的Google-fu令我失望。即使只是告诉我要搜索的内容也会很有帮助。

estimation sample-size

— 乔什·布利彻·斯奈德
source

您为何将其标记为CW？这个问题似乎足够具体，可以提供一个正确的答案，因此不应该是CW。

@josh很好。我只是对您的选择感到好奇。

Google的“自适应采样”和“顺序采样”。如果您仍然感到困惑，可以使用“ Wald”作为关键字，然后进行历史改进（例如，查看引用Wald的有关顺序采样的论文，然后查看引用它们的论文，等等）。

— ub

@Robby McKilliam：但是您使用什么数据？在收集任何数据之前就出现了这个问题。如果您一次收集一个值并在将每个新值添加到数据集之后计算CI，则由于要进行相关的多次比较，因此无法使用标准公式作为间隔。因此，您需要一个停止规则，以优化估算器的统计风险之和与收集每个其他样本的成本之和。

— ub

@whuber谢谢！我仍在消化这些资料，但是我认为这正是我想要的。如果这是答案，我会接受...

— Josh Bleecher Snyder

Answers:

您需要搜索“贝叶斯自适应设计”。基本思想如下：

您可以为感兴趣的参数初始化先验。

在收集任何数据之前，您的先验将是分散的。随着其他数据的到来，您需要将先验值重新设置为与“到该时间点的先验+数据”相对应的后验值。
收集数据。
根据数据+先验计算后验。如果您实际上收集了其他数据，则后验将用作步骤1中的后验。
评估是否满足您的停止条件

停止条件可能包括诸如95％可信区间之类的参数，该区间不应大于单位。您还可以具有与目标参数关联的更多形式损失函数，并针对目标参数的后验分布计算预期损失。 $\pm \epsilon$

然后重复步骤1、2和3，直到满足步骤4的停止条件为止。

— 用户28
source

通常，您至少需要30才能调用中心极限定理（尽管这在一定程度上是任意的）。与使用二项式分布建模的民意测验等情况不同，您无法预先确定样本大小，而样本大小无法保证高斯过程的准确性，这取决于您获得的残差决定了标准误差。

应该注意的是，如果您拥有可靠的采样策略，则与采用不良策略的较大样本量相比，可以获得更准确的结果。

— 詹姆斯
source

从已知的（或假定的）高斯分布进行采样时，为什么需要调用CLT？即使是一个样本的均值也将呈正态分布！

— ub

好点子！RTQ设置不正确。

— 詹姆斯