我想使用“模型1”生成数据,并使其与“模型2”匹配。基本思想是研究“模型2”的鲁棒性。我对95%置信区间的覆盖率(基于正常近似值)特别感兴趣。
- 如何设置迭代次数?
- 大于必需的复制量是否会导致虚假的偏差,这是真的吗?如果是这样,那怎么办?
我想使用“模型1”生成数据,并使其与“模型2”匹配。基本思想是研究“模型2”的鲁棒性。我对95%置信区间的覆盖率(基于正常近似值)特别感兴趣。
Answers:
根据您的后续评论,听起来好像您正在尝试在真实误差方差不是恒定的情况下假设恒定误差方差时估计置信区间的覆盖率。
我对此的看法是,对于每次运行,置信区间要么覆盖真实值,要么不覆盖真实值。定义一个指标变量:
这样,您感兴趣的覆盖率就是,您可以通过样本比例来估算,我认为这是您所建议的。
如何设置迭代次数?
我们知道伯努利试验的方差为,您的模拟将生成IID贝努利试验,因此,基于模拟的p估计量的方差为p (1 - p )/ n,其中n为模拟次数。您可以选择n来尽可能缩小此方差。这是一个事实:p (1 - p )/ Ñ ≤ 1 / 4 Ñ
所以,如果你想方差小于某个预先设定的阈值,,那么你可以选择确保该ñ ≥ 1 / 4 δ。
在更一般的设置中,如果您尝试通过仿真调查估计量的抽样分布的属性(例如均值和方差),则可以基于要在类似条件下达到的精度来选择仿真次数此处描述的时尚。
还要注意,当变量的均值(或其他时刻)是感兴趣的对象时(如此处所示),您可以使用正态逼近(即中心极限定理)基于模拟为它构造一个置信区间,如MansT的好答案中所述。随着样本数量的增加,这种正态近似会更好,因此,如果您计划通过吸引中心极限定理来构建置信区间,则将希望足够大以使其适用。对于二进制情况,就像您在此处看到的那样,即使n p和n (1 - p )相当适中(例如20 ),这种近似也似乎很好。
大于必需的复制量是否会导致虚假的偏差,这是真的吗?如果是这样,那怎么办?
正如我在评论中提到的那样-这取决于您虚假的意思。大量的模拟不会在统计意义上产生偏差,但可能会显示出不重要的偏差,只有在天文数字较大的样本量下才可以注意到。例如,假设错误指定的置信区间的真实覆盖概率为。然后,从实际意义上讲,这并不是一个真正的问题,但是只有运行大量仿真后,您才可能发现这种差异。
我经常将置信区间的宽度用作确定所需迭代次数的快速方法。
当将“模型1”中的数据拟合到“模型2”中时,令为95%置信区间的真实覆盖率。如果X是的次数,该置信区间覆盖在真参数值Ñ迭代,那么X 〜乙我Ñ(Ñ ,p )。
估计p = X / Ñ具有均值p和标准偏差√。对于大型Ñ, p是大约正常和 p ±1.96 √给你的约95%置信区间p。由于已知(将GESS),该p≈0.95,由此得出该间隔的宽度为大约2⋅1.96√。
进行更多的模拟(假设所有样本都是由随机过程生成的)不会影响准确性或偏差方面的估计。