我一直在这个站点上查看有关自举和置信区间的许多问题,但我仍然感到困惑。我感到困惑的部分原因可能是我的统计学知识不够先进,无法理解很多答案。我正在学习统计学入门课程,但是我的数学水平仅是中代数II,因此超出该水平的任何内容都会使我感到困惑。如果该站点上的一位知识渊博的人可以在我一级上解释此问题,那将非常有帮助。
我们在课堂上学习如何使用bootstrap方法进行重采样,并使用它们为我们要测量的某些统计数据建立置信区间。因此,举例来说,假设我们从大量人口中抽样,发现40%的人表示将投票给候选人A。我们假设此样本是对原始人口的准确反映,在这种情况下,我们可以从发现有关人口的信息。因此,我们进行了重新抽样,发现(使用95%的置信度)所得的置信区间为35%至45%。
我的问题是,这个置信区间实际上是什么意思?
我一直在读,(频率)置信区间和(贝叶斯)可信区间是有区别的。如果我理解正确,可信区间将表示在我们的情况下,真实参数有95%的机会在给定区间内(35%-45%),而置信区间将表示在此区间中有95%情况类型(但不一定是我们的情况),我们使用的方法将准确地报告true参数在给定间隔内。
假设这个定义是正确的,我的问题是:使用引导程序方法建立的置信区间时,我们所说的“真实参数”是什么?我们是指(a)原始种群的真实参数,还是(b)样本的真实参数?如果是(a),那么我们可以说95%的时间引导方法将准确报告有关原始人口的真实陈述。但是我们怎么可能知道呢?整个引导程序方法不是基于这样的假设吗原始样本是否准确反映了其来源?如果是(b),那么我完全不了解置信区间的含义。我们是否不知道样本的真实参数?这是一个简单的测量!
我与老师讨论了这个问题,她很有帮助。但是我还是很困惑。