我指的是这个视频讲座,用于计算置信区间。但是,我有些困惑。这个家伙正在使用 -statistics进行计算。但是,我认为应该是统计量。我们没有给出总体的真实标准差。我们正在使用样本标准差来估计真实值。
那么,为什么他对置信区间而不是对采用正态分布呢?
n <- 36; diff <- 12; sd <- 40; 2 * (pt(diff/(sd/sqrt(n)), df = n - 1) - 0.5) = 0.9195145
。
我指的是这个视频讲座,用于计算置信区间。但是,我有些困惑。这个家伙正在使用 -statistics进行计算。但是,我认为应该是统计量。我们没有给出总体的真实标准差。我们正在使用样本标准差来估计真实值。
那么,为什么他对置信区间而不是对采用正态分布呢?
n <- 36; diff <- 12; sd <- 40; 2 * (pt(diff/(sd/sqrt(n)), df = n - 1) - 0.5) = 0.9195145
。
Answers:
回到我上第一本统计学课时(恐龙之后,但是当实际计算机仍然占据整个房间时),我们被告知如果自由度超过30,则使用z表,部分原因是本书中的t表仅上升了30个自由度,如果您查看t表,您会发现在28度左右的某个位置上,您得到的结果与z表的相同,为2个有效数字(并且当手工完成所有这些操作时,取整)。主持人也许仍在那所学校里。
您是正确的,如果您使用样本标准差进行检验,则意味着您确实应该使用t分布而不考虑大小(这如今更容易做到),并且仅当使用z时(标准正态)知道总体标准差,但是出于实际目的,如果样本量很大,您通常不会看到有意义的差异。
我很难确定Khan是否只是在视频中简化了事情,还是他错了。我不得不说后者,但是问题不在z或t问题中。他称其为计算置信区间的依据,然后说自己有92%的信心表示总体平均值处于给定范围内。不幸的是,这根本不是您从置信区间得出的结论。
因此,我回到t vs. z问题,开始怀疑他是否在这里犯了错误。我在想这可能不是因为他确实声明,如果样本较小,则必须进行更正。因此,其他答复者可能对此是正确的。他之所以使用z是因为他已经介绍了z,并且z与36的n值已经足够接近了。我不打算浏览所有视频,但我想他会在以后介绍t分布,希望是下一个。
不幸的是,汗学院在许多统计领域都错了……但也许我只是这样,因为我只针对有问题的视频。