如何解释方差分析中的F值和p值?


40

我是统计学新手,目前正在与ANOVA合作。我在R中使用A进行ANOVA测试

aov(dependendVar ~ IndependendVar)

除其他外,我得到一个F值和一个p值。

我的原假设()是所有组均值相等。H0

关于如何计算F有很多可用信息,但是我不知道如何读取F统计信息以及F和p是如何连接的。

因此,我的问题是:

  1. 如何确定拒绝的临界F值?H0
  2. 每个F是否都有对应的p值,所以它们的含义基本相同吗?(例如,如果,则拒绝)0p<0.05H0

1
您是否尝试过命令summary(aov(dependendVar ~ IndependendVar)))summary(lm(dependendVar ~ IndependendVar))?您是说所有组均值彼此相等且等于0还是彼此相等?
RyanB 2011年

是的,我确实尝试过summary(aov...)。感谢您的lm.*,不知道这一点:-)我没有得到等于0的意思。如果这是我的0假设的简称,那么该假设就需要一个值,而我没有针对特定的假设进行测试,所以在这种情况下:彼此之间!
2011年1

1
有关直观的解释,请参阅关于回归主题的Yhat博客。
DataTx

Answers:


14

要回答您的问题:

  1. 您可以从F分布中找到临界F值(下)。看一个例子。分子和分母的自由度必须谨慎对待单向和双向。

  2. 是。


在诸如F检验这样的综合测试中谈论单向或双向比较是没有意义的。
Marcus Morrisey 2014年

3
马库斯·莫里西(Marcus Morrisey):我认为您将一拖二的尾巴与一拖二的方式混淆了。F检验没有多个“尾部”可供选择,但是在构造检验统计量时,需要考虑单向方差分析与双向方差分析。
艾米勒(Emiller)2014年

29

F统计量是数据的2个不同方差度量的比率。如果原假设为真,那么这两个都是对同一事物的估计,比率约为1。

分子是通过测量均值的方差来计算的,如果组的真实均值相同,则这是数据总体方差的函数。但是,如果原假设为假且均值不均等,则方差的度量将更大。

分母是每组样本方差的平均值,是对总体总体方差的估计(假设所有组的方差均等)。

因此,当所有均值均等的null为true时,这2个测度(带有一些额外的自由度术语)将相似,并且比率将接近1。如果null为false,则分子将相对于分母和比率将大于1。在F表上查询该比率(或使用R中的pf等函数进行计算)将得到p值。

如果您宁愿使用拒绝区域而不是p值,则可以使用F表或R(或其他软件)中的qf函数。F分布具有2种自由度。分子的自由度是基于要比较的组的数目(对于1路,它是组的数目减去1),分母的自由度是基于组内的观察数(对于1-它是观察数减去组数)。对于更复杂的模型,自由度变得更加复杂,但是遵循相似的想法。


感谢您的解释!我假设,如果我可以在表格上查找F值以查看p值,那么p和F只是两种表示H0正确的情况下可能会出现分析结果的可能性的两种方式?
2011年

2
在所有参数统计量中,检验统计量(在这种情况下为F)与p值之间存在直接的功能联系。为了方便起见,将它们放在表中,但也可以直接计算。您可以使用alpha来找到关键区域的临界值,以将测试统计量与之比较(我认为这更直观),也可以使用计算出的测试统计量来找到p值以与alpha进行比较。在这两种情况下,我们都以alpha级别和当null为true时遵循给定分布的测试统计公式开始。
格雷格·斯诺

20

考虑,和临界值之间关系的最佳方法是使用图片:pFp

在此处输入图片说明

这里的曲线是分布,即原假设是否成立的统计量的分布。在此图中,观察到的统计量是从黑色虚线到垂直轴的距离。该值从曲线下的深蓝色区域到无穷远。请注意,每个值必须对应于唯一的值,较高的值对应于较低的值。F F p F F p F pFFFpFFpFp

您应该注意到零假设下关于分布的其他一些事情:

1)值极不可能接近零(这并不总是正确的,但在此示例中对于曲线是正确的)F

2)在某一点之后,越大,则可能性越小。(曲线向右逐渐变细。)F

临界值也出现在该图中。从到无穷大的曲线下面积等于显着性水平(此处为5%)。您可以说这里的统计量将导致无法拒绝原假设,因为它小于,也就是说,其值大于0.05。在此特定示例中,,但是您需要一个标尺来手动计算它:-)C F C p p = 0.175CCFCpp=0.175

请注意,分布的形状取决于其自由度,对于ANOVA,自由度对应于组数(减去1)和观测值(组数减去)。通常,曲线的整体“形状” 由第一个数字确定,而其“平坦度”由第二个数字确定。上面的示例具有(4个组),但是您会看到设置(3个组)会产生明显不同的曲线:F d f 1 = 3 d f 1 = 2FFdf1=3df1=2

在此处输入图片说明

您可以在Mr. Wikipedia Page上看到曲线的其他变体。值得注意的是,由于统计量是一个比率,因此即使存在较大的自由度,在原假设下,大数也很少见。这与统计信息相反,后者不除以组数,而是随自由度而增长。(否则是类似于在这个意义上,是从正态分布衍生分数,而源自 -分布式的统计信息。)χ 2 χ 2 ˚F χ 2 Ž ˚F Fχ2χ2Fχ2zFtt

这比我想输入的要多得多,但我希望能涵盖您的问题!

(如果您想知道图表的来源,它们是由我的桌面统计信息包Wizard自动生成的。)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.