SD大于平均值,非负比例


9

我收到了一篇报道我的研究非常类似于我实验室希望进行的研究的文章。但是,我注意到,对于感兴趣的变量“持续时间”,SD大于平均值...因为这是以分钟为单位的持续时间,所以它永远不会为负,这对我来说似乎很奇怪。据报道有2项研究发生了这种情况,以下是其中一项。

除此之外,这是一个混合设计。对照v处理(组之间)和时间1,时间2,时间3(重复测量)。这是平均值(SD),N> 200

                       Time1                Time2                  Time3 
Control               15.1 (14.6)          14.4 (14.8)            13.3 (15.7)
Treatment             14.8 (13.2)          10.0 (12.2)            8.2 (9.9)

...他们进行了方差分析,报告p <.001。

我被要求以此为基础进行功效分析,以确定我们研究的样本量。我很确定这表明数据不正常或有异常值,因此我不愿意根据此来确定样本量。我离基地不远吗?


您确定这些是SD,而不是95%的置信区间,这可能更像3 * SD。看起来那些SD与均值的大小大致相同。真的很难说样本量是多少,因为我们不知道这些错误甚至统计数据中包括了什么影响。如果仅计算统计量,即泊松分布,则包括SD的平均值应类似于1 / Sqrt(N)。但是,这意味着N = 1(或最多几个)。您能给我们更多有关这些统计数据的信息吗?
Dave31415

同样,正态分布的均值和SD彼此完全独立。我想也许您的意思是泊松分布。
Dave31415

2
对于非负值的持续时间,我通常期望分布偏斜。与平均值相当的SD完全有可能,并且毫无意义。没有更多的信息就无法建议为其他计算最佳假设的分布,但是我不会选择泊松作为我的第一个猜测,而是伽玛或对数正态分布。
尼克·考克斯

就像@NickCox指出的那样,如果SD不大于平均值(如果没有审查),我会惊讶于持续时间。您可能还考虑了威布尔分布。功率分析可能必须基于仿真。换句话说,我猜想方差分析是无效的,没有这样的数据。
gung-恢复莫妮卡

1
对于非负数的数据集,变异系数(标准偏差与均值之比)的值可高达,在极端情况下会出现最大值当所有数字均为除1之外)(有关详细信息,请参阅此问题)。因此,不应将超出平均值的标准偏差视为需要大量解释的例外情况。nO(n)0
Dilip Sarwate 2014年

Answers:


5

对于非负数或严格正数的数据,标准偏差很容易超过平均值

我将您的数据描述为标准差接近均值的情况(并非每个值都较大,而较大的值通常都接近)。对于非负数据,它确实非常清楚地表明数据是偏斜的(例如,变异系数为1的伽马分布将是指数分布,因此,如果数据是伽马,则它们看起来将接近指数)

但是,使用这种样本量,ANOVA可能不会受到特别严重的影响。合并方差估计的不确定性会很小,因此我们可以考虑在CLT(用于均值)和Slutsky定理(用于分母的方差估计)之间,ANOVA可能会很好地起作用,因为它将具有一个渐近的卡方,对于它来说,具有大分母自由度的ANOVA-F将是一个很好的近似值。(即,它应该具有合理的水平稳健性,并且由于均值与常数的相差不是很远,因此异方差不会对功率产生太大影响)

就是说,如果您的研究的样本量较小,则最好使用另一种测试(也许是置换测试,或更适合于偏斜数据的测试,也许是基于GLM的测试)。与直接进行方差分析相比,测试更改可能需要更大的样本量。

使用原始数据,您可以在合适的模型/分析下进行功效分析。即使没有原始数据,也可以对分布(可能是多种分布)做出更合理的假设,并研究整个功效曲线(或更简单地说,是I型错误率和任何效应大小的功效)很有趣)。可以使用各种合理的假设,这使人们对在合理的情况下可以实现什么功效以及可能需要多大的样本量有所了解。


4

您认为数据不正常是正确的。如果数据是正常的,那么我们预计约有16%的观测值小于平均值减去标准差。如果SD大于平均值,则此数字为负数,并且您声明不能有负数,因此您看到的内容与正态分布的数据不一致。SD值是可能的,但前提是该分布非常偏斜(在持续时间中很常见)。

我同意基于假设数据正常的情况来选择样本数量不是一个好主意,但是,如果您可以找到有关该过程的更多信息,并找到一个合理的假设,即正确的偏态分布(一种伽玛分布),那么您可以使用它来帮助确定样本数量。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.