如果某些时间点的响应严重偏斜,而某些时间点没有进行重复测量研究,该怎么办?


12

通常,当在纵向设计中遇到连续但偏斜的结果度量时(例如,具有一个对象间效应),通常的方法是将结果转换为正态。如果情况极端,例如观察结果被截断,则可能会花哨并使用Tobit生长曲线模型或类似的模型。

但是,当我看到结果通常在某些时间点分布然后在其他时间严重偏斜时,我会感到茫然。转换可能会堵塞一个泄漏,但会引发另一个泄漏。在这种情况下,您有什么建议?我是否不知道混合效果模型的“非参数”版本?

注意:一个应用示例是一系列教育干预措施前后的知识测验分数。分数开始正常,但随后聚集在量表的高端。


6
该示例很有趣,因为它始终存在。有一些著名的转换方法可以解决,例如Tukey的“折叠式”功率转换。这些变化在音阶的中间几乎没有变化,但可以消除两端的偏斜。我发现折叠的根和原木非常适合标准化的前后测试比较。
ub

谢谢,韦伯。我将研究折叠式转换方法。
布伦登·达弗

1
有关Brenden的定义和示例,请参阅stats.stackexchange.com/a/10979。有关其用法的说明,请参见Tukey的EDA书中的最后几章。
whuber

2
补充说明-请记住,假设是关于模型的残差,而不是涉及的实际变量。
彼得·弗洛姆

Answers:


1

假设问题出现在您的残差中(因为结果变量本身的分布通常不是问题),我将寻求调查问题的原因,而不是尝试通过转换或应用“修复”问题。非参数模型。

如果是某种趋势(例如逐渐或多或少地逐渐趋于正常),或者从正常到不正常之间有明显的突破,则表明存在某种“制度变化”您的数据(即数据生成机制随时间而变化)或某种类型的变量丢失问题。

如果是没有明显模式的情况(例如,时间段1和3看起来正常,而时间段2和4看起来不正常),我会非常仔细地寻找数据完整性问题。

检查您是否确实存在政权变更的一种简单方法是仅使用“正常”时间段估算模型,然后使用其他时间段重新估算并查看发生了什么差异。一种更复杂的方法是使用潜在类模型,也许将时间作为伴随变量。

关于非参数混合效应模型的问题,取决于您所说的非参数含义。如果您指的是没有假定数值因变量的模型,那么会有很多这样的模型(例如LIMDEP有很多)。此外,请记住,如果样本量较小,则从推断的角度来看,违反正态性假设可能仅会产生问题。研究此问题的一种方法是尝试尝试其他评论和答案中讨论的各种转换,并查看它是否对您的结论有很大影响。


+1谢谢,蒂姆 感谢您对潜在类模型和LIMDEP的建议。随着我开始更多地了解它们,这些方法对我越来越有吸引力。
布伦登·达福

0

有Box-Cox转换将变量提高到幂lambda,其中lambda包含在模型参数估计中。我不熟悉Tukey的折叠式电源转换,所以我不知道我们是否在谈论同一件事。为了估计lambda,您需要拟合多个点。您是否要在每个时间点都适合不同的分布,而该分布是针对在每个时间点接受测试的一组受试者定义的?即使是这样,即使您知道某些时间点应该具有相同的分布,您也可能希望将它们组合成一个整体。

另一种非参数的方法,并且不涉及向正态性的转换,该方法是在每个时间点或每个时间点组合处应用引导程序。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.