假设检验及其对时间序列的意义


19

查找两个总体时,通常的显着性检验是t检验,如果可能的话,配对t检验。这假设分布是正态的。

是否存在类似的简化假设,可以对时间序列进行显着性检验?具体来说,我们有两只老鼠,它们的数量相对较小,接受不同的治疗,并且我们每周测量一次体重。两张图均显示平滑增加的功能,其中一张图绝对高于另一张图。在这种情况下,我们如何量化“确定性”?

零假设应该是随着时间的流逝,两个总体的权重“以相同的方式表现”。如何用一个仅包含少量参数的相当普遍(就像正态分布一样普遍)的简单模型来表述呢?一旦做到这一点,一个人怎么能测量重要性或类似于p值的东西?如何配对小鼠,使其具有尽可能多的特征,并且每对具有两个种群中的一个代表?

我欢迎您找到有关时间序列的一些相关的,写得很好且易于理解的书或文章。我从无知开始。谢谢你的帮助。

大卫·爱泼斯坦


您可能希望扩大网络范围,因为这不一定是时间序列问题。确实,这里最基本的问题可能涉及量化治疗“终点”的最佳或至少正确的方法:这是否意味着一定时间后人口的增长,一段时间内的平均增长率等?如果您在开始实验之前不知道这一点,并突然注意到生长曲线的一致性,那么您是在探索性模式下工作,而不是在确认模式下进行,假设检验的p值看似很好。
ub

结果定性如预期,并且单方面测试似乎是适当的。我问时间序列的原因是,如果一个人仅测量最终权重(这是最相关的度量),那么一个人就丢弃了较早时间点的所有信息,这似乎是错误的。
David Epstein

您是对的:您不想丢弃那些数据。但是时间序列技术在数据模型中脱颖而出,在这些模型中,理想曲线偏离的时间相关性很重要,这可能是出于其自身利益或因为它们可能会干扰良好的估算。您的情况不太可能落入这两种情况。可以使用更简单,更具科学意义的方法。
ub

@whuber,从某种意义上来说,对照组小鼠的体重随时间推移是不是“理想曲线”?或者至少是适合该数据的理论模型?
naught101

1
是的,@ naught,这是一种合理的查看方式。但是“曲线”与“时间序列”不同。例如,线性回归可以(通常被)视为数据的拟合曲线,但与时间序列分析是分开的,时间序列分析强调了数据与理想曲线之间的偏差之间的相关性结构。
ub

Answers:


1

如果您认为体重变化是一个动态过程,则有很多方法可以做到。

例如,它可以被建模为一个积分 x˙(t)=θx(t)+v(t)

其中是权重变化,θ与权重变化的速度有关,而v t 是可能影响权重变化的随机干扰。您可以将v t 建模为N0 Q ,以获得已知的Q(也可以对其进行估计)。x(t)θv(t)v(t)N(0,Q)Q

在这里,您可以尝试使用预测误差方法来识别两个总体的参数(及其协方差)。如果高斯假设成立,预测误差方法会给那个的估计θ也是高斯(渐近),因此你可以建立一个假设检验,以确定的估计是否θ 1是统计上接近的θ 2θθθ1θ2

作为参考,我可以推荐这本书


0

我建议分别为每只小鼠确定一个ARIMA模型,然后对其相似性和概括性进行综述。例如,如果第一只老鼠有AR(1),第二只老鼠有AR(2),则最通用(最大)的模型将是AR(2)。全局估计该模型,即针对合并的时间序列。将组合集的误差平方和与两个单独的误差平方和之和进行比较,以生成F值,以检验跨组的常数参数的假设。我希望您可以发布您的数据,我将精确地说明此测试。

附加评论:

由于数据集是自动相关的,因此不适用正常性。如果观测值随时间是独立的,则可以应用一些众所周知的非时间序列方法。关于您对一本有关时间序列的易读书籍的要求,我建议使用Addison-Wesley的Wei文本。社会科学家会发现Mcleary和Hay(1980)的非数学方法更直观,但缺乏严格性。


1
这似乎并没有解决基本问题。(1)为什么这样的模型合适?(2)为什么要对每只鼠标进行建模,而不是对平均人口权重或体重增加进行建模?(3)为什么对常数参数的测试有意义?这个问题要求进行一次单尾测试。您提到的大多数参数似乎在科学上都不相关,也不能直接量化一个图始终位于另一个图之上的感觉。(4)在实验开始时,如何控制两个群体的特征可能存在差异?
ub

:whuber参数一致性测试是相关的,因为您对第一组读数1有一组系数,对于第二组鼠标有第二组系数。问题是“这些系数之间是否存在显着的总体差异”。现在继续您的评论,由于一个模型系数可能是一个常数,如果两者之间存在差异,则可能是由于这些常数在统计上彼此不同。请注意,基础ARIMA模型不一定是一个常数,因为它可能是一个差异模型。
IrishStat

1
我认为您部分正确,但是您需要完善问题的描述。许多ARIMA系数在科学上可能无关紧要。例如,如果它们中的一个在时间上像二次项,则差异可能说明增长曲线的形状,但这可能没什么用。如果选择系数来反映实验终点并对其进行测试,则可能会取得一些好处。通常,尽管如此,时间序列模型引入的系数(例如自相关)在这里不太可能引起直接的科学兴趣。
ub

黄道:“如果选择系数来反映实验终点并仅对其进行测试,则可能会因此获得一些好处”,因为它忽略了中间点,因此对我来说意义不大。与您的评论相反,时间序列模式及其伴随的系数具有重要的科学意义,因为它可以表征读数的分布并将其转换为无自相关结构的随机过程(误差项),然后可以进行测试要求正常。我提出的测试要求该假设成立。
IrishStat

1
自相关在这里可能并不重要。兴趣明确地集中在趋势上:潜在的增长曲线在两个人群之间如何趋​​于不同?自相关参数是令人讨厌的参数,仅在可能有助于改善这些增长曲线估计的范围内引入和处理。首要任务是采用增长的科学模型,用可解释和感兴趣的参数表示该模型,然后对其进行估算 时间序列技术的自动应用不太可能做到这一点。
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.