时间序列集比较


10

我要比较三组时间序列数据。他们在大约12天的3个不同时期服用。它们是在决赛周期间在大学图书馆中记录的平均,最大和最小人数。我必须做平均值,最大值和最小值,因为每小时的人头计数不是连续的(请参阅时间序列中的常规数据空白)。

现在数据集看起来像这样。每个晚上有一个数据点(平均,最大或最小),持续12个晚上。仅在所关注的12天之内,收集了3个学期的数据。因此,例如,2010年春季,2010年秋季和2011年5月每个都有12点。这是一个示例图表:

在此处输入图片说明

我已经覆盖了整个学期,因为我想看看每个学期的模式如何变化。但是,正如我在链接线程中所知,将两个学期并排拍打不是一个好主意,因为它们之间没有数据。

问题是:我可以使用哪种数学方法来比较每个学期的出勤模式? 我必须对时间序列进行任何特殊处理,还是可以简单地采用百分比差异?我的目标是说这几天的图书馆使用量正在上升或下降。我只是不确定应该使用哪种技术来显示它。

Answers:


8

固定效应方差分析(或其等效线性回归)提供了强大的方法系列来分析这些数据。为了说明这一点,这里的数据集与每晚平均HC图(每种颜色一个图)一致:

       |              Color
   Day |         B          G          R |     Total
-------+---------------------------------+----------
     1 |       117        176         91 |       384 
     2 |       208        193        156 |       557 
     3 |       287        218        257 |       762 
     4 |       256        267        271 |       794 
     5 |       169        143        163 |       475 
     6 |       166        163        163 |       492 
     7 |       237        214        279 |       730 
     8 |       588        455        457 |     1,500 
     9 |       443        428        397 |     1,268 
    10 |       464        408        441 |     1,313 
    11 |       470        473        464 |     1,407 
    12 |       171        185        196 |       552 
-------+---------------------------------+----------
 Total |     3,576      3,323      3,335 |    10,234 

方差分析countdaycolor产生此表:

                       Number of obs =      36     R-squared     =  0.9656
                       Root MSE      =  31.301     Adj R-squared =  0.9454

              Source |  Partial SS    df       MS           F     Prob > F
          -----------+----------------------------------------------------
               Model |  605936.611    13  46610.5085      47.57     0.0000
                     |
                 day |  602541.222    11  54776.4747      55.91     0.0000
           colorcode |  3395.38889     2  1697.69444       1.73     0.2001
                     |
            Residual |  21554.6111    22  979.755051   
          -----------+----------------------------------------------------
               Total |  627491.222    35  17928.3206   

model的0.0000节目配合p值是非常显著。该day的0.0000 p值也非常显著:可以检测到每一天的变化。但是,color(学期)p值0.2001不应被认为是重要的:即使控制了每天的变化,您也无法检测到三个学期之间的系统差异

Tukey的HSD(“诚实的显着差异”)测试可发现,日常平均值(不考虑学期)在0.05水平上具有以下显着变化(以及其他):

1 increases to 2, 3
3 and 4 decrease to 5
5, 6, and 7 increase to 8,9,10,11
8, 9, 10, and 11 decrease to 12.

这确认了眼睛在图中可以看到的内容。

由于图形跳动很大,因此无法检测到日常相关性(串行相关性),这是时间序列分析的整个要点。换句话说,不要理会时间序列技术:这里没有足够的数据可以为他们提供更大的洞察力。

人们应该总是想知道有多少人相信任何统计分析的结果。异方差性的各种诊断方法(例如Breusch-Pagan检验)都没有显示出任何不良之处。残差看起来不是很正常-它们会分成几组-因此所有p值都必须加上一粒盐。但是,它们似乎提供了合理的指导,并有助于量化我们从查看图表中可以获得的数据意义。

您可以对每日最小值或每日最大值进行并行分析。确保从相似的图开始作为参考,并检查统计输出。


+1,用于演示简单而强大的技术。我最好奇的是,您如何设法从图形中提取值?一些软件,还是对行为不良的学生的惩罚?:)
mpiktas

1
@mp我将图形屏幕截图上方的点数字化,用GIS软件提取其坐标,用电子表格转换坐标,然后将其导入统计数据包。只需要几分钟。当您仅有的数据为图表或地图形式时,此方法会很方便。
ub

@whuber太酷了!我没有意识到这一点。
suncoolsu 2011年

@whuber我想知道与36个独立观测值相比,具有3组12个自相关读数的效果如何。我想我们真的没有35个自由度可以打包。您反映的概率以非中心卡方变量与中心卡方变量之比为前提。我在这里缺少什么吗?可以很好地从图中提取数字。您是否可以参考某个特定程序以在这方面帮助我们。
IrishStat

1
xyV一个[RX=V一个[Rÿ=σ2σX-ÿ=0V一个[RX-ÿ=2σ2ρXÿV一个[RX-ÿ=21个-ρσ2ρ>0

0

莎拉(Sarah),以您的36个数字(每个周期12个值; 3个周期)为基础,构建具有11个指标的回归模型,以反映可能在学期中产生的影响,然后确定呈现该指标所必需的任何必要干预系列(脉搏,水平移位)。残差的平均值在所有地方均为0.0,或者至少在统计学上与0.0无显着差异。例如,如果您在第13期识别出水平变化,则可能表明前一个学期的平均值(即前12个值)与最近两个学期的平均值(后24个值)之间存在统计学上的显着差异。您可能能够得出推断或检验学期影响没有一周的假设。在这方面,一个好的时间序列包可能对您有用。如果您可能需要在此分析领域找到可以提供帮助的人员,将会失败。


1
这听起来像是对双向ANOVA(按天计算)的描述,然后是计划的11对天的测试。普通的旧统计软件可能会比专用的时间序列软件更加灵活和强大。肯定会更容易。顺便说一句,指数是天(进入考试期间),而不是学期的一周。

我还可以使用方差分析比较每天的最大值和最小值吗?还是这仅适用于手段?
induvidyul 2011年

@Sarah可能适用于最小值和最大值。但是,这些统计数据往往比均值具有更大的可变性,因此,您不太可能检测到一段时间内或学期之间它们的变化。您可以通过图表清楚地看出均值确实存在很大差异。如果可以的话,请结合当天的小时数并使用原始的小时计数而不是它们的每日平均值来进行ANOVA的三分法。
ub

@whuber:有人告诉我,每小时数据不能一起使用,因为它们只记录了上午12点至上午6点。请参阅我的上一个问题,即时间序列中的常规数据缺口
induvidyul 2011年

@Sarah我在谈论不同的东西:用三个因素对依赖关系进行建模:期间(其中3个),进入期间的一天(其中12个)和一天中的小时(其中6个)。您甚至可以考虑小时之间的相关性,但这对于您的目的可能不是必需的。无论如何,我主张将每个期间视为12 * 24计数的中断系列:缺少太多数据。
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.