4
这是测试自杀人数数据中季节性影响的适当方法吗?
我有17年(1995年至2011年)的死亡证明数据与美国某州的自杀死亡有关。关于自杀和自杀的个月数/季节,有很多神话,其中很多是自相矛盾的,我的文献中经过审查,我对所使用的方法或结果的把握并不清楚。 因此,我着手确定是否可以确定我的数据集中在任何给定月份内自杀的可能性或高或低。我所有的分析都在R中完成。 数据中的自杀总数为13,909。 如果您以自杀次数最少的年份为例,它们发生在309/365天(85%)。如果您查看自杀次数最多的年份,则发生在339/365天(93%)。 因此,每年都有相当多的日子没有自杀。但是,如果将这17年的总和汇总起来,那么一年中的每一天(包括2月29日)都会有自杀事件(尽管平均值为38时只有5次)。 (在我看来)仅将一年中每一天的自杀总数加起来并不表示明显的季节性。 按月汇总,每月平均自杀范围为: (m = 65,sd = 7.4,至m = 72,sd = 11.1) 我的第一种方法是按年份汇总所有年份的数据集,并在计算出原假设的预期概率后得出卡氏检验,即按月计算的自杀人数没有系统差异。我考虑了天数(并针对taking年调整了2月),计算了每个月的概率。 卡方结果表明按月没有明显变化: # So does the sample match expected values? chisq.test(monthDat$suicideCounts, p=monthlyProb) # Yes, X-squared = 12.7048, df = 11, p-value = 0.3131 下图显示了每月的总数。水平红线分别位于2月,30天和31天月份的期望值。与卡方检验一致,对于预期计数,没有一个月份在95%置信区间之外。 我以为我已经做完了,直到我开始研究时间序列数据。正如我想象的那样,我首先使用stlstats包中的函数进行非参数的季节性分解方法。 为了创建时间序列数据,我从汇总的每月数据开始: suicideByMonthTs <- ts(suicideByMonth$monthlySuicideCount, start=c(1995, 1), end=c(2011, 12), frequency=12) …