我有两年的数据基本上看起来像这样:
日期 _ __ 暴力是/否?_ 患者人数
1/1/2008 _ ___ 0 __ _ __ _ ____ 11
2008年2月1日_ __ _ 0 _ __ _ __ _ __ 11
2008年3月1日_ ____ 1 __ _ __ _ ____ 12
2008年4月1日_ ____ 0 __ _ __ _ ____ 12
...
2009年12月31日_ _ __ 0_ _ __ _ __ _ __ 14
例如,对精神病房进行为期两年的观察,每天一次,以观察当天是否发生过暴力事件(1为是,0为否)以及该病房的患者人数。我们希望检验的假设是,病房中更多的患者与病房中发生暴力的可能性增加相关。
当然,我们意识到,我们将不得不适应以下事实:当病房中有更多的患者时,发生暴力事件的可能性就更高,因为其中有更多的患者。我们对每个人在以下情况下暴力发生的可能性是否会增加感兴趣病房里有更多的病人。
我看过几篇只使用logistic回归的论文,但是我认为这是错误的,因为存在自回归结构(尽管查看自相关函数,它不会滞后于.1,尽管它高于R为我绘制的“显着”蓝色虚线)。
为了使事情变得更复杂,如果可以将结果细分为各个患者,我可以这样做,因此数据看起来和上面一样,只是我需要每个患者的数据,1/1/2008,2 / 1/2008等,后面还有一个ID码,因此数据可以分别显示每个患者的整个事件历史记录(尽管并非所有患者都整天都在场,不确定是否重要)。
我想在R中使用lme4对每个患者内的自回归结构进行建模,但是有些Google搜索提出了“ lme4未设置为处理自回归结构”的报价。即使是这样,我仍不确定我是否掌握如何编写代码。
以防万一有人注意到,我刚才问过这样的问题,它们是具有不同问题的不同数据集,尽管实际上解决该问题将对此有所帮助(有人建议我以前使用混合方法,但是这种自回归的方法使我不确定如何执行此操作)。
所以说实话,我有些困惑和迷茫。任何帮助表示感谢!
pgmm
从plm包中使用,但是由于您的响应变量是二进制的,因此我不知道该怎么做。也许其他人可以阐述...(是的,您是对的:我的理解是,每当您有一个内生变量时,在这种情况下,滞后值就无法使用REML进行估算,因为它是有偏见的,因此您需要使用GMM 。)