在回归中使用日期变量是否有意义?


17

我不习惯在R中使用日期格式的变量。我只是想知道是否有可能在线性回归模型中将日期变量添加为解释变量。如果有可能,我们如何解释系数?一天对结果变量的影响?

举例说明我的要点


3
日期可以转换为数字。

我的印象是是R可以自动进行
PAC

3
但是产生的数字通常很大,这可能导致问题。自开始测量后,最好将自己转换为时间步长(小时或天或...)。这也使解释拦截变得更容易。
罗兰

3
转换为因子(以获取固定日收益)或转换为数值并重新缩放,因此第一天的值为0,以获取自起点以来的天数线性影响。
Thomas

1
这是一个真正的好问题。我认为这既是统计问题,也是编程问题。编程问题是,当我们将日期作为回归模型中的解释变量时,R如何处理日期,而统计问题是关于系数的精确解释。
PAC

Answers:


17

基于对堆栈溢出的早期注释:

是的,这很有道理。在这里,我解决了一般性问题,很高兴让R专家填写关键细节。我认为,由于这是Cross-Validated上的内容,因此我们不应过于狭too地关注发贴者喜欢的软件,尽管这对于志趣相投的人来说很重要。

任何软件中的日期(如果不是数字的话)都可以转换为数字变量,以年,天,毫秒或自某个时间开始的任何数字表示。与每个日期关联的系数的分母单位与日期的单位无关。分子单位取决于响应或因变量的单位。(非身份链接功能自然会使情况复杂化。)

但是,通常将日期移到对研究有意义的原点是最有意义的。通常,但不是必须的,原籍应该是学习期间内的日期,或者非常接近该日期。

也许最简单的情况是对以年为单位的日期变量进行线性回归。这里是一些回归responsedate表现为像2000年或2010年的日期指的拦截是值response在0年撇开历法细节,有没有这样的一年,这样的拦截往往是荒谬的大正或负,这是逻辑性强,但会分散解释和表达的注意力(即使对于知情的受众也是如此)。

在与大学生合作的一个真实例子中,在某个地区,每年的气旋数量随着日期的增加而略有增加,线性趋势似乎是一个合理的第一步。回归的截距很大,为负数,这引起了很大的困惑,直到人们意识到这和往常一样都是对0年的外推。将原点移到2000年会产生更好的结果。(实际上,确保正面预测的泊松回归甚至更好,但这是另一回事。)

回归 date - 2000等等都是一个好主意。一项研究的实质性细节通常表明一个良好的基准日期,即一个新的起点。

使用其他模型和/或其他预测变量不会破坏该原理。它只是模糊了它。

用最容易想到的日期对结果进行图形绘制也是一个好主意。这些可能是原始日期;这不是矛盾,因为使用最容易想到的东西只是同一原则。

稍加思考,就会发现该原理更为笼统。我们通常最好选择(年龄-20岁)或类似的年龄,以避免对0岁年龄段做出逻辑但笨拙的预测。

编辑2019年3月21日(原始2013年7月29日):在新泽西州科克斯市的Stata语境中讨论了这些论点。起源。Stata Journal 15:574-587 参见此处

编辑2也是2015年12月4日@whuber在评论中也提出了数值精度的重要问题。通常,时间单位很好,并且生成的日期或日期时间可能非常大,从而对平方和提出了重要的问题,依此类推等等。他从R提出了一个例子。为此,我们可以加上(例如)Stata中的日期时间是自1960年初以来的毫秒数。这个问题根本不是特定于日期的,因为通常在数字很大时可能会出现或很小,但也值得举报。


1
从经济学上来说,日期通常被用作不可估量变量的代理,或者仅仅是无法轻易获得的数据。随着品牌知名度的提高,新公司某些产品的销售率随着时间的增长而可见一斑。由于您很可能没有品牌知名度的指标,因此日期可以用作代理。这将使您的其他回归变量具有“更现实的”系数。** TL:DR **您应谨慎地在回归中使用日期,而不考虑与日期可能会影响您的自变量的哪些未测因素相关联
斯科特,

1
好建议。我猜想日历日期(通常是该日期的函数)通常是某个过程的代理,很难及时捕获,因此这一点超出了计量经济学的范围。
尼克·考克斯

1
我和任何人一样都喜欢罪恶和余弦,但是跨学科的问题的哪些采样导致了这种判断?
Nick Cox 2013年

1
如果有兴趣,请访问stata-journal.com/sjsearch.html?choice=keyword&q=season,以获得指向我有关季节性的某些工作的链接。
尼克·考克斯

3
R1个

5

如上所述,通过适当的缩放,日期是很好的回归指标。即使是典型的协变量,时间效应也不太可能是线性的,因此我几乎总是在时间上使用回归样条。一些复杂的时间趋势需要很多节(例如7个或更多)才能适应。受约束的三次样条曲线(自然样条曲线)在观察到的时间结束之后仍提供更安全的线性外推,尽管外推很少是完全安全的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.