通过多元回归捕获季节性以获取每日数据


13

我有一个季节性很强的产品的每日销售数据。我想在回归模型中捕获季节性。我已经读到,如果您有季度或每月数据,那么在这种情况下,您可以分别创建3和11个虚拟变量-但是我可以处理每日数据吗?

我有三年的每日数据。自变量是价格点,促销标志(是/否)和温度。因变量是该产品的销售额。我不是在寻找时间序列模型,而是在使用多元回归模型。


您有多少数据?多少年值得?您是否有类似温度的数据?您模型的其余部分是什么样的?您的DV和IV是什么?
彼得·弗洛姆

除了Peter Flom的要求之外,您是否还在将数据建模为单变量时间序列还是多元时间序列?如果是多元变量,您还有其他变量吗?这些变量是否表现出季节性行为?如果是这样,则无需添加虚拟变量。您可以提供这些其他信息吗?
天气预报员

我已经编辑了我的问题。您能否提供任何解决方案。谢谢
Arushi


我完全同意@IrishStat,我们不会假设忽略时间序列模型,因为它是一个很好的模型,可以捕获多个季节变化。我建议您可以查看能够处理多个季节变化的指数平滑状态空间模型,趋势,同时。仅在R中使用。如果Forecast()包可以使用。
Karthi V

Answers:


10

@Irishstat几乎涵盖了我要说的内容,但是我会以自己的个人经验作为响应,以时间序列回归和OLS回归对这些数据进行建模。

如果是每日数据,那么我将执行以下操作:

为不同的季节性创建一个虚拟变量:

  • 要捕获星期几的季节性,请创建6个虚拟变量。
  • 要捕获当月的季节性,请创建30个虚拟变量
  • 要捕获一年中的月份,请创建11个虚拟变量。

为趋势变量创建虚拟变量:

  • 如果时间序列呈现线性趋势,则添加一个时间趋势变量。

  • 如果时间序列呈现非线性趋势,请添加非线性时间趋势变量,例如二次/三次/对数

添加自变量变量

  • 这是一个时间序列数据,因此应注意独立变量的超前和滞后效应。例如,在您的示例中,您提到了价格促销标志,它们可能不会立即对您的响应产生影响,即可能存在滞后和衰减/永久影响。因此,例如,如果今天进行促销,您今天的销量可能会增加,但是促销的效果会在几天后减弱。没有使用多重回归对此进行建模的简单方法,您将希望使用传递函数建模,该函数是parsimonoius的,并且可以处理任何类型的超前和滞后效应。请参阅我之前发布的示例,其中有一个干预(以您的价格为例),并且突然增加,然后出现衰减效应。话虽如此,如果你有提前和滞后效应有先验知识,请在您的案例虚拟变量中创建其他变量,以模拟价格点和(是/否)促销更改前后。

  • 您还需要添加“移动假期”指标变量,例如,正如Irishstat指出的那样,您将要添加“移动假期”的复活节/感恩节(在美国)。如果您使用虚拟编码方案来捕获季节性,则将自动处理固定日期的假期。

  • 此外,您需要确定异常值,例如加法/脉冲(一次事件)或电平偏移(永久偏移),并将它们添加为回归值。在时间序列数据的多元回归中识别异常值几乎是不可能的;您将需要时间序列离群值检测方法,例如Tsay的过程或Chen和Liu的过程,这些方法已合并到软件中,例如AUTOBOX,SPSS,SAS或tsoutlierR中的软件包。

潜在问题:

如果使用OLS多元回归对时间序列数据进行建模,则会遇到以下问题。

  • 错误可能是自相关的。看到这个不错的网站和这个网站解释这个问题。避免这种情况的一种方法是使用广义最小二乘(GLS)ARIMAX方法与OLS多元回归,您可以在其中校正自动相关性。
  • 6+30+11=47
  • 通过使用虚拟变量,您假设您的季节性是确定性的,即它不会随时间变化。由于您只有3年的数据,因此我不必担心,但是仍然值得对序列进行绘图,并查看季节性是否保持不变。

使用多重回归还有更多的缺点。如果预测对您更重要,那么我将保留至少6个月的数据并测试多元回归的预测能力。如果您的主要目标是解释自变量之间的相关性,那么使用多元回归会比较谨慎,而我会使用时间序列方法(例如ARIMAX / GLS)。

如果您有兴趣,可以参考Pankratz的出色文章,以了解传递函数和动态回归建模。有关一般时间序列的预测,请参阅Makridakis等。此外,Diebold会为回归和基于时间序列的预测提供很好的参考书。


非常好的总结,但我想补充一点,除了可能的周末影响外,您还忽略了特定的每月星期和特定月份的影响,所有这些我都认为非常重要。此外,赛前和赛后效果也不容忽视。考虑一下复活节前后以及其他主要节假日附近的活动。通常会有一个单独的响应模式,需要纳入LEAD规范。您还应该注意,参数可以并且经常随时间变化,并且需要验证参数恒定性的假设。
IrishStat 2014年

谢谢@Irishstat。你是对的。我忘记了动人的假期及其超前和滞后效应。
天气预报员

2

您需要的模型将包含每日影响,每周影响,每月影响,每月一周的影响,一天中的影响,假日的超前和滞后影响,未指定但凭经验可识别的级别/步长变化,本地时间趋势,季节性脉冲和脉冲的变化,同时结合ARIMA结构,并可能处理参数随时间的变化和误差随时间的变化。这被称为传递函数,可以很容易地将其重新表达(但不是简约)为多重线性回归。

具体而言,每日指标将采用6个预测指标。通常,必须仔细协调(确定)需要哪种预测器。如果您有很多时间可以尝试我提到的某些结构。或者,您可能需要一些高级软件/咨询服务,以解决您一生中遇到的问题。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.