我有一个季节性很强的产品的每日销售数据。我想在回归模型中捕获季节性。我已经读到,如果您有季度或每月数据,那么在这种情况下,您可以分别创建3和11个虚拟变量-但是我可以处理每日数据吗?
我有三年的每日数据。自变量是价格点,促销标志(是/否)和温度。因变量是该产品的销售额。我不是在寻找时间序列模型,而是在使用多元回归模型。
我有一个季节性很强的产品的每日销售数据。我想在回归模型中捕获季节性。我已经读到,如果您有季度或每月数据,那么在这种情况下,您可以分别创建3和11个虚拟变量-但是我可以处理每日数据吗?
我有三年的每日数据。自变量是价格点,促销标志(是/否)和温度。因变量是该产品的销售额。我不是在寻找时间序列模型,而是在使用多元回归模型。
Answers:
@Irishstat几乎涵盖了我要说的内容,但是我会以自己的个人经验作为响应,以时间序列回归和OLS回归对这些数据进行建模。
如果是每日数据,那么我将执行以下操作:
为不同的季节性创建一个虚拟变量:
为趋势变量创建虚拟变量:
如果时间序列呈现线性趋势,则添加一个时间趋势变量。
如果时间序列呈现非线性趋势,请添加非线性时间趋势变量,例如二次/三次/对数
添加自变量变量
这是一个时间序列数据,因此应注意独立变量的超前和滞后效应。例如,在您的示例中,您提到了价格促销标志,它们可能不会立即对您的响应产生影响,即可能存在滞后和衰减/永久影响。因此,例如,如果今天进行促销,您今天的销量可能会增加,但是促销的效果会在几天后减弱。没有使用多重回归对此进行建模的简单方法,您将希望使用传递函数建模,该函数是parsimonoius的,并且可以处理任何类型的超前和滞后效应。请参阅我之前发布的示例,其中有一个干预(以您的价格为例),并且突然增加,然后出现衰减效应。话虽如此,如果你有对提前和滞后效应有先验知识,请在您的案例虚拟变量中创建其他变量,以模拟价格点和(是/否)促销更改前后。
您还需要添加“移动假期”指标变量,例如,正如Irishstat指出的那样,您将要添加“移动假期”的复活节/感恩节(在美国)。如果您使用虚拟编码方案来捕获季节性,则将自动处理固定日期的假期。
此外,您需要确定异常值,例如加法/脉冲(一次事件)或电平偏移(永久偏移),并将它们添加为回归值。在时间序列数据的多元回归中识别异常值几乎是不可能的;您将需要时间序列离群值检测方法,例如Tsay的过程或Chen和Liu的过程,这些方法已合并到软件中,例如AUTOBOX,SPSS,SAS或tsoutlier
R中的软件包。
潜在问题:
如果使用OLS多元回归对时间序列数据进行建模,则会遇到以下问题。
使用多重回归还有更多的缺点。如果预测对您更重要,那么我将保留至少6个月的数据并测试多元回归的预测能力。如果您的主要目标是解释自变量之间的相关性,那么使用多元回归会比较谨慎,而我会使用时间序列方法(例如ARIMAX / GLS)。
如果您有兴趣,可以参考Pankratz的出色文章,以了解传递函数和动态回归建模。有关一般时间序列的预测,请参阅Makridakis等。此外,Diebold会为回归和基于时间序列的预测提供很好的参考书。