(线性回归)预测的调整


11

全面披露:我不是统计学家,也不声称自己是统计学家。我是一个低级的IT管理员。请和我一起玩。:)

我负责收集和预测我们企业的磁盘存储使用情况。我们每月收集存储使用情况,并使用简单的滚动式十二个月线性回归进行预测(换句话说,进行预测时仅考虑前十二个月的数据)。我们将这些信息用于分配和资本支出计划,例如“基于此模型,如果要在y个月内存储以满足我们的需求,我们将需要购买x数量。” 所有这些都能很好地满足我们的需求。

周期性地,我们的数字出现了一次大的波动,这使预测不合时宜。例如,某人发现不再需要的500GB旧备份,并将其删除。对他们有利于回收空间!但是,我们的预测现在因一个月的大幅下降而偏离了。我们一直都接受这样的下降需要9到10个月的时间才能摆脱模型,但是如果我们进入资本支出计划的季节,那可能会花费很长时间。

我想知道是否有一种方法可以处理这些一次性变化,以使预测值不会受到太大影响(例如,线的斜率不会发生太大变化),但是将它们考虑在内(例如与特定时间点相关的y值的一次变化)。我们为解决这个问题而进行的首次尝试已产生了一些丑陋的结果(例如指数增长曲线)。如果重要的话,我们将在SQL Server中进行所有处理。


很好的问题。请快速澄清。您是否要预测这些事件,或者一旦发生,就根据新信息调整模型预测?
马修·德鲁里

1
是的,目前尚不清楚您是否试图“平滑”这些罕见事件(例如500GB示例),以使它们不会对您的结果产生太大的影响,或者是否要考虑更多结果,因为您想在母狗调整存储时捕获做的?区别是微妙的:首先,您想几乎忽略新点(稀有事件),但其次,您想强调点(稀有事件)。如果是前者,则健壮回归可能对您来说是一种简单的方法,因为您已经在使用线性回归。看到这里: ats.ucla.edu/stat/r/dae/rreg.htm
StatsStudent

另外,您是否使用任何软件进行预测以及是否使用置信区间?
StatsStudent

我可以在事实之后添加一个调整。实际上,在大多数情况下,直到我查看下个月的数字并看到很大的变化,我才知道大的偏差。我没有使用任何软件进行预测;只是SQL Server中的一个存储过程来计算我的回归值。
sbrown'2

快速反应:(a)我可能首先适合使用非常基本的AR(1)来更改日志磁盘使用情况?您基本上是在估计磁盘使用量的长期增长率,以及在受到冲击后磁盘使用率的增长率恢复到该趋势的速度。(aa)您也可以使用其他数据并拟合VAR(向量自回归)。(b)丢弃所有大于12个月的数据可能不是最佳选择。(c)常规OLS将平方和最小化。您可以使用其他惩罚函数(例如,Huber),该函数对异常值更健壮。
马修·冈恩

Answers:


0

这是一个简单的建议。我不知道它是否对您有用,也许我应该将其作为评论,但似乎您需要更多的特权来发表评论而不是进行回复。

如果我理解正确,那么您使用的数字就是每个月使用的存储量。大概这些通常会增加,并且您想预测如果趋势继续下去,将来某个时候的金额。一旦意识到您的重大更改已经发生(例如,已释放500 GB),您是否可以返回并更改前几个月的数据(例如,从所有这些磁盘中删除500 GB)?基本上,您会做的是将前几个月的数字调整为应有的水平(如果您知道的话)。

当然,除非您确定可以回到以前的数字,否则我不建议您这样做。但是您想要进行的预测听起来甚至可以在Excel中完成,在这种情况下,您可以根据需要拥有任意多个版本。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.