全面披露:我不是统计学家,也不声称自己是统计学家。我是一个低级的IT管理员。请和我一起玩。:)
我负责收集和预测我们企业的磁盘存储使用情况。我们每月收集存储使用情况,并使用简单的滚动式十二个月线性回归进行预测(换句话说,进行预测时仅考虑前十二个月的数据)。我们将这些信息用于分配和资本支出计划,例如“基于此模型,如果要在y个月内存储以满足我们的需求,我们将需要购买x数量。” 所有这些都能很好地满足我们的需求。
周期性地,我们的数字出现了一次大的波动,这使预测不合时宜。例如,某人发现不再需要的500GB旧备份,并将其删除。对他们有利于回收空间!但是,我们的预测现在因一个月的大幅下降而偏离了。我们一直都接受这样的下降需要9到10个月的时间才能摆脱模型,但是如果我们进入资本支出计划的季节,那可能会花费很长时间。
我想知道是否有一种方法可以处理这些一次性变化,以使预测值不会受到太大影响(例如,线的斜率不会发生太大变化),但是将它们考虑在内(例如与特定时间点相关的y值的一次变化)。我们为解决这个问题而进行的首次尝试已产生了一些丑陋的结果(例如指数增长曲线)。如果重要的话,我们将在SQL Server中进行所有处理。