Questions tagged «forecasting»

未来事件的预测。在[时间序列]的上下文中,这是[预测]的特例。

5
如何模拟价格?
我在matemathics stackexchange网站上问了这个问题,建议在这里问。 我正在从事一个业余项目,需要解决以下问题。 一点背景 假设有一些商品,其中包含功能和价格的描述。想象一下汽车和价格的清单。所有汽车都具有功能列表,例如引擎尺寸,颜色,马力,型号,年份等。对于每个品牌,都应如下所示: Ford: V8, green, manual, 200hp, 2007, $200 V6, red, automatic, 140hp, 2010, $300 V6, blue, manual, 140hp, 2005, $100 ... 更进一步,带有价格的汽车列表以一定的时间间隔发布,这意味着我们可以访问历史价格数据。可能并不总是包括完全相同的汽车。 问题 我想了解如何根据此基本信息为任何汽车的价格建模,最重要的是不在初始清单中的汽车。 Ford, v6, red, automatic, 130hp, 2009 对于上述汽车,它与列表中的汽车几乎相同,但马力和年份略有不同。要为此定价,需要什么? 我正在寻找的是实用且简单的内容,但我也想听听有关如何对此类内容进行建模的更复杂方法。 我尝试过的 到目前为止,这是我一直在尝试的内容: 1)使用历史数据查找汽车X。如果找不到,则没有价格。当然这是非常有限的,并且只能将其与时间衰减结合使用,以随着时间的推移改变已知汽车的价格。 2)使用汽车功能加权方案和定价的样本汽车。基本上有一个基本价格,功能只是在某种程度上改变了价格。基于此得出任何汽车的价格。 事实证明,第一种方法不够用,第二种方法并不总是正确的,我可能没有使用权重的最佳方法。这似乎在保持权重上有些沉重,所以这就是为什么我认为也许有某种方法可以将历史数据用作统计信息,从而获得权重或获得其他收益。我只是不知道从哪里开始。 其他重要方面 集成到我拥有的一些软件项目中。通过使用现有的库或自己编写算法。 新的历史数据出现时快速重新计算。 有什么建议可以解决这样的问题吗?所有想法都值得欢迎。 在此先多谢,并期待阅读您的建议!


4
预测模型:统计数据可能无法击败机器学习吗?[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 2年前关闭。 我目前正在关注一个专注于统计/计量经济学的硕士课程。在我的主人看来,所有学生都必须进行3个月的研究。上周,所有小组都必须向其余的硕士生介绍他们的研究。 几乎每个小组都针对他们的研究主题进行了一些统计建模和一些机器学习建模,并且每一次样本外预测都谈到了简单的机器学习模型击败了非常复杂的统计模型,在过去的3个研究中,每个人都非常努力几个月。无论每个人的统计模型多么出色,一个简单的随机森林几乎总是会得到较低的样本外误差。 我想知道这是否是一个普遍接受的观察?那如果要进行样本外预测,就没有办法击败简单的随机森林或极端梯度增强模型吗?这两种方法使用R包实现起来非常简单,而每个人都想出的所有统计模型都需要大量的技能,知识和精力来进行估算。 您对此有何看法?统计/计量经济学模型的唯一好处是您可以获得解释吗?还是我们的模型不够好,以至于它们不能明显胜过简单的随机森林预测?有没有解决这个问题的论文?

1
在指数平滑模型中处理丢失的数据
在指数平滑模型家族的背景下,似乎没有一种标准的方法来处理丢失的数据。特别是,在预测包中称为ets的R实现似乎只占用了最长的子序列,而没有丢失数据,Hyndman等人的《带指数平滑的预测》一书也是如此。似乎根本没有谈论丢失数据。 如果我的用户明确要求我(并且丢失的数据不会出现得太近或出现的时间间隔恰好相隔一个季节),我想做更多的事情。特别要注意的是以下几点。在模拟过程中,每当我会遇到一个丢失值,我将替代当前点预报〜ý吨为ÿ 吨,使得ε 吨 = 0。例如,这将使数据点在参数优化过程中不被考虑。ÿŤÿŤy_tÿ〜Ťÿ〜Ť\tilde y_tÿŤÿŤy_tεŤ= 0εŤ=0\varepsilon_t = 0 一旦我对参数有合理的拟合度,就可以估计误差的标准偏差(假设是平均值为),并验证使用从该分布生成的ϵ t值不会将可能性大幅度降低。我也将这些值用于预测(使用模拟)。000ϵŤϵŤ\epsilon_t 此方法是否存在已知的陷阱?

1
如何计算持续期间的预测误差(置信区间)?
我经常需要通过每月的数据系列来预测未来的时期。 可以使用公式来计算时间序列中下一个时段在alpha处的置信区间,但这永远不会包括如何处理第二个时段和第三个时段等。 我可以从视觉上想象,如果任何预测都用上下置信区间作图,那么通常这些区间应相对于平均预测成指数地增加或减少,因为不确定性是一种累积力。 假设我有4月= 5月10日= 6月8日= 7月11日= 13的单位销售,没有其他背景,例如季节性或人口数据 我们需要预测(尽管盲目地)八月,九月,十月。 您将使用哪种方法?更重要的是,您将如何衡量9月和10月的信心? 抱歉,对于某些专家来说,这可能是一个简单的问题-我一直在努力寻找一个明确的答案,而且我敢肯定,这是像我这样的所有业余爱好者都希望理解的事情。

2
使用R的时间序列分析过程和方法
我正在做一个小项目,我们试图预测未来6个月内商品(油,铝,锡等)的价格。我有12个这样的变量可以预测,并且我有2008年4月至2013年5月的数据。 我应该如何进行预测?我已经完成以下工作: 导入的数据作为时间序列数据集 所有变量的季节性都倾向于随趋势而变化,因此我将使用乘法模型。 我将变量的对数转换为加性模型 对于每个变量,使用STL分解数据 我打算使用Holt Winters指数平滑,ARIMA和神经网络进行预测。我将数据分为训练和测试(80、20)。计划选择MAE,MPE,MAPE和MASE较少的模型。 我做对了吗? 我还有一个问题是,在传递给ARIMA或神经网络之前,我应该对数据进行平滑处理吗?如果是,使用什么?数据显示季节性和趋势。 编辑: 附加时间序列图和数据 Year <- c(2008, 2008, 2008, 2008, 2008, 2008, 2008, 2008, 2008, 2009, 2009, 2009, 2009, 2009, 2009, 2009, 2009, 2009, 2009, 2009, 2009, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2011, 2011, 2011, …

4
auto.arima()是否识别出模型?
我一直在尝试学习和应用ARIMA模型。我一直在阅读Pankratz撰写的关于ARIMA的精彩文章- 使用单变量Box-Jenkins模型进行预测:概念和案例。在本文中,作者在选择ARIMA模型时特别强调了简约原则。 我开始使用R包预测中的auto.arima()函数。这是我所做的,我模拟了ARIMA,然后应用。以下是两个示例。正如您在两个示例中看到的那样,清楚地确定了许多人认为不简约的模型。尤其是在示例2中,在该示例中标识ARIMA(3,0,3)的时间实际上是ARIMA(1,0,1)就足够了,而且是简约的。auto.arima()auto.arima()auto.arima() 以下是我的问题。我将不胜感激任何建议。 是否有关于何时使用/修改通过自动算法识别的模型的指南auto.arima()? 仅使用AIC(我认为auto.arima()使用)来识别模型是否有任何困难? 可以建立一个简约的自动算法吗? 顺便说一下,我auto.arima()只是作为一个例子。这将适用于任何自动算法。 以下是示例1: set.seed(182) y <- arima.sim(n=500,list(ar=0.2,ma=0.6),mean = 10) auto.arima(y) qa <- arima(y,order=c(1,0,1)) qa 以下是的结果auto.arima()。请注意,所有系数都不重要。即值<2。Ťtt ARIMA(1,0,2) with non-zero mean Coefficients: ar1 ma1 ma2 intercept 0.5395 0.2109 -0.3385 19.9850 s.e. 0.4062 0.4160 0.3049 0.0878 sigma^2 estimated as 1.076: log likelihood=-728.14 AIC=1466.28 AICc=1466.41 BIC=1487.36 以下是arima()使用ARIMA(1,0,1)顺序常规运行的结果 Series: …

1
使用时间序列交叉验证计算预测误差
我有一个时间序列的预测模型,我想计算其样本外预测误差。目前,我遵循的策略是Rob Hyndman的博客(在页面底部附近)建议的策略(假设时间序列和大小为的训练集)y1,…,yny1,…,yny_1,\dots,y_nkkk 使模型适合数据并让作为下一个观测值的预测。yt,…,yt+k−1yt,…,yt+k−1y_t,\dots,y_{t+k-1}y^t+ky^t+k\hat{y}_{t+k} 将预测误差计算为。et=y^t+k−yt+ket=y^t+k−yt+ke_{t} = \hat{y}_{t+k} - y_{t+k} 重复t=1,…,n−kt=1,…,n−kt=1,\dots,n-k 将均方误差计算为MSE=1n−k∑n−kt=1e2tMSE=1n−k∑t=1n−ket2\textrm{MSE}=\frac{1}{n-k}\sum_{t=1}^{n-k} e_t^2 我的问题是,由于我的训练集重叠,我有多少需要担心相关性。特别要说的是,我不仅要预测下一个值,还要预测接下来的值,这样我就可以预测\ hat {y} _ {t + k},\ dots,\ hat {y} _ {t + k + m-1}和错误e_ {t,1},\ dots,e_ {t,m},我想构造一个预测错误的术语结构。mmmy^t+k,…,y^t+k+m−1y^t+k,…,y^t+k+m−1\hat{y}_{t+k},\dots,\hat{y}_{t+k+m-1}et,1,…,et,met,1,…,et,me_{t,1},\dots,e_{t,m} 我是否仍可以每次将训练集的窗口向前滚动1个,还是应该向前滚动mmm?如果我要预测的序列中存在显着的自相关,那么这些问题的答案将如何改变(可以想象这是一个长记忆过程,即自相关函数随幂定律而不是指数衰减。) 我希望在这里提供解释,也可以链接到可以找到有关MSE(或其他误差度量)的置信区间的理论结果的地方。

2
时空预测误差的探索性分析
数据:我最近致力于分析风电产量预测误差的时空场的随机特性。在形式上,可以说是一个过程 在时间上两次索引(分别为t和h),在空间上一次索引(p),其中H为超前次数(等于约24,有规律地采样),T为“预测时间”(即发布预测的时间,在我的情况下大约为30000,定期进行采样),n为多个空间位置(未网格化,在我的情况下为300)。由于这是与天气有关的过程,因此我也有大量可以使用的天气预报,分析和气象测量。(ϵpt + h | Ť)t = 1 … ,T;h = 1 ,... ,H,p = p1个,… ,pñ(ϵt+h|tp)t=1…,T;h=1,…,H,p=p1,…,pn \left (\epsilon^p_{t+h|t} \right )_{t=1\dots,T;\; h=1,\dots,H,\;p=p_1,\dots,p_n}ŤttHhhpppHHH242424ŤŤTññn 问题:您能否描述一下您将对此类数据执行的探索性分析,以了解过程的相互依赖结构(可能不是线性的)的本质,以便为它提出更好的模型。

2
使用时间序列分析来分析/预测暴力行为
这是一个很简单的问题,但是我对答案很感兴趣。我在精神病院工作,我有三年的数据,每天从每个病房收集有关该病房暴力程度的信息。 显然,适合这些数据的模型是时间序列模型。为了使它们更加正常,我不得不改变分数。我用差异数据拟合ARMA模型,而我认为最合适的模型是滞后2时具有一阶差分和一阶自相关的模型。 我的问题是,该模型到底可以用于什么?关于野兔数量和油价,时间序列在教科书中似乎总是非常有用,但是现在我已经做了我自己的研究,结果似乎是如此抽象以至于完全不透明。得分的差异在第二个滞后时彼此相关,但是我不能真正建议所有人在所有严重事件发生后的第二天都保持高度警惕。 可以吗

1
只要模型基于相同的数据集,您可以比较AIC值吗?
我正在使用Rob Hyndman的预测包在R中进行一些预测。属于包装的纸张可以在这里找到。 在解释了自动预测算法后,作者在相同的数据集上实现了这些算法。但是,在估计了指数平滑和ARIMA模型后,他们做出了我不理解的声明(第17页): 请注意,信息标准不可比较。 我认为使用AIC进行模型选择的优势在于,只要使用相同数据集对AIC值进行估算,我们就可以比较它们。这不正确吗? 因为我计划使用所谓的Akaike权重来组合来自不同模型类(例如指数平滑和ARIMA)的预测(请参阅Burnham和Anderson,2002,有关Akaike权重的讨论),这对我来说尤其有意义。 参考文献 Burnham,KP和Anderson,DR(2002)。模型选择和多模型推理:一种实用的信息理论方法。施普林格出版社。

3
集合时间序列模型
我需要自动进行时间序列预测,而且我事先不知道这些序列的功能(季节性,趋势,噪音等)。 我的目标不是为每个系列获得最佳模型,而是避免出现非常糟糕的模型。换句话说,每次都会出现小错误不是问题,但是偶尔会出现大错误是一个问题。 我认为我可以通过组合使用不同技术计算的模型来实现。 也就是说,尽管ARIMA对于特定系列来说是最好的方法,但对于其他系列来说可能不是最好的方法。指数平滑也一样。 但是,如果我将每种技术中的一个模型组合在一起,即使一个模型不太好,另一个模型也会使估算值更接近真实值。 众所周知,ARIMA在长期行为良好的序列中效果更好,而指数平滑在短期噪声序列中表现突出。 我的想法是结合使用两种技术生成的模型以获得更可靠的预测,这有意义吗? 可能有很多方法可以合并这些模型。 如果这是一个好方法,我应该如何将它们结合起来? 一个简单的预测平均值方法是一个选择,但是如果我根据模型的某种优度度量对平均值进行加权,也许可以得到更好的预测。 合并模型时对方差的处理方式是什么?

1
如何在预测中考虑假期的影响
我有一个相当可预测的每日时间序列和每周季节性。在没有假期的情况下,我能够提出看起来很准确的预测(通过交叉验证确认)。但是,当有假期时,我会遇到以下问题: 尽管所有历史假期均为0,但我在预测中得到的假期非零数字。但这实际上不是主要问题。问题是... 由于假期中不进行的处理会“溢出”到假期后的几天,因此,由于这些异常值似乎是短期的创新,因此无法使用简单的虚拟变量进行削减。如果没有每周的季节性变化,我可能会得出一个估计值,用于在假期后的五天左右的时间内分配假期中未处理的数据(如您如何创建反映假期的超前和滞后影响的变量中建议的/时序分析中的日历效果?)。但是,“溢出”的分布取决于假期发生的星期几,以及假期是否是圣诞节或感恩节,那里的订单订购率低于一年中的其余时间。 以下是我的交叉验证的一些快照,这些快照显示了在一周的不同日期出现的假期的预测(蓝色)与实际(红色)结果: 我还担心圣诞节的影响取决于它落在一周中的哪一天,而我只有六年左右的历史数据。 对于在预测的背景下如何应对这些类型的创新异常值,是否有人有任何建议?(很遗憾,我无法共享任何数据)


4
预测二进制时间序列
我有一个二进制时间序列,当汽车不动时为1,当汽车不动时为0。我想对未来36小时以及每个小时的时间范围进行预测。 我的第一种方法是通过以下输入使用朴素贝叶斯:t-24(每日季节性),t-48(每周季节性),一天中的小时。但是,结果不是很好。 您为该问题推荐哪些文章或软件?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.