1 广义线性模型与Timseries模型进行预测 使用广义线性模型(例如自动相关性确定(ARD)和Ridge回归)与时间序列模型(例如Box-Jenkins(ARIMA)或指数平滑)进行预测有什么区别?关于何时使用GLM和何时使用时间序列有任何经验法则吗? 10 time-series generalized-linear-model forecasting
2 什么是预测受(0,1)约束的百分比的时间序列模型? 这必定会发生-预测介于0和1之间的事物。 在我的系列文章中,我怀疑有一个自动回归的成分,也有一个均值回归的成分,所以我希望我可以像ARIMA那样解释一些东西,但是我不希望它将来会飙升到1000% 。 您是否仅将ARIMA模型用作逻辑回归中的参数以将结果限制在0和1之间? 或者我在这里了解到Beta回归更适合(0,1)数据。我如何将其应用于时间序列?是否有好的R软件包或Matlab函数使拟合和预测变得容易? 10 time-series forecasting logistic arima beta-regression
3 通过机器学习预测几个时期 我最近回顾了自己的时间序列知识,并意识到机器学习通常只会提前一步。 有了一步一步的预测,我的意思是进行预测,例如,如果我们有每小时的数据,请使用上午10点到上午11点的数据进行预测,而上午12点则使用12点的数据进行预测等等。 机器学习方法可以产生提前h预测吗?有了h提前预测,我的意思是,例如,假设每小时的数据,我们使用上午10点的数据进行7提前预测,以获得11,12,13,14,15,16,17的估算值。时钟。 图片示例: 有关我的主要问题,我想知道: 我没有看到任何人使用机器学习进行h提前预测的原因是什么? 如果有一种使用机器学习的方法,它是否比ARIMA更为精确? 9 machine-learning time-series forecasting arima
1 ARIMA模型的循环行为的条件 我正在尝试建模和预测一个周期性而不是季节性的时间序列(即存在类似季节性的模式,但没有固定的时间段)。可以使用ARIMA模型来做到这一点,如“ 预测:原理和实践”第8.5节所述: 如果数据显示周期,则的值ppp很重要。为了获得环预测,有必要具有p≥2p≥2p\geq 2与对参数的一些附加条件一起。对于AR(2)模型,如果,则会发生循环行为ϕ21+4ϕ2<0ϕ12+4ϕ2<0\phi^2_1+4\phi_2<0。 在一般ARIMA(p,d,q)情况下,参数的这些附加条件是什么?我到处都找不到。 9 time-series forecasting arima seasonality
1 哪种深度学习模型可以对不互斥的类别进行分类 示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少? 9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty
2 偏差方差分解:期望平方预测误差的项减去不可约误差 Hastie等。“统计学习的要素”(2009年)考虑了数据生成过程 其中和。È(ε )= 0 无功(ε )= σ 2 εÿ= f(X)+ εY=f(X)+ε Y = f(X) + \varepsilon E(ε)=0E(ε)=0\mathbb{E}(\varepsilon)=0Var(ε)=σ2εVar(ε)=σε2\text{Var}(\varepsilon)=\sigma^2_{\varepsilon} 他们对点(第223页,公式7.9)处的期望平方预测误差进行了以下偏差方差分解: 在我的自己的工作我没有指定而是取一个任意的预测(如果相关)。问题:我正在寻找 或更确切地说 的术语 错误(x 0)x0x0x_0˚F(⋅) ÿErr(x0)=E([y−f^(x0)]2|X=x0)=…=σ2ε+Bias2(f^(x0))+Var(f^(x0))=Irreducible error+Bias2+Variance.Err(x0)=E([y−f^(x0)]2|X=x0)=…=σε2+Bias2(f^(x0))+Var(f^(x0))=Irreducible error+Bias2+Variance.\begin{aligned} \text{Err}(x_0) &= \mathbb{E}\left( [ y - \hat f(x_0) ]^2 | X = x_0 \right) \\ &= \dots \\ &= \sigma^2_{\varepsilon} + \text{Bias}^2(\hat f(x_0)) + … 9 variance forecasting prediction terminology bias
4 我应该如何处理这个二元预测问题? 我有一个具有以下格式的数据集。 有二元结局癌症/无癌症。数据集中的每位医生都看过每位患者,并对患者是否患有癌症做出独立判断。然后,医生会给出他们的诊断正确与否的5分置信度,并在方括号中显示置信度。 我尝试了各种方法来从该数据集中获得良好的预测。 对于我来说,在不考虑医生的置信度的情况下,对所有医生平均而言,效果很好。在上表中,这将为患者1和患者2做出正确的诊断,尽管它会错误地指出患者3有癌症,因为在2-1多数中,医生认为患者3有癌症。 我还尝试了一种方法,其中我们随机抽取两名医生,如果他们彼此不同意,则决定权投给哪个更有信心的医生。这种方法是经济的,因为我们不需要咨询很多医生,但是它也大大提高了错误率。 我尝试了一种相关的方法,在该方法中我们随机选择两名医生,如果他们彼此不同意,我们将随机选择另外两名医生。如果一项诊断至少要进行两次“投票”,那么我们会解决一些问题,以支持该诊断。如果没有,我们将继续抽样更多的医生。这种方法非常经济,不会犯太多错误。 我不禁感到自己正在错过一些更复杂的做事方式。例如,我想知道是否存在某种方法可以将数据集分为训练集和测试集,并找到某种最佳方式来组合诊断,然后查看这些权重在测试集上的表现。一种可能性是某种方法,可以让我减轻一直在试验集上犯错误的医生的体重,也可以减肥以高置信度做出的诊断(置信度确实与此数据集的准确性相关)。 我有许多与此一般说明相符的数据集,因此样本量各不相同,并且并非所有的数据集都与医生/患者有关。但是,在此特定数据集中,有40位医生,每位医生看了108位患者。 编辑:这是我阅读@ jeremy-miles的答案所得到的一些权重的链接。 未加权的结果在第一列中。实际上,在此数据集中,最大置信度值为4,而不是我之前错误地说的5。因此,按照@ jeremy-miles的方法,任何患者可获得的最高未加权评分将是7。这意味着从字面上看,每位医生都以4的置信度断言该患者患有癌症。任何患者均可获得的最低未加权分数是0,这意味着每位医生都以4的置信度断言该患者没有癌症。 Cronbach的Alpha加权。我在SPSS中发现Cronbach的总体Alpha为0.9807。我试图通过更手动的方式计算Cronbach的Alpha值来验证该值是否正确。我创建了所有40位医生的协方差矩阵,并将其粘贴在此处。然后根据我对Cronbach的Alpha公式的理解其中是项目数(这里是医生的“项目”),我通过对协方差矩阵中的所有对角元素求和来计算,并通过对以下元素中的所有元素求和来计算协方差矩阵。然后我得到了α = Kķ− 1( 1 - &Sigma; σ2X一世σ2Ť)α=ķķ-1个(1个-∑σX一世2σŤ2)\alpha = \frac{K}{K-1}\left(1-\frac{\sum \sigma^2_{x_i}}{\sigma^2_T}\right)ķķK&Sigma; σ2X一世∑σX一世2\sum \sigma^2_{x_i}σ2ŤσŤ2\sigma^2_Tα = 4040 − 1( 1 − 8.7915200.7112) =0.9807α=4040-1个(1个-8.7915200.7112)=0.9807\alpha = \frac{40}{40-1}\left(1-\frac{8.7915}{200.7112}\right)=0.9807然后,我计算了每位医生从移出时将发生的40种不同的Cronbach Alpha结果。数据集。我将对克伦巴赫的Alpha值贡献为负的任何医生的权重加权为零。我为其余医生得出了与他们对克伦巴赫Alpha的积极贡献成正比的权重。 按项目相关性加权。我计算所有“项目总计”相关性,然后按相关性大小成比例权衡每个医生的体重。 通过回归系数加权。 我仍然不确定的一件事是如何说哪种方法比另一种“更好”地工作。以前,我一直在计算诸如Peirce技能得分之类的东西,它适用于具有二元预测和二元结果的实例。但是,现在我的预测范围是0到7,而不是0到1。我应该将所有加权分数> 3.50转换为1,将所有加权分数<3.50转换为0吗? 9 forecasting binary-data psychometrics
1 为什么我的VAR模型在非平稳数据上比固定数据能更好地工作? 我正在使用python的statsmodels VAR库为财务时间序列数据建模,有些结果令我感到困惑。我知道VAR模型假设时间序列数据是固定的。我无意中拟合了两种不同证券的非平稳对数价格对数,并且令人惊讶的是,拟合值和样本内预测在相对微不足道的固定残差下非常准确。样本内预测的为99%,预测残差系列的标准偏差为预测值的10%左右。[R2[R2R^2 但是,当我改变对数价格并将该时间序列拟合到VAR模型时,拟合值和预测值相差甚远,在均值附近处于狭窄范围内。结果,残差在预测对数收益方面比拟合值做得更好,预测残差的标准偏差比拟合数据系列大15倍,而预测序列的.007值。[R2[R2R^2 我是否会误解VAR模型上的拟合残差与其他残差?为什么非平稳时间序列会比基于相同基础数据的平稳时间序列产生更准确的预测?我在同一个python库中使用ARMA模型进行了很好的工作,却看不到像对单个系列数据建模那样的东西。 9 time-series forecasting r-squared var stationarity
1 使用ARIMA和LSTM进行时间序列预测 我要处理的问题是预测时间序列值。我正在一次查看一个时间序列,例如,基于15%的输入数据,我想预测其未来值。到目前为止,我遇到了两种模型: LSTM(长期短期记忆;一类递归神经网络) 有马 我都尝试过并阅读了一些文章。现在,我试图更好地了解如何比较两者。到目前为止,我发现了什么: 如果我们要处理大量数据并且有足够的训练数据,那么LSTM会更好地工作,而ARIMA对于较小的数据集则更好(这是正确的吗?) ARIMA需要一系列(p,q,d)必须根据数据计算的参数,而LSTM不需要设置此类参数。但是,我们需要为LSTM调整一些超参数。 除了上述特性之外,我找不到其他可以帮助我选择最佳模型的要点或事实。如果有人可以帮助我查找文章,论文或其他东西,我将非常感谢(到目前为止,还没有运气,这里和那里只有一些一般性意见,而没有基于实验的内容。) 我不得不提到,最初我是在处理流数据,但是现在我使用的是NAB数据集,其中包括50个数据集,最大大小为2万个数据点。 9 time-series forecasting references arima lstm
2 如何使用tsoutliers软件包和auto.arima解释和进行预测 我有1993年至2015年的月度数据,并希望对这些数据进行预测。我使用tsoutliers包检测异常值,但是我不知道如何继续使用我的数据集进行预测。 这是我的代码: product.outlier<-tso(product,types=c("AO","LS","TC")) plot(product.outlier) 这是我从tsoutliers包的输出 ARIMA(0,1,0)(0,0,1)[12] Coefficients: sma1 LS46 LS51 LS61 TC133 LS181 AO183 AO184 LS185 TC186 TC193 TC200 0.1700 0.4316 0.6166 0.5793 -0.5127 0.5422 0.5138 0.9264 3.0762 0.5688 -0.4775 -0.4386 s.e. 0.0768 0.1109 0.1105 0.1106 0.1021 0.1120 0.1119 0.1567 0.1918 0.1037 0.1033 0.1040 LS207 AO237 TC248 AO260 AO266 0.4228 … 9 r time-series forecasting arima outliers
3 预测模型中的传递函数-解释 我忙于ARIMA建模,该模型添加了用于推广建模目的的外生变量,并且很难向业务用户进行解释。在某些情况下,软件包最终会带有简单的传递函数,即参数*外生变量。在这种情况下,解释很容易,即促销活动X(由外源二进制变量表示)通过Y量影响因变量(例如需求)。因此,从业务角度来讲,我们可以说促销活动X导致需求量增加了Y个单位。 有时,传递函数更加复杂,例如多项式除法*外生变量。我所能做的就是对多项式进行除法,以便找到所有的动态回归系数,并说例如促销活动不仅会影响需求发生期间的需求,而且还会影响未来的需求。但是由于软件包将输出传递函数作为多项式的除法,因此业务用户无法做出直观的解释。如果不进行除法运算,关于复杂的传递函数,我们有什么可以说的吗? 相关模型的参数和相关传递函数如下所示: 常数= 4200,AR(1),促销活动系数30,Num1 = -15,Num2 = 1.62,Den1 = 0.25 因此,我想如果这期间我们进行促销活动,需求量将增加30个单位。另外,由于存在传递函数(多项式除法),所以促销活动不仅会影响当前时间段,还会影响随后的时间段。问题是,我们如何才能发现促销会影响将来的几个时段,以及每个时段对需求量的影响如何? 9 time-series data-visualization forecasting arima causality
4 预测准确性计算 我们正在使用STL(R实现)来预测时间序列数据。 每天我们都会进行每日预测。我们想将预测值与实际值进行比较,并确定平均偏差。例如,我们对明天进行了预测并获得了预测点,我们希望将这些预测点与明天将要获得的真实数据进行比较。我知道,预测值和实际数据在大多数情况下可能不匹配,这就是我们希望保持每天的准确性的原因之一。 现在,我们正在尝试确定解决此问题的最佳方法是什么?任何帮助指针将不胜感激。 我看过“ 衡量预测准确性问题”,但它似乎与比较模型有关,而不是与实际值一起计算准确性。 我看过R中的精度函数实现,但与两个问题混淆: 1)它可用于真实数据还是预测数据,因为大多数教程都说“测试数据”还是“预测数据” 2)精度函数的输出似乎是值的数组而不是偏差的百分比。 9 time-series forecasting accuracy
1 预测销售的独特(?)想法 我正在开发模型来预测产品的总销售额。我大约有一年半的预订数据,因此我可以进行标准的时间序列分析。但是,对于每个已关闭或丢失的“机会”(潜在销售),我也有很多数据。“机会”沿着管道的各个阶段进行,直到关闭或丢失为止。他们还具有有关潜在买家,销售人员,互动历史记录,行业,预计预订量等的关联数据。 我的目标是最终预测总预订量,但我想考虑所有有关当前“机会”的信息,这是预订的真正“根本原因”。 我的一个想法是依次使用两个不同的模型,如下所示: 使用历史“机会”构建一个模型,该模型可预测单个“机会”引起的预订量(此步骤中,我可能会使用随机森林或什至是简单的线性回归)。 使用1中的模型来预测当前正在准备中的所有“机会”的估计预订量,然后基于每个“机会”被创建的月份对这些估计值求和。 使用时间序列模型(可能是ARIMA?),使用1.5年的每月历史时间序列数据和该月创建的所有“商机”的预测总预订量(使用1中的模型)。 可以肯定的是,这些机会转化为实际的预订会有滞后,但是时间序列模型应该能够应对滞后。 听起来如何?我已经阅读了很多有关时间序列和预测销售的信息,从我的判断中可以看出,这是一种独特的方法。因此,我非常感谢您的任何反馈! 9 predictive-models forecasting econometrics
2 ARIMA预测具有季节性和趋势,结果奇怪 当我开始使用ARIMA模型进行预测时,我试图了解如何根据ARIMA随季节和漂移的变化来改进预测。 我的数据是以下时间序列(超过3年,趋势清晰且季节性明显,似乎在滞后12、24、36?时自相关不支持)。 > bal2sum3years.ts Jan Feb Mar Apr May Jun Jul Aug 2010 2540346 2139440 2218652 2176167 2287778 1861061 2000102 2560729 2011 3119573 2704986 2594432 2362869 2509506 2434504 2680088 2689888 2012 3619060 3204588 2800260 2973428 2737696 2744716 3043868 2867416 Sep Oct Nov Dec 2010 2232261 2394644 2468479 2816287 2011 2480940 … 9 r time-series forecasting arima seasonality
2 如何在R中使用简单的指数平滑? 我是R的初学者,能否请您解释一下如何在R Forecast的预测包中使用ses ?我想选择初始周期数和平滑常数。 d <- c(3,4,41,10,9,86,56,20,18,36,24,59,82,51,31,29,13,7,26,19,20,103,141,145,24,99,40,51,72,58,94,78,11,15,17,53,44,34,12,15,32,14,15,26,75,110,56,43,19,17,33,26,40,42,18,24,69,18,18,25,86,106,104,35,43,12,4,20,16,8) 我有70个周期,我想将40个周期用于初始样本,将30个周期用于样本外。 ses(d, h=30, level=c(80,95), fan=FALSE,initial=c("simple"), alpha=.1) 这是对的吗? 9 r time-series forecasting