Questions tagged «prediction-interval»

预测间隔(也称为预测间隔)是一个以某个预先确定的概率覆盖随机变量的未来(或其他未知但可观察到的)值的间隔。


1
二项式随机变量的预测区间
二项式随机变量的预测间隔的公式(近似或精确)是什么? 假设ÿ〜乙我Ñ ø 米(Ñ ,p )Y∼Binom(n,p)Y \sim \mathsf{Binom}(n, p),和我们观察ÿyy(从绘制ÿYY)。该ñnn是已知的。 我们的目标是从获得新抽签的95%预测间隔ÿYY。 点估计是ñ p^np^n\hat{p},其中p = ÿp^= yñp^=yn\hat{p}=\frac{y}{n}。对于A置信区间 p是直截了当的,但我不能找到针对预测时间间隔的公式ÿ。如果我们知道p(而不是 p ),那么95%的预测区间只是涉及寻找一个二项式的位数。有什么明显的我可以忽略的吗?p^p^\hat{p}ÿYYpppp^p^\hat{p}


1
如何找到GBM预测间隔
我正在使用插入符号包处理GBM模型,并希望找到一种方法来解决我的预测数据的预测间隔。我进行了广泛的搜索,但只提出了一些想法来找到随机森林的预测间隔。任何帮助/ R代码将不胜感激!

2
我们可以在预测间隔内做出概率陈述吗?
我已经阅读了该站点上有关置信区间和预测区间解释的许多精彩讨论,但是其中一个概念仍然有些令人费解: 考虑OLS框架,我们已经获得了拟合模型。给我们一个并要求预测它的响应。我们计算,作为奖励,我们还围绕我们的预测提供了95%的预测间隔,从而获得了线性模型中预测极限的公式。我们将此预测间隔称为PI。y^=Xβ^y^=Xβ^\hat y = X\hat\betax∗x∗x^*x∗Tβ^x∗Tβ^x^{*T}\hat\beta 现在,以下哪个(或两个都不是)对PI的正确解释是正确的? 特别是对于,位于PI内的可能性为95%。x∗x∗x^*y(x∗)y(x∗)y(x^*) 如果给我们大量的 s,则此计算PI的过程将覆盖95%的真实响应。xxx 从线性回归预测间隔中的 @gung的措辞来看,似乎前者是正确的(尽管我很可能会误解。)解释1对我来说似乎是违反直觉的(在某种意义上,我们是从频繁分析中得出贝叶斯结论的)。如果它是正确的,是不是因为我们预测实现了的随机变量与估计一个参数? (编辑)奖金问题:假设我们知道真正的是什么,即生成数据的过程,那么我们可以讨论任何特定预测的概率,因为我们只是查看吗?ββ\betaϵϵ\epsilon 我对此的最新尝试:我们可以将预测间隔“概念上分解”(非常宽松地使用)分为两部分:(A)围绕预测均值响应的置信区间,以及(B)只是分位数的间隔集合误差项的范围。(B)我们可以在知道真实的预测均值的前提下做出概率陈述,但总体而言,我们只能将预测区间视为围绕预测值的频繁CI。这有点正确吗?

1
预测间隔=可信间隔?
我想知道预测间隔和可信间隔是否会评估同一件事。 例如,使用线性回归,当您估计拟合值的预测间隔时,您将估计期望值下降的间隔的极限。相反,与置信区间相反,您不会关注平均值等分布参数,而是会针对指定的X值(假设)来说明变量的取值。(1−α)%(1−α)%(1-\alpha)\% Y=a+b.X Y=a+b.X\ Y = a + b.X 当从后验概率分布中估计贝叶斯框架内给定值的拟合值时,可以估计可信区间。这个间隔是否为您提供了有关拟合值的相同信息?XXX

2
预测和公差区间
对于预测和公差区间,我有几个问题。 首先让我们就容忍区间的定义达成一致:给我们一个置信度,例如90%,要捕获的总体百分比,例如99%,样本量,例如20。概率分布是已知的,例如正态为了方便。现在,考虑到上述三个数字(90%,99%和20)以及基础分布为正态的事实,我们可以计算公差数。给定具有均值和标准偏差的样本,公差区间为。如果此公差区间捕获了99%的人口,则样本被称为成功kkk(x1,x2,…,x20)(x1,x2,…,x20)(x_1,x_2,\ldots,x_{20})x¯x¯\bar{x}sssx¯±ksx¯±ks\bar{x}\pm ks(x1,x2,…,x20)(x1,x2,…,x20)(x_1,x_2,\ldots,x_{20})并且要求90%的样本是成功的。 评论:90%是样本成功的先验概率。假设样本成功,则99%是有条件的概率,将来的观察将在公差区间内。 我的问题:我们可以将预测间隔视为公差间隔吗?在网上浏览时,我对此有矛盾的答案,更不用说没有人真正仔细地定义预测间隔了。因此,如果您对预测间隔(或参考)有精确的定义,我将不胜感激。 我了解的是,例如99%的预测间隔不会捕获所有样本的所有将来值的99%。这与以100%的概率捕获99%的总体的公差区间相同。 在我发现的90%预测间隔的定义中,90%是给定样本(大小固定)和单个未来观察值的先验概率,即将在预测间隔内。因此,与容差区间相反,似乎在同一时间给出了样本和终值,而公差区间是在给出样本的情况下以一定的概率成功的,并且在一个成功y y(x1,x2,…,x20)(x1,x2,…,x20)(x_1,x_2,\ldots,x_{20})yyyyyy,则给出一个未来值,并以一定的概率落入公差区间。我不确定上述预测间隔的定义是否正确,但是(至少)似乎违反直觉。 有什么帮助吗?

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
如何在ARIMA模型的观察值48中加入创新的离群值?
我正在处理数据集。使用一些模型识别技术后,我得出了一个ARIMA(0,2,1)模型。 我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值(IO)。 如何将这个离群值合并到模型中,以便将其用于预测?我不想使用ARIMAX模型,因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗? 以下是我的价值观: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
如何计算时间序列预测的置信区间?
我有一个时间序列(假设到),我需要使用模型预测下一个样本(假设)例如神经网络或多元线性回归。在时间n,我拥有从到所有样本,并且需要预测;在时间,我拥有从到所有样本,并且需要预测;等等。X1X1X_1XnXnX_nXn+1,Xn+2,…,Xn+kXn+1,Xn+2,…,Xn+kX_{n+1}, X_{n+2},\dots, X_{n+k}X1X1X_1XnXnX_nXn+1Xn+1X_{n+1}n+1n+1n+1X1X1X_1Xn+1Xn+1X_{n+1}Xn+2Xn+2X_{n+2} 假设我已经使用模型预测了值。如何计算这些预测值的置信区间?Yn+1,Yn+2,…,Yn+kYn+1,Yn+2,…,Yn+kY_{n+1}, Y_{n+2},\dots, Y_{n+k} 如果有人可以在这个问题上帮助我,我将不胜感激。(到目前为止,我已经阅读了用于计算样本均值的置信区间的公式,但是我没有看到有关如何为时间序列的预测值计算置信区间的任何信息)。

1
使用交叉验证时计算预测间隔
是否通过以下方式计算标准差估算值: sN=1N∑Ni=1(xi−x¯¯¯)2−−−−−−−−−−−−−√.sN=1N∑i=1N(xi−x¯)2. s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}. (http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation) 从10倍交叉验证中抽取的预测准确性?我担心由于训练集之间的实质重叠(尽管预测集是独立的),因此每次折叠之间计算的预测准确性是相互依赖的。任何讨论此问题的资源都将非常有帮助。

1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
计算预测间隔
我在这里有以下数据。我正在尝试计算烃百分比为1.0时平均纯度的95%置信区间。在R中,输入以下内容。 > predict(purity.lm, newdata=list(hydro=1.0), interval="confidence", level=.95) fit lwr upr 1 89.66431 87.51017 91.81845 但是,如何自己得出这个结果?我试图使用以下方程式。 snew=s2(1+1N+(xnew−x¯)2∑(xi−x¯)2)−−−−−−−−−−−−−−−−−−−−−−√snew=s2(1+1N+(xnew−x¯)2∑(xi−x¯)2)s_{new}=\sqrt{s^2\left(1+\frac{1}{N}+\frac{(x_{new}-\bar x)^2}{\sum(x_i-\bar x)^2}\right)} 我在R中输入以下内容 > SSE_line = sum((purity - (77.863 + 11.801*hydro))^2) > MSE = SSE_line/18 > t.quantiles <- qt(c(.025, .975), 18) > prediction = B0 + B1*1 > SE_predict = sqrt(MSE)*sqrt(1+1/20+(mean(hydro)-1)^2/sum((hydro - mean(hydro))^2)) > prediction …

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.