Questions tagged «prediction»

使用统计模型预测未知的随机量。


2
在贝叶斯线性回归中评估后验预测分布
我很困惑,如何评价贝叶斯线性回归后的预测分布,过去的基本情况进行了说明这里第3页,以下复制。 p(y~∣y)=∫p(y~∣β,σ2)p(β,σ2∣y)p(y~∣y)=∫p(y~∣β,σ2)p(β,σ2∣y) p(\tilde y \mid y) = \int p(\tilde y \mid \beta, \sigma^2) p(\beta, \sigma^2 \mid y) 基本情况是此线性回归模型: ÿ= Xβ+ ϵ ,ÿ∼N(Xβ,σ2)y=Xβ+ϵ,y∼N(Xβ,σ2) y = X \beta + \epsilon, \hspace{10mm} y \sim N(X \beta, \sigma^2) 如果我们使用一个统一的现有上,带刻度-INV χ 2上之前σ 2,OR正常-逆伽马之前(见此处)的后验预测分布解析和是学生吨。 ββ\betaχ2χ2\chi^2σ2σ2\sigma^2 这个模型呢? ÿ= Xβ+ ϵ ,ÿ〜ñ(Xβ,Σ )ÿ=Xβ+ϵ,ÿ〜ñ(Xβ,Σ) y = X \beta + …

1
使用交叉验证时计算预测间隔
是否通过以下方式计算标准差估算值: sN=1N∑Ni=1(xi−x¯¯¯)2−−−−−−−−−−−−−√.sN=1N∑i=1N(xi−x¯)2. s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}. (http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation) 从10倍交叉验证中抽取的预测准确性?我担心由于训练集之间的实质重叠(尽管预测集是独立的),因此每次折叠之间计算的预测准确性是相互依赖的。任何讨论此问题的资源都将非常有帮助。

1
如何获得WinBUGS中特定变量的预测?
我是WinBUGS的新用户,并且有一个问题需要您的帮助。运行下面的代码后,我获得了参数beta0through beta4(统计信息,密度),但是我不知道如何获得的最后一个值的预测h,我将NA在代码中对其进行建模。 有人可以给我提示吗?任何建议将不胜感激。 model { for(i in 1: N) { CF01[i] ~ dnorm(0, 20) CF02[i] ~ dnorm(0, 1) h[i] ~ dpois (lambda [i]) log(lambda [i]) <- beta0 + beta1*CF03[i] + beta2*CF02[i] + beta3*CF01[i] + beta4*IND[i] } beta0 ~ dnorm(0.0, 1.0E-6) beta1 ~ dnorm(0.0, 1.0E-6) beta2 ~ dnorm(0.0, 1.0E-6) beta3 ~ …

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
偏差方差分解:期望平方预测误差的项减去不可约误差
Hastie等。“统计学习的要素”(2009年)考虑了数据生成过程 其中和。È(ε )= 0 无功(ε )= σ 2 εÿ= f(X)+ εY=f(X)+ε Y = f(X) + \varepsilon E(ε)=0E(ε)=0\mathbb{E}(\varepsilon)=0Var(ε)=σ2εVar(ε)=σε2\text{Var}(\varepsilon)=\sigma^2_{\varepsilon} 他们对点(第223页,公式7.9)处的期望平方预测误差进行了以下偏差方差分解: 在我的自己的工作我没有指定而是取一个任意的预测(如果相关)。问题:我正在寻找 或更确切地说 的术语 错误(x 0)x0x0x_0˚F(⋅) ÿErr(x0)=E([y−f^(x0)]2|X=x0)=…=σ2ε+Bias2(f^(x0))+Var(f^(x0))=Irreducible error+Bias2+Variance.Err(x0)=E([y−f^(x0)]2|X=x0)=…=σε2+Bias2(f^(x0))+Var(f^(x0))=Irreducible error+Bias2+Variance.\begin{aligned} \text{Err}(x_0) &= \mathbb{E}\left( [ y - \hat f(x_0) ]^2 | X = x_0 \right) \\ &= \dots \\ &= \sigma^2_{\varepsilon} + \text{Bias}^2(\hat f(x_0)) + …

2
回归结果具有意外的上限
我尝试预测平衡得分,并尝试了几种不同的回归方法。我注意到的一件事是,预测值似乎具有某种上限。也就是说,实际余额为,但我的预测顶部约0.8。下图显示了实际余额与预测余额(通过线性回归预测):[ 0.0 ,1.0 )[0.0,1.0)[0.0, 1.0)0.80.80.8 这是相同数据的两个分布图: 由于我的预测变量非常偏斜(具有幂律分布的用户数据),因此我应用了Box-Cox转换,将结果更改为以下内容: 尽管它改变了预测的分布,但仍然存在上限。所以我的问题是: 预测结果出现上限的可能原因是什么? 如何确定与实际值的分布相对应的预测? 奖励:由于Box-Cox转换后的分布似乎遵循转换后的预测变量的分布,因此这可能直接相关吗?如果是这样,我是否可以应用一种转换以使分布适合实际值? 编辑:我使用了5个预测变量的简单线性回归。

3
使用R进行K折或保留交叉验证以进行岭回归
我正在对200个主题和1000个变量的数据预测进行交叉验证。我对岭回归很感兴趣,因为变量数(我想使用)大于样本数。所以我想使用收缩估计量。以下是示例数据: #random population of 200 subjects with 1000 variables M <- matrix(rep(0,200*100),200,1000) for (i in 1:200) { set.seed(i) M[i,] <- ifelse(runif(1000)<0.5,-1,1) } rownames(M) <- 1:200 #random yvars set.seed(1234) u <- rnorm(1000) g <- as.vector(crossprod(t(M),u)) h2 <- 0.5 set.seed(234) y <- g + rnorm(200,mean=0,sd=sqrt((1-h2)/h2*var(g))) myd <- data.frame(y=y, M) myd[1:10,1:10] y X1 …

3
了解贝叶斯预测分布
我正在参加贝叶斯入门课程,但在理解预测分布方面有些困难。我了解它们为什么有用,并且我对定义很熟悉,但是有些事情我不太了解。 1)如何获得新观测向量的正确预测分布 假设我们已经为数据和先前的建立了一个采样模型。假设观测值在给定条件下是独立的。p(yi|θ)p(yi|θ)p(y_i | \theta)p(θ)p(θ)p(\theta)yiyiy_iθθ\theta 我们已经观察到一些数据,并且将先前的更新为后验。D={y1,y2,...,yk}D={y1,y2,...,yk}\mathcal{D} = \{y_1, y_2, \, ... \, , y_k\}p(θ)p(θ)p(\theta)p(θ|D)p(θ|D)p(\theta | \mathcal{D}) 如果我们想预测新观测值的向量,我认为我们应该尝试使用此公式获得后验预测 不等于 所以预测的观测值不是独立的,对不对?N={y~1,y~2,...,y~n}N={y~1,y~2,...,y~n}\mathcal{N} = \{\tilde{y}_1, \tilde{y}_2, \, ... \, , \tilde{y}_n\}p(N|D)=∫p(θ|D)p(N|θ)dθ=∫p(θ|D)∏i=1np(y~i|θ)dθ,p(N|D)=∫p(θ|D)p(N|θ)dθ=∫p(θ|D)∏i=1np(y~i|θ)dθ, p(\mathcal{N} | \mathcal{D}) = \int p(\theta | \mathcal{D}) p ( \mathcal{N} | \theta) \, \mathrm{d} \theta = \int p(\theta | \mathcal{D}) \prod_{i=1}^n p(\tilde{y}_i …

1
评估时间序列预测性能
我有一个在几个时间变量上训练过的动态朴素贝叶斯模型。模型的输出是P(Event) @ t+1每个的预测t。 P(Event)vs 的曲线time如下图所示。在此图中,黑线代表P(Event)我的模型所预测的;的水平红线表示事件发生的先验概率; 和垂直虚线表示在时间序列中的(5个)的事件发生。 理想情况下,我希望P(Event)在观察任何事件之前先看到预测的峰值,并且在没有事件发生的希望时保持接近零。 我希望能够报告模型(黑线)在预测事件发生方面的表现。与我的模型进行比较的一个明显的候选对象是事件的先验概率(红线),如果将其用作预测因子,则将为所有对象预测相同的概率值t。 实现这种比较的最佳形式方法是什么? PS:我目前正在按照以下代码使用(直观)评分,其中总体评分较低表明预测性能更好。我发现用这个评分实际上很难超越以前的评分: # Get prediction performance model_score = 0; prior_score=0; for t in range(len(timeSeries)): if(timeSeries[t]== event): # event has happened cur_model_score = 1- prob_prediction[t]; cur_prior_score = 1 - prior else: # no event cur_model_score = prob_prediction[t] - 0; cur_prior_score = prior - …

1
当某些输入缺少值(NA)时使用randomForest(R)进行预测
我有一个很好的randomForest分类模型,可以在预测新案例类的应用程序中使用。新案例不可避免地缺少价值。预测不适用于NA。那我该怎么办呢? data(iris) # create first the new case with missing values na.row<-45 na.col<-c(3,5) case.na<-iris[na.row,] case.na[,na.col]<-NA iris.rf <- randomForest(Species ~ ., data=iris[-na.row,]) # print(iris.rf) myrf.pred <- predict(iris.rf, case.na[-5], type="response") myrf.pred [1] <NA> 我试过了missForest。我将原始数据和新案例结合在一起missForest,与进行了比较,并在新案例中获得了NA的估算值。虽然计算量太大。 data.imp <- missForest(data.with.na) 但是必须有一种方法可以使用rf-model来预测缺少值的新情况,对吗?

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
使用回归模型进行预测:何时停止?
为了进行预测,我从实验中计算出了一个简单的线性回归模型。我读过您不应该为偏离可用数据太远的点计算预测。但是,我找不到任何指导可以帮助我知道我可以推断的范围。例如,如果我计算50GB磁盘的读取速度,我想结果将接近实际情况。磁盘大小分别为100GB,500GB呢?我怎么知道我的预测是否接近现实? 我的实验细节如下: 我正在通过使用不同的磁盘大小来测量软件的读取速度。到目前为止,我已经通过在两次实验之间增加5GB的磁盘大小(总共6项措施)来测量5GB至30GB的磁盘空间。 我认为我的结果是线性的,标准误差很小。

1
用偏移量预测GLM泊松
我知道这可能是一个基本问题...但是我似乎找不到答案。 我正在为Poisson系列安装GLM,然后尝试查看预测,但是似乎确实考虑了偏移量: model_glm=glm(cases~rhs(data$year,2003)+lhs(data$year,2003), offset=(log(population)), data=data, subset=28:36, family=poisson()) predict (model_glm, type="response") 我得到的情况不是费率... 我也尝试过 model_glm=glm(cases~rhs(data$year,2003)+lhs(data$year,2003)+ offset(log(population)), data=data, subset=28:36, family=poisson()) 结果相同。但是,当我使用mgcv从GAM进行预测时,这些预测会考虑偏移量(我得到比率)。 我想念什么吗?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.