Questions tagged «prediction»

使用统计模型预测未知的随机量。


1
对混合效应模型的预测:如何处理随机效应?
让我们考虑这个假设的数据集: set.seed(12345) num.subjects <- 10 dose <- rep(c(1,10,50,100), num.subjects) subject <- rep(1:num.subjects, each=4) group <- rep(1:2, each=num.subjects/2*4) response <- dose*dose/10 * group + rnorm(length(dose), 50, 30) df <- data.frame(dose=dose, response=response, subject=subject, group=group) 我们可以使用lme随机效应模型对响应进行建模: require(nlme) model <- lme(response ~ dose + group + dose*group, random = ~1|subject, df) 我想使用predict该模型的结果来获取例如第1组的一般主题对剂量10的响应: pred <- …


1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …

1
使用带有插入符号包的RandomForest的FinalModel进行预测之前是否需要进行预处理?
我使用插入符号包训练10x10CV的randomForest对象。 library(caret) tc <- trainControl("repeatedcv", number=10, repeats=10, classProbs=TRUE, savePred=T) RFFit <- train(Defect ~., data=trainingSet, method="rf", trControl=tc, preProc=c("center", "scale")) 之后,我在testSet上测试randomForest(新数据) RF.testSet$Prediction <- predict(RFFit, newdata=testSet) 混乱矩阵向我展示了该模型还不错。 confusionMatrix(data=RF.testSet$Prediction, RF.testSet$Defect) Reference Prediction 0 1 0 886 179 1 53 126 Accuracy : 0.8135 95% CI : (0.7907, 0.8348) No Information Rate : 0.7548 P-Value …

1
Netflix为什么会从其五星级评级系统转换为喜欢/不喜欢的系统?
Netflix过去常常根据用户提交的其他电影/节目的评分来提供建议。该评级系统获得了五颗星。 现在,Netflix允许用户喜欢/不喜欢(竖起/竖起)电影/节目。他们声称对电影进行评分更容易。 从统计角度上讲,这种2向分类是否比5向分类系统更具预测性?它不会捕获更少的变化吗?

1
预测间隔=可信间隔?
我想知道预测间隔和可信间隔是否会评估同一件事。 例如,使用线性回归,当您估计拟合值的预测间隔时,您将估计期望值下降的间隔的极限。相反,与置信区间相反,您不会关注平均值等分布参数,而是会针对指定的X值(假设)来说明变量的取值。(1−α)%(1−α)%(1-\alpha)\% Y=a+b.X Y=a+b.X\ Y = a + b.X 当从后验概率分布中估计贝叶斯框架内给定值的拟合值时,可以估计可信区间。这个间隔是否为您提供了有关拟合值的相同信息?XXX

1
R神经网络-计算给出恒定答案
我正在尝试使用R的neuralnet软件包(此处的文档)进行预测。 这是我想做的: library(neuralnet) x <- cbind(runif(50, min=1, max=500), runif(50, min=1, max=500)) y <- x[, 1] * x[, 2] train <- data.frame(x, y) n <- names(train) f <- as.formula(paste('y ~', paste(n[!n %in% 'y'], collapse = ' + '))) net <- neuralnet(f, train, hidden = c(5, 5), threshold=0.01) print(net) all: neuralnet(formula = …

1
ABC型号选择
已经表明,不建议使用贝叶斯因数选择ABC模型,因为存在使用汇总统计数据产生的错误。本文的结论依赖于一种流行的方法的行为的近似贝叶斯因子(算法2)的研究。 众所周知,贝叶斯因素并不是进行模型选择的唯一方法。还有其他一些功能,例如模型的预测性能,可能会引起关注(例如评分规则)。 我的问题是:是否有一种类似于算法2的方法,可以根据复杂情况下的预测性能,近似一些计分规则或其他可用于进行模型选择的数量?

2
预测和公差区间
对于预测和公差区间,我有几个问题。 首先让我们就容忍区间的定义达成一致:给我们一个置信度,例如90%,要捕获的总体百分比,例如99%,样本量,例如20。概率分布是已知的,例如正态为了方便。现在,考虑到上述三个数字(90%,99%和20)以及基础分布为正态的事实,我们可以计算公差数。给定具有均值和标准偏差的样本,公差区间为。如果此公差区间捕获了99%的人口,则样本被称为成功kkk(x1,x2,…,x20)(x1,x2,…,x20)(x_1,x_2,\ldots,x_{20})x¯x¯\bar{x}sssx¯±ksx¯±ks\bar{x}\pm ks(x1,x2,…,x20)(x1,x2,…,x20)(x_1,x_2,\ldots,x_{20})并且要求90%的样本是成功的。 评论:90%是样本成功的先验概率。假设样本成功,则99%是有条件的概率,将来的观察将在公差区间内。 我的问题:我们可以将预测间隔视为公差间隔吗?在网上浏览时,我对此有矛盾的答案,更不用说没有人真正仔细地定义预测间隔了。因此,如果您对预测间隔(或参考)有精确的定义,我将不胜感激。 我了解的是,例如99%的预测间隔不会捕获所有样本的所有将来值的99%。这与以100%的概率捕获99%的总体的公差区间相同。 在我发现的90%预测间隔的定义中,90%是给定样本(大小固定)和单个未来观察值的先验概率,即将在预测间隔内。因此,与容差区间相反,似乎在同一时间给出了样本和终值,而公差区间是在给出样本的情况下以一定的概率成功的,并且在一个成功y y(x1,x2,…,x20)(x1,x2,…,x20)(x_1,x_2,\ldots,x_{20})yyyyyy,则给出一个未来值,并以一定的概率落入公差区间。我不确定上述预测间隔的定义是否正确,但是(至少)似乎违反直觉。 有什么帮助吗?

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
如何为R中的每个预测计算回归的置信度得分(使用随机森林/ XGBoost)?
使用随机森林或极端梯度增强(XGBoost)之类的算法时,是否可以获取每个预测值的置信度得分(也可以称为置信度值或似然度)?假设此置信度得分介于0到1之间,表示我对特定预测的信心如何。 根据我在互联网上发现的有关信心的信息,通常用间隔来衡量。这是一个使用库中confpred函数计算的置信区间的示例lava: library(lava) set.seed(123) n <- 200 x <- seq(0,6,length.out=n) delta <- 3 ss <- exp(-1+1.5*cos((x-delta))) ee <- rnorm(n,sd=ss) y <- (x-delta)+3*cos(x+4.5-delta)+ee d <- data.frame(y=y,x=x) newd <- data.frame(x=seq(0,6,length.out=50)) cc <- confpred(lm(y~poly(x,3),d),data=d,newdata=newd) if (interactive()) { ##' plot(y~x,pch=16,col=lava::Col("black"), ylim=c(-10,15),xlab="X",ylab="Y") with(cc, lava::confband(newd$x, lwr, upr, fit, lwd=3, polygon=T, col=Col("blue"), border=F)) } 代码输出仅给出置信区间: 还有一个库conformal,但我也将其用于回归的置信区间:“共形允许在共形预测框架中计算预测误差:(i)用于分类的p。值,以及(ii)回归的置信区间。 ” …

1
用mgcv gam进行随机效应预测
我对使用mgcv中的gam来模拟单个船的简单随机效应(在渔业中随时间反复旅行)建模总的鱼获量感兴趣。我有98个科目,所以我想我会使用gam而不是gamm来模拟随机效果。我的模型是: modelGOM <- gam(TotalFish ~ factor(SetYear) + factor(SetMonth) + factor(TimePeriod) + s(SST) + s(VesselID, bs = "re", by = dum) + s(Distance, by = TimePeriod) + offset(log(HooksSet)), data = GOM, family = tw(), method = "REML") 我已经用bs =“ re”和by = dum编码了随机效应(我读到这将使我能够将血管效应预测为其预测值或零)。“ dum”是1的向量。 该模型可以运行,但是我在预测时遇到问题。我选择了其中一个用于预测的容器(Vessel21),并选择了除预测感兴趣的预测变量(距离)以外的所有其他事物的平均值。 data.frame("Distance"=seq(min(GOM$Distance),max(GOM$Distance),length = 100), "SetYear" = '2006', "SetMonth" …

2
因果推论和预测之间有什么关系?
因果推论和预测(分类和回归)之间的关系和区别是什么? 在预测上下文中,我们具有预测器/输入变量和响应/输出变量。这是否意味着输入和输出变量之间存在因果关系?那么,预测是否属于因果推理? 如果我理解正确,则因果推理会考虑在给定另一个随机变量的情况下估计一个随机变量的条件分布,并且经常使用图形模型来表示随机变量之间的条件独立性。因此,从这个意义上讲,因果推理不是预测,是吗?

2
不能改善样本外预测的“显着变量”-如何解释?
我有一个问题,我认为这对很多用户来说都是非常基本的。 我使用线性回归模型来(i)研究几个解释变量与我的反应变量之间的关系,以及(ii)使用解释变量预测我的反应变量。 一个特定的解释变量X似乎对我的响应变量有显着影响。为了测试此解释变量X的增加值,以便对我的响应变量进行样本外预测,我使用了两个模型:模型(a)使用所有解释变量,模型(b)使用所有变量除了变量X。对于这两个模型,我仅报告样本外性能。看起来两个模型的性能几乎一样好。换句话说,添加解释变量X不会改善样本外预测。请注意,我还使用模型(a)(即具有所有解释变量的模型)来发现,解释变量X确实会严重影响我的响应变量。 我现在的问题是:如何解释这一发现?直截了当的结论是,即使变量X似乎使用推论模型显着影响了我的响应变量,但它并不能改善样本外预测。但是,我很难进一步解释这一发现。这怎么可能?对此发现有何解释? 提前致谢! 额外信息:具有“显着影响”是指参数估计的最高95%后验密度间隔中不包含0(即使用贝叶斯方法)。用常客的话来说,这大致对应于p值小于0.05。我仅对所有模型参数使用扩散(无信息)先验。我的数据具有纵向结构,总共包含大约7000个观测值。对于样本外预测,我使用90%的数据来拟合模型,并使用10%的数据使用多次复制来评估模型。也就是说,我多次进行了火车测试拆分,并最终报告了平均性能指标。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.