Questions tagged «prediction»

使用统计模型预测未知的随机量。

3
预期的预测误差-推导
我正在努力理解低于预期(ESL)的预期预测误差的推导,尤其是在2.11和2.12的推导上(条件,即逐步达到最小点)。任何指针或链接,不胜感激。 我在下面报告ESL pg的摘录。18.前两个公式按顺序是公式2.11和2.12。 让X∈RpX∈RpX \in \mathbb{R}^p分别表示实值随机输入向量,并Y∈RY∈RY \in \mathbb{R}实值随机输出变量,与联合分布Pr(X,Y)Pr(X,Y)\text{Pr}(X,Y)。我们追求的是功能f(X)f(X)f(X)预测YYY输入的给定值XXX。该理论要求损失函数 L(Y,f(X))L(Y,f(X))L(Y,f(X))用于惩罚预测误差,到目前为止,最常见和最方便的方法是平方误差损失:L(Y,f(X))=(Y−f(X))2L(Y,f(X))=(Y−f(X))2L(Y,f(X))=(Y-f(X))^2。这使我们得出选择fff的标准, EPE(f)=E(Y−f(X))2=∫[y−f(x)]2Pr(dx,dy)EPE(f)=E(Y−f(X))2=∫[y−f(x)]2Pr(dx,dy) \begin{split} \text{EPE}(f) &= \text{E}(Y - f(X))^2\\ & = \int [y - f(x)]^2 \text{Pr}(dx, dy) \end{split} 预期(平方)的预测误差。通过以XXX条件,我们可以将EPE编写为 EPE(f)=EXEY|X([Y−f(X)]2|X)EPE(f)=EXEY|X([Y−f(X)]2|X) \text{EPE}(f) = \text{E}_X \text{E}_{Y|X}([Y-f(X)]^2|X) 并且我们看到足以将EPE逐点最小化: f(x)=argmincEY|X([Y−c]2|X)f(x)=argmincEY|X([Y−c]2|X) f(x) = \text{argmin}_c \text{E}_{Y|X}([Y-c]^2|X) 解决方法是 f(x)=E(Y|X=x)f(x)=E(Y|X=x) f(x) = \text{E}(Y|X=x) 条件期望,也称为回归函数。

3
我们如何判断Nate Silver的预测的准确性?
首先,他给出了结果的可能性。因此,举例来说,他对美国大选的预测目前为克林顿82%,特朗普18%。 现在,即使特朗普获胜,我怎么不知道他应该赢得的不仅仅是18%的时间? 另一个问题是他的概率随时间变化。因此,在7月31日,特朗普和克林顿之间的差距几乎达到了50:50。 我的问题是,鉴于他每天在同一事件中具有相同结果并具有不同结果的概率不同,我如何衡量他根据当日可用的信息做出预测的每一天的准确性?

2
弹性/脊线/套索分析,然后呢?
我对预测器收缩/选择的弹性网程序真的很感兴趣。似乎非常强大。 但是从科学的角度来看,我不知道一旦获得系数该怎么办。我在回答什么问题?这些是对结果有最大影响的变量,并且是在验证过程中提供最佳方差/偏差比的系数吗? 与经典的p值/置信区间方法相比,这当然是一种非常具有描述性/预测性的方法。Tibshirani&Co.现在正在研究推论估计,但仍处于实验阶段。 某些人正在使用弹性网选择的变量来进行经典的推理分析,但这将消除该技术带来的方差限制。 另一个问题是,由于通过交叉验证选择了弹性网的lambda和alpha参数,因此它们具有随机可变性。因此,每次运行(例如)cv.glmnet()时,您将选择系数始终略有不同的预测变量子集。 我通过考虑将正确的lambda和alpha作为随机变量来解决此问题,然后重新运行交叉验证步骤n次以获取这些参数的分布。这样,对于每个预测变量,我将具有出现的次数,对于每个系数,我将具有结果的分布。这应该为我提供范围统计信息(如系数的sd)更通用的结果。观察以这种方式选择的lambda和alpha是否渐近地近似也很有趣,因为这将为进行推理测试开辟道路(但我不是统计学家,所以我不应该谈论我不喜欢的事情完全不了解)。 所以最后我的问题是:一旦从具有基于交叉验证的alpha和lambda的弹性网中获得了预测变量和系数,应该如何显示这些结果?您应该如何讨论它们?我们学到了什么?我们可以混淆哪个假设/概括?

2
如何在ggplot2中预测或扩展回归线?
我有一个包含两个时间序列的数据框:Emacs和Firefox发行版的日期和版本号。使用一个ggplot2命令,很容易制作一个使用黄土的图表(这种方式看起来有点可笑,我不介意)将点变成线。 我该如何将线延伸到未来?我想确定Emacs和Firefox版本号何时何地交叉,如果有办法显示错误范围,那就更好了。 鉴于ggplot2正在绘制线条,它必须有一个模型,但我看不出如何告诉它扩展线条,或取出模型并对其进行处理。 > library(ggplot2) > programs <- read.csv("http://www.miskatonic.org/files/se-program-versions.csv") > programs$Date <- as.Date(programs$Date, format="%B %d, %Y") > head(programs) Program Version Date 1 Emacs 24.1 2012-06-10 2 Emacs 23.4 2012-01-29 3 Emacs 23.3 2011-03-10 4 Emacs 23.2 2010-05-08 5 Emacs 23.1 2009-07-29 6 Emacs 22.3 2008-09-05 > head(subset(programs, Program == "Firefox")) …

3
`predict.randomForest`如何估计类概率?
randomForest使用时,包装如何估计班级概率predict(model, data, type = "prob")? 我当时使用参数来预测概率ranger来训练随机森林probability = T。ranger在文档中说: 与Malley等人一样,种植概率森林。(2012)。 我模拟了一些数据并尝试了两个软件包,并获得了截然不同的结果(请参见下面的代码) 因此,我知道它使用另一种技术(然后是游侠)来估计概率。但是哪一个呢? simulate_data <- function(n){ X <- data.frame(matrix(runif(n*10), ncol = 10)) Y <- data.frame(Y = rbinom(n, size = 1, prob = apply(X, 1, sum) %>% pnorm(mean = 5) ) %>% as.factor() ) dplyr::bind_cols(X, Y) } treino <- simulate_data(10000) teste <- simulate_data(10000) …

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
为什么对时间序列的这种预测“非常糟糕”?
我正在尝试学习如何使用神经网络。我正在阅读本教程。 使用时间的值拟合神经网络以预测时间的值后,作者获得以下曲线图,其中蓝线是时间序列,绿色是对火车数据的预测,红色是对测试数据进行预测(他使用了测试序列拆分)ŤŤtt + 1Ť+1个t+1 并将其称为“我们可以看到该模型在拟合训练数据和测试数据集方面做得很差。它基本上预测出与输出相同的输入值。” 然后,作者决定使用,和来预测处的值。这样做获得ŤŤtt − 1Ť-1个t-1t − 2Ť-2t-2t + 1Ť+1个t+1 并说:“看图表,我们可以在预测中看到更多的结构。” 我的问题 为什么第一个“可怜”?在我看来,它几乎是完美的,它可以完美地预测每个变化! 同样,为什么第二个更好?“结构”在哪里?在我看来,这比第一个要差得多。 通常,对时间序列的预测什么时候好,什么时候不好?

3
零成簇的非负数据模型(Tweedie GLM,零膨胀GLM等)是否可以预测精确的零?
当参数ppp(均值-方差关系的指数)在1到2之间。 类似地,零膨胀(无论是连续的还是离散的)模型可以具有大量的零。 我无法理解为什么当我使用这些模型进行预测或计算拟合值时,所有预测值都不为零。 这些模型可以实际预测确切的零吗? 例如 library(tweedie) library(statmod) # generate data y <- rtweedie( 100, xi=1.3, mu=1, phi=1) # xi=p x <- y+rnorm( length(y), 0, 0.2) # estimate p out <- tweedie.profile( y~1, p.vec=seq(1.1, 1.9, length=9)) # fit glm fit <- glm( y ~ x, family=tweedie(var.power=out$p.max, link.power=0)) # predict pred <- …

4
预测模型:统计数据可能无法击败机器学习吗?[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 2年前关闭。 我目前正在关注一个专注于统计/计量经济学的硕士课程。在我的主人看来,所有学生都必须进行3个月的研究。上周,所有小组都必须向其余的硕士生介绍他们的研究。 几乎每个小组都针对他们的研究主题进行了一些统计建模和一些机器学习建模,并且每一次样本外预测都谈到了简单的机器学习模型击败了非常复杂的统计模型,在过去的3个研究中,每个人都非常努力几个月。无论每个人的统计模型多么出色,一个简单的随机森林几乎总是会得到较低的样本外误差。 我想知道这是否是一个普遍接受的观察?那如果要进行样本外预测,就没有办法击败简单的随机森林或极端梯度增强模型吗?这两种方法使用R包实现起来非常简单,而每个人都想出的所有统计模型都需要大量的技能,知识和精力来进行估算。 您对此有何看法?统计/计量经济学模型的唯一好处是您可以获得解释吗?还是我们的模型不够好,以至于它们不能明显胜过简单的随机森林预测?有没有解决这个问题的论文?

1
诸如加权相关之类的东西?
我收到了一些有趣的数据,其中涉及最受欢迎的音乐艺术家,按地点划分为大约200个国会区。我想看看是否有可能针对某人的音乐偏好来对其进行投票,并确定该人是“像民主党人一样听”还是“像共和党人一样听”。(自然这很轻松,但是数据中确实存在熵!) 我有大约100位艺术家的数据,以及过去三个选举周期中每个地区共和党人和民主党人的平均投票百分比。因此,我对每位艺术家进行了相关分析,以了解哪些听众与民主党人的投票份额成比例最不均衡。对于任何给定的艺术家,这些相关性从大约-0.3到0.3之间变化,中间的很多值几乎没有或没有预测能力。 我有两个问题:首先,每个地区的溪流总数差异很大。现在,我正在将每个地区(例如,碧昂斯)中所有流的百分比与为民主党人投票的百分比相关联。但是,一个地区的总流量可能为数百万,而另一个地区的总流量则为10万。我需要以某种方式加权相关性来解决这个问题吗? 其次,我很好奇如何将这些相关性组合成关于用户政治的综合猜测。假设我选取了绝对相关值最高(正值和负值)的20位艺术家,每个方向上的十位艺术家,然后调查用户对他或她的喜欢程度。因此,我对每位艺术家都投了赞成票或反对票,并加上了所有20个值与政治的相关性。是否存在将这些相关性组合为单个估计的标准方法?(我在想类似《纽约时报》著名的方言测验,它将测验 25个问题的区域概率结合到热点图中。但是在这种情况下,我只需要一个单一的值来了解民主党或共和党人在音乐上的品味如何。 谢谢!

3
如何从Cox PH模型获得生存时间的预测?
我想针对所有(几乎)全部在随访结束时(例如一年)死亡的参与者建立一个全因死亡率的预测模型(Cox PH)。 我不想预测某个时间点的绝对死亡风险,而是想预测每个人的生存时间(以月为单位)。 是否有可能在R中获得这样的预测(例如从一个coxph对象),如果可以,我该怎么做? 提前谢谢了!

1
如果相关,如何从另一个时间序列预测一个时间序列
一年多来,我一直在试图解决这一问题,但进展不大。它是我正在做的一个研究项目的一部分,但我将用我编写​​的一个故事示例进行说明,因为问题的实际范围有点令人困惑(视线跟踪)。 您是一架追踪穿越海洋的敌舰的飞机,因此您已收集了该舰的一系列(x,y,time)坐标。您知道,一艘隐藏的潜艇会随船一起航行以保护它,但是尽管它们的位置之间存在关联,但潜艇经常会从船上滑落,因此虽然它通常在船的附近,但是它也可能在船的另一侧世界偶尔。您想预测潜艇的路径,但不幸的是,它对您而言是隐藏的。 但是在4月份的一个月中,您会注意到潜艇忘记隐藏自己,因此您在进行1000次航行时都对潜艇和船只具有一系列坐标。使用这些数据,您想建立一个模型,以仅考虑船的运动来预测隐藏式潜艇的路径。天真的基准就是说“潜艇位置猜测=”船的当前位置”,但是从4月份可见潜艇的数据中,您会注意到潜艇有可能稍微领先于船舶,因此“潜艇位置“猜测= 1分钟内的位置”是一个更好的估计。此外,4月份的数据显示,当船舶停泊在水中一段较长的时间时,潜艇很可能不在沿海水域巡逻。还有其他模式当然。 以四月份的数据作为训练数据,您将如何构建该模型来预测潜艇的航行路线?我当前的解决方案是临时线性回归,其中因素包括“行程时间”,“船的x坐标”,“船闲置1天”等,然后让R找出权重并进行交叉验证。 。但是,我真的很喜欢从四月份的数据自动生成这些因素的方法。另外,使用序列或时间的模型会很好,因为线性回归不适用,而且我认为这很重要。 感谢您通读所有内容,我很乐意澄清所有内容。

1
插入符glmnet与cv.glmnet
在glmnet内部caret使用搜索最佳lambda和cv.glmnet执行相同任务的比较中似乎有很多困惑。 提出了许多问题,例如: 分类模型train.glmnet与cv.glmnet? 在插入符号中使用glmnet的正确方法是什么? 使用`caret`交叉验证`glmnet` 但是没有给出答案,这可能是由于问题的可重复性。在第一个问题之后,我给出了一个非常相似的示例,但确实存在相同的问题:为什么估计的lambda如此不同? library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = 0.001),standardize=FALSE) …

1
随机森林和预测
我正在尝试了解随机森林的工作原理。我对树木的构建方式有所了解,但无法理解“随机森林”如何对袋装样本进行预测。有人可以给我一个简单的解释吗?

2
在估算数据中使用邻居信息或查找偏离数据(在R中)
我有一个数据集,假设最近的邻居是最好的预测变量。只是可视化的双向梯度的完美示例- 假设我们缺少一些值,可以很容易地根据邻居和趋势进行预测。 R中的对应数据矩阵(用于锻炼的虚拟示例): miss.mat <- matrix (c(5:11, 6:10, NA,12, 7:13, 8:14, 9:12, NA, 14:15, 10:16),ncol=7, byrow = TRUE) miss.mat [,1] [,2] [,3] [,4] [,5] [,6] [,7] [1,] 5 6 7 8 9 10 11 [2,] 6 7 8 9 10 NA 12 [3,] 7 8 9 10 11 12 13 …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.