Questions tagged «prediction»

使用统计模型预测未知的随机量。


9
一个现实生活中未来事件的可能性:当他们说“希拉里有75%的获胜机会”时,这意味着什么?
由于选举是一次性事件,因此不能重复进行实验。那么“希拉里(Hillary)有75%的获胜机会”这一说法在技术上到底意味着什么?我正在寻找一种统计上正确的定义,而不是一种直观或概念上的定义。 我是一位业余统计爱好者,他试图回答讨论中提出的这个问题。我很确定对此有一个很好的客观回应,但我本人无法提出。

6
2016年确实需要进行预测模型的变量选择吗?
几年前已经在简历上提出了这个问题,鉴于1)更好的计算技术(例如并行计算,HPC等)和2)更新的技术(例如[3]),似乎值得重新提出。 首先,一些背景。让我们假设目标不是假设检验,不是效果估计,而是对未见检验集的预测。因此,没有赋予任何可解释的利益以重量。其次,假设您不能排除任何预测因素在主题考虑方面的相关性,即 它们看起来单独或与其他预测变量组合似乎都合理。第三,您要面对数以百万计的预测变量。第四,假设您可以无限制地访问AWS,因此计算能力不受限制。 变量选择的常见原因是:1)效率;更快地适合较小的模型,便宜地收集较少的预测变量,2)解释;知道“重要”变量可以深入了解基本过程[1]。 众所周知,许多变量选择方法无效,而且常常是完全危险的(例如,逐步回归)[2]。 其次,如果选择的模型不错,那么根本不需要缩减预测变量的列表。该模型应该为您完成。套索就是一个很好的例子,它为所有不相关的变量分配了零系数。 我知道有些人主张使用“大象”模型,即。将所有可能的预测变量投入拟合并运行[2]。 如果目标是预测准确性,是否有任何根本原因进行变量选择? [1] Reunanen,J.(2003)。在变量选择方法之间进行比较时过度拟合。机器学习研究杂志,3,1371-1382。 [2] Harrell,F.(2015)。回归建模策略:应用于线性模型,逻辑和序数回归以及生存分析。施普林格。 [3] Taylor,J.和Tibshirani,RJ(2015)。统计学习和选择性推理。美国国家科学院院刊,112(25),7629-7634。 [4] Zhou,J.,Foster,D.,Stine,R。和Ungar,L。(2005年8月)。使用Alpha投资进行流特征选择。在第十一届ACM SIGKDD国际会议上,进行数据挖掘中的知识发现(第384-393页)。ACM。

9
这张图表显示恐怖袭击的可能性在统计上有用吗?
我看到这张图片传了很多。 我有种直觉,认为以这种方式提供的信息是不完整的,甚至是错误的,但是我对统计数据并不足够了解。这让我想到了这本xkcd漫画,即使有了可靠的历史数据,某些情况也可以改变事情的预测方式。 所提供的这张图表对准确显示难民的威胁水平有用吗?是否有必要的统计背景或多或少地使此图表有用? 注意:请尝试使用外行人的术语:)

6
使用R进行套索预测的标准误差
我正在尝试使用LASSO模型进行预测,并且需要估算标准误差。肯定有人已经编写了一个软件包来执行此操作。但是据我所知,使用LASSO进行预测的CRAN程序包都不会返回这些预测的标准错误。 所以我的问题是:是否有可用的软件包或一些R代码来计算LASSO预测的标准误差?

5
使用深度学习进行时间序列预测
我是深度学习领域的新手,对我来说,第一步是从deeplearning.net网站阅读有趣的文章。在有关深度学习的论文中,Hinton等人大多谈论将其应用于图像问题。有人可以回答我吗?它可以应用于预测时间序列值(财务,互联网流量等)的问题吗?如果可以的话,我应该重点关注哪些重要事项?

5
Cox回归的预测
我正在执行多变量Cox回归,我有重要的自变量和beta值。该模型非常适合我的数据。 现在,我想使用我的模型并预测新观测值的生存时间。我不清楚如何使用Cox模型执行此操作。在线性或逻辑回归中,这很容易,只需将新观测值放入回归中并将它们乘以beta,就可以预测结果了。 如何确定基线危害?除了计算预测之外,我还需要它。 在Cox模型中如何完成?

2
R中lmer()混合效应模型的预测间隔
我想从lmer()模型获得围绕预测的预测间隔。我发现了一些有关此的讨论: http://rstudio-pubs-static.s3.amazonaws.com/24365_2803ab8299934e888a60e7b16113f619.html http://glmm.wikidot.com/faq 但他们似乎并未考虑随机效应的不确定性。 这是一个具体的例子。我在比赛金鱼。我有过去100场比赛的数据。考虑到我的RE估算和FE估算的不确定性,我想预测第101位。我包括鱼的随机拦截(有10种不同的鱼)和重量的固定效应(较轻的鱼更快)。 library("lme4") fish <- as.factor(rep(letters[1:10], each=100)) race <- as.factor(rep(900:999, 10)) oz <- round(1 + rnorm(1000)/10, 3) sec <- 9 + rep(1:10, rep(100,10))/10 + oz + rnorm(1000)/10 fishDat <- data.frame(fishID = fish, raceID = race, fishWt = oz, time = sec) head(fishDat) plot(fishDat$fishID, fishDat$time) lme1 <- lmer(time …

8
预测和推理之间有什么区别?
我正在阅读“ 统计学习入门 ”。在第二章中,他们讨论了估计函数的原因。Fff 2.1.1为什么估计?Fff 我们可能希望估计f有两个主要原因:预测和推断。我们依次讨论每一个。 我已经读了好几次了,但是我仍然对预测和推理之间的区别还不清楚。有人可以提供差异的(实际)示例吗?

2
如果仅对预测感兴趣,为什么在山脊上使用套索?
在《统计学习入门》的第223页中,作者总结了岭回归和套索之间的区别。他们提供了一个示例(图6.9),其中“套索在偏见,方差和MSE方面倾向于胜过岭回归”。 我知道为什么套索是可取的:因为它会将许多系数缩小到0,所以结果很稀疏,从而导致模型简单易懂。但是我不明白当仅对预测感兴趣时,它如何能胜过岭(即,在示例中,它如何获得显着更低的MSE?)。 使用ridge时,如果许多预测变量对响应几乎没有影响(少数预测变量产生很大影响),它们的系数不会简单地缩小到非常接近零的小数目...导致与套索非常相似?那么,为什么最终模型的性能会比套索差?

3
逻辑回归中简单预测对优势比的解释
我对使用逻辑回归有些陌生,并且对以下值的解释之间的差异有些困惑,我认为这是相同的: 指数贝塔值 使用beta值预测结果的可能性。 这是我使用的模型的简化版本,营养不足和保险都是二进制的,财富是连续的: Under.Nutrition ~ insurance + wealth 我的(实际)模型返回的保险指数值为0.8,我将其解释为: “被保险人营养不足的概率是未保险人营养不足的概率的0.8倍。” 但是,当我通过将0和1的值分别输入保险变量和财富平均值来计算个人的概率差异时,营养不足的差异仅为0.04。计算公式如下: Probability Undernourished = exp(β0 + β1*Insurance + β2*Wealth) / (1+exp(β0 + β1*Insurance + β2*wealth)) 如果有人可以解释为什么这些值不同,以及什么是更好的解释(尤其是第二个值),我将不胜感激。 进一步的澄清编辑 据我了解,未投保的人(其中B1对应于保险)营养不足的可能性为: Prob(Unins) = exp(β0 + β1*0 + β2*Wealth) / (1+exp(β0 + β1*0+ β2*wealth)) 虽然被保险人营养不足的可能性是: Prob(Ins)= exp(β0 + β1*1 + β2*Wealth) / (1+exp(β0 …

3
R:尽管数据集中没有NaN,随机森林仍在“外部函数调用”错误中抛出NaN / Inf [关闭]
我正在使用插入符号在数据集上运行交叉验证的随机森林。Y变量是一个因素。我的数据集中没有NaN,Inf或NA。但是,当运行随机森林时,我得到 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

3
如何解释Sklearn混淆矩阵
我正在使用混淆矩阵来检查分类器的性能。 我正在使用Scikit-Learn,我有点困惑。我如何解释结果 from sklearn.metrics import confusion_matrix >>> y_true = [2, 0, 2, 2, 0, 1] >>> y_pred = [0, 0, 2, 2, 0, 2] >>> confusion_matrix(y_true, y_pred) array([[2, 0, 0], [0, 0, 1], [1, 0, 2]]) 我该如何判断这个预测值是好还是不好。


2
有哪些非贝叶斯方法可用于预测推理?
在贝叶斯推断中,通过整合未知参数可以得出未来数据的预测分布。对这些参数的后验分布进行积分可得出后验预测分布,即以已观察到的条件为前提的未来数据的分布。有哪些非贝叶斯预测推理方法考虑了参数估计中的不确定性(即,不仅将最大似然估计或其他任何东西都插入了密度函数中)? 每个人都知道如何在线性回归后计算预测间隔,但是计算背后的原理是什么以及如何将它们应用在其他情况下(例如,从数据中估算出速率参数后为新的指数变量计算确切的预测间隔)?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.