Questions tagged «predictive-models»

预测模型是统计模型,其主要目的是为了最佳地预测系统的其他观察结果,而不是其目的是测试特定假设或以机械方式解释现象的模型。因此,预测模型不太强调可解释性,而更强调绩效。

1
内特·西尔弗(Nate Silver)对黄土的评论
在我最近问的一个问题中,有人告诉我,用黄土推断是一个很大的“不可以”。但是,在Nate Silver在FiveThirtyEight.com上的最新文章中,他讨论了使用黄土做出选举预测。 他当时在讨论黄土侵略性与保守性预报的细节,但我对黄土做出未来预测的有效性感到好奇吗? 我也对这次讨论以及对黄土可能有类似好处的其他替代方法感兴趣。

2
Scikit学习中的平均绝对百分比误差(MAPE)
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 2年前关闭。 我们如何使用Python和scikit-learn计算预测的平均绝对百分比误差(MAPE)? 从文档中,我们只有以下4个用于回归的度量函数: metrics.explained_variance_score(y_true,y_pred) metrics.mean_absolute_error(y_true,y_pred) metrics.mean_squared_error(y_true,y_pred) metrics.r2_score(y_true,y_pred)

3
可视化模型预测概率的校准
假设我有一个预测模型,该模型为每种情况下产生每个类别的概率。现在,我认识到,如果我想使用这些概率进行分类(精确度,召回率等),则有很多方法可以评估这种模型。我也认识到,ROC曲线及其下的区域可用于确定模型在各类之间的区分程度。这些不是我要问的。 我有兴趣评估模型的校准。 我知道,一个评分规则,如布来得分可以完成这个任务非常有用。没关系,我可能会沿这条线合并一些内容,但是我不确定这样的指标对外行人有多直观。我正在寻找更直观的东西。我希望解释结果的人能够看到模型预测某事发生的概率是70%的可能性是它会在约70%的时间实际发生,等等。 我听说过(但从未使用过)QQ图,起初我以为这是我想要的。但是,看来这确实是为了比较两个概率分布。那不是我直接拥有的。对于一堆实例,我有我的预测概率,然后是事件是否实际发生: Index P(Heads) Actual Result 1 .4 Heads 2 .3 Tails 3 .7 Heads 4 .65 Tails ... ... ... 那么QQ情节真的是我想要的,还是我在寻找其他东西?如果我应该使用QQ图,将数据转换为概率分布的正确方法是什么? 我想我可以按预测的概率对两列进行排序,然后创建一些垃圾箱。这是我应该做的事情,还是我想念某个地方?我熟悉各种离散化技术,但是有没有一种具体的方法可以将离散化到这种情况下的垃圾箱中?

3
预测建模竞赛的网站
我参加了Kaggle,TunedIt和CrowdAnalytix的预测建模竞赛。我发现这些站点是“锻炼”统计/机器学习的好方法。 还有其他我应该知道的网站吗? 在主办方打算从竞争对手的参赛作品中获利的比赛中,您对所有人都感觉如何? /编辑:下面是一个更完整的列表: Kaggle TunedIt Clopinte KDD杯 InnoCentive公司 Crowdanalytix TopCoder公司


3
如何仅训练阳性病例来预测结果?
为了简单起见,假设我正在研究垃圾邮件/非垃圾邮件的经典示例。 我有一组20000封电子邮件。在这些邮件中,我知道2000是垃圾邮件,但没有任何非垃圾邮件的例子。我想预测其余18000个垃圾邮件是否为垃圾邮件。理想情况下,我要寻找的结果是电子邮件为垃圾邮件的概率(或p值)。 在这种情况下,我可以使用哪种算法做出明智的预测? 目前,我正在考虑一种基于距离的方法,该方法可以告诉我电子邮件与已知垃圾邮件的相似程度。我有什么选择? 更笼统地说,我可以使用监督学习方法吗?或者我是否必须在训练中包含负面案例才能做到这一点?我是否仅限于无监督学习方法?那么半监督方法呢?

2
通用数据集的数据增强技术?
在许多机器学习应用程序中,所谓的数据增强方法已允许构建更好的模型。例如,假设训练集包含张猫和狗的图像。通过旋转,镜像,调整对比度等,可以从原始图像生成其他图像。100100100 对于图像,数据扩充相对简单。但是,假设(例如)一个训练集包含样本和代表不同事物的数百个连续变量。数据扩充似乎不再那么直观。在这种情况下该怎么办?100100100

2
StackExchange问​​题的“趣味性”功能
该问题是从Mathematics Stack Exchange 迁移而来的,因为可以通过交叉验证来回答。 迁移 8年前。 我正在尝试为StackExchange网站整理一个数据挖掘程序包,尤其是,我一直试图确定“最有趣”的问题。我想使用问题分数,但是要消除由于观看次数而引起的偏见,但是我不知道如何严格地解决这一问题。 在理想世界中,我可以通过计算来对问题进行排序,其中是总投票数,是观看次数。毕竟,它将衡量支持该问题的人数的百分比,减去支持该问题的人数的百分比。 vñvñvn\frac{v}{n}vvvñnn 不幸的是,投票方式要复杂得多。投票趋于“平稳”到一定水平,这会大大低估广受欢迎的问题。实际上,具有1个视图和1个投票的问题肯定会比其他任何具有10,000个视图但票数少于10,000的问题得分更高。 我目前正在使用作为经验公式,但我想精确一点。我如何用严谨的数学方法解决这个问题?v日志n +1vlog⁡n+1\frac{v}{\log{n}+1} 为了解决一些评论,我将尝试以更好的方式重述该问题: 假设我有一个问题,共票,次观看。我希望能够估计当视图达到时,最有可能通过总票数进行投票。n 0 v 1 n 1v0v0v_0ñ0n0n_0v1个v1v_1ñ1个n1n_1 这样,我可以简单地为选择一个标称值,然后根据期望的总数对所有问题进行排序。对1ñ1个n1n_1v1个v1v_1 我在SO数据转储上创建了两个查询,以更好地显示我正在谈论的效果: 平均得分得分 结果: 平均观看次数得分(100次观看桶) 结果: 两个公式比较 结果,不确定更直是否更好:(蓝色为,红色为) vvñvn\frac{v}{n}v升Ò 克n +1vlogn+1\frac{v}{log{n}+1}

2
贝叶斯关于过度拟合的思考
我花了很多时间来开发用于验证传统的频繁统计领域中的预测模型的方法和软件。将更多的贝叶斯思想付诸实践和教学时,我发现需要拥抱一些关键差异。首先,贝叶斯预测模型要求分析人员认真考虑可能针对候选特征进行定制的先验分布,这些先验将拉近模型(即,针对不同的预测特征对缩略/惩罚/正则化进行不同程度的惩罚) )。其次,“真实”贝叶斯方法不会产生单个模型,而是会获得整个后验分布以进行预测。 考虑到这些贝叶斯特征,过度拟合意味着什么?我们应该评估一下吗?如果是这样,怎么办?我们如何知道贝叶斯模型何时可用于现场?还是当我们使用我们为预测而开发的模型时,后验将带有所有谨慎的不确定性,这是一个有争议的问题吗? 如果我们强制将贝叶斯模型提炼为单个数字,例如后均值/众数/中位数风险,那么思维将如何改变? 我在这里看到一些相关的想法。在这里可以找到平行讨论。 后续问题::如果我们完全是贝叶斯模型,并且在查看数据之前花了一些时间在先验上,并且我们在适当地指定了数据似然性的情况下拟合了模型,那么我们是否必须对模型过度拟合感到满意?还是我们需要做一些我们在常人世界中所做的事情,在该世界中,随机选择的主题在平均水平上可能会被很好地预测,但是如果我们选择一个预测值非常低或预测值非常高的主题,则会出现回归是什么意思?

2
提升:为什么将学习率称为正则化参数?
所述学习率参数(在梯度)推进收缩每个新的基础模型-通常浅树形是在串联加入的贡献。它被证明可以极大地提高测试仪的精度,这是可以理解的,因为步数越小,损耗函数的最小值就可以越精确地达到。 ν∈[0,1]ν∈[0,1]\nu \in [0,1] 我不明白为什么学习率被视为正则化参数?引用统计学习的要素,第10.12.1节,第364页: 控制树的数量不是唯一可能的正则化策略。与山脊回归和神经网络一样,也可以使用收缩技术。值越小 (收缩率越大),对于相同数量的迭代M,导致更大的训练风险。因此,ν和M都控制训练数据的预测风险。νν\nuMMMνν\nuMMM 正则化意味着“避免过度拟合的方式”,因此很明显迭代次数在这方面至关重要(M太大会导致过度拟合)。但:MMMMMM 值越小(收缩率越大),对于相同数量的迭代M,导致更大的训练风险。νν\nuMMM 仅仅意味着在低学习率的情况下,需要更多的迭代才能在训练集上达到相同的准确性。那么,这与过度拟合有何关系?

1
预测建模-我们是否应该关注混合建模?
对于预测建模,我们是否需要关注统计概念,例如随机效应和观测值的非独立性(重复测量)?例如.... 我有5个直接邮件广告系列(一年中发生)的数据,这些数据具有各种属性和购买标记。理想情况下,我会结合使用所有这些数据来为广告系列制定时给定的客户属性建立购买模型。原因是购买事件很少见,我想使用尽可能多的信息。给定的客户有可能出现在1至5个广告系列中的任何位置-这意味着记录之间没有独立性。 使用时是否重要? 1)机器学习方法(例如,树,MLP,SVM) 2)统计方法(逻辑回归)? **ADD:** 我对预测建模的想法是,如果模型有效,请使用它。因此,我从未真正考虑过假设的重要性。考虑到我上面描述的情况,我很纳闷。 采取机器学习算法,例如MLP and SVM。这些已成功用于对二进制事件进行建模,例如上面的示例,而且还对时间序列数据进行了清晰的关联。然而,许多使用损失函数是似然的,并假设误差为id。例如,R中的梯度增强树gbm使用从二项式(第10页)得出的偏差损失函数。

2
如何根据先前事件的时间预测下一个事件何时发生?
我是一名高中生,并且正在从事计算机编程项目,但是我在高中统计课程之外的统计和数据建模方面没有很多经验,所以我有点困惑。 基本上,我有一个相当大的列表(假设它足够大,可以满足任何统计测试或度量的假设),而这个时间决定了某人决定打印文档。基于此列表,我想构建某种统计模型,该模型将在给定所有先前事件时间的情况下预测下一次打印作业的最可能时间。 我已经读过这篇文章,但是对于我在项目中的想法,回答并不能完全解决问题。我进行了一些额外的研究,发现“ 隐马尔可夫模型”可能可以使我准确地做到这一点,但是我无法找到有关如何仅使用时间列表来生成“隐马尔可夫模型”的链接。我还发现,在列表上使用卡尔曼过滤器可能有用,但从根本上讲,我想从实际使用过它们的人那里获得一些有关它的更多信息,然后才尝试尝试并希望它能起作用。 谢谢一群!

4
从线性,指数和对数函数中确定最佳拟合曲线拟合函数
内容: 在有关数学堆栈交换的问题(我可以构建一个程序)上,某人有一组点,并希望为其拟合曲线(线性,指数或对数)。通常的方法是从选择其中一种(指定模型)开始,然后进行统计计算。x − yX-ÿx-y 但是真正需要的是从线性,指数或对数中找到“最佳”曲线。 表面上,一个人可以尝试所有三个,然后根据最佳相关系数选择三个中的最佳拟合曲线。 但是不知何故,我觉得这还不够洁。通常公认的方法是先选择模型,然后选择这三个模型之一(或其他链接函数),然后从数据中计算系数。事实上,事后采摘是樱桃采摘。但是对我而言,无论您是从数据确定函数还是系数,这仍然是同一回事,您的过程正在发现最好的东西(例如,发现哪个函数也是另一个系数)。 问题: 根据拟合统计量的比较,从线性,指数和对数模型中选择最佳拟合模型是否合适? 如果是这样,最合适的方法是什么? 如果回归有助于在函数中找到参数(系数),为什么不能有一个离散的参数来选择三个最佳曲线系列中的哪一个呢?

3
获得线性模型中预测极限的公式(即预测间隔)
让我们来看下面的例子: set.seed(342) x1 <- runif(100) x2 <- runif(100) y <- x1+x2 + 2*x1*x2 + rnorm(100) fit <- lm(y~x1*x2) 这将使用OLS回归基于x1和x2创建y模型。如果我们希望针对给定的x_vec预测y,则可以简单地使用从中获得的公式summary(fit)。 但是,如果我们要预测y的上下预测怎么办?(对于给定的置信度)。 那我们将如何建立公式?

1
逐步AIC-关于此主题是否存在争议?
我在该网站上阅读了无数帖子,这些帖子令人难以置信地反对使用任何类型的标准(无论是基于p值,AIC,BIC等)逐步选择变量。 我理解为什么这些程序通常比较笼统,而变量选择却很差。龚可能在这里著名的帖子清楚地说明了原因;最终,我们将在用于得出假设的同一数据集上验证假设,即数据挖掘。此外,p值还受共线性和离群值之类的量的影响,这些结果会严重偏斜等。 但是,最近我一直在研究时间序列预测,并且遇到了Hyndman备受推崇的教科书,他在这里提到使用逐步选择来找到ARIMA模型的最佳顺序。实际上,在forecastR包中,众所周知auto.arima的默认算法默认使用逐步选择(对于AIC,不是p值)。他还批评了基于p值的功能选择,该功能与该网站上的多个帖子非常吻合。 最终,如果目标是开发用于预测/预测的良好模型,则最终应始终以某种方式进行交叉验证。但是,在确定p值以外的评估指标的过程本身时,在这里肯定有一些分歧。 在这种情况下,或者在这种情况下,对于使用逐步式AIC,有人是否有任何意见?我被教导要相信任何逐步的选择都是不好的,但是老实说,auto.arima(stepwise = TRUE)与样本相比,我给了我更好的结果,auto.arima(stepwise = FALSE)但是也许这只是巧合。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.