Questions tagged «predictive-models»

预测模型是统计模型,其主要目的是为了最佳地预测系统的其他观察结果,而不是其目的是测试特定假设或以机械方式解释现象的模型。因此,预测模型不太强调可解释性,而更强调绩效。

2
这是最先进的回归方法吗?
我一直关注Kaggle比赛很久了,后来我意识到许多获胜策略涉及至少使用“三巨头”之一:装袋,助推和堆叠。 对于回归,而不是专注于建立一个可能的最佳回归模型,而是建立多个回归模型,例如(广义)线性回归,随机森林,KNN,NN和SVM回归模型,并以合理的方式将结果融合为一个-多次执行每种方法。 当然,对每种方法的扎实理解是关键,并且可以基于线性回归模型讲述直观的故事,但是我想知道这是否已成为最先进的方法论,以便获得最佳结果。

1
相对变量重要性的提升
我正在寻找一种解释,说明如何在梯度增强树中计算相对变量重要性,而这并不是过于笼统/过于简单: 度量基于选择变量进行拆分的次数,每次拆分后对模型的平方改进加权的权重并在所有树上取平均值。[ Elith等。2008年,增强回归树的工作指南 ] 那还不如: 一世2Ĵ^(T)= ∑t = 1Ĵ− 1一世2Ť^1 (vŤ= j )一世Ĵ2^(Ť)=∑Ť=1个Ĵ-1个一世Ť2^1个(vŤ=Ĵ)\hat{I_{j}^2}(T)=\sum\limits_{t=1}^{J-1} \hat{i_{t}^2} 1(v_{t}=j) 其中求和在终端节点树的非终端节点上,是与节点相关的拆分变量,是平方误差的相应经验改进作为分割的结果,定义为,其中分别是左子代反应手段和右子代反应手段,而是权重的相应总和。J T v t t ^ i 2 t i 2(R l,R r)= w l w rŤŤtĴĴJŤŤTvŤvŤv_{t}ŤŤt一世2Ť^一世Ť2^\hat{i_{t}^2}一世2(R升,R[R)= w升w[Rw升+ w[R(y升¯- ÿ[R¯)2一世2([R升,[R[R)=w升w[Rw升+w[R(ÿ升¯-ÿ[R¯)2i^2(R_{l},R_{r})=\frac{w_{l}w_{r}}{w_{l}+w_{r}}(\bar{y_{l}}-\bar{y_{r}})^2ÿ升¯,ÿ[R¯ÿ升¯,ÿ[R¯\bar{y_{l}}, \bar{y_{r}}w升,w[Rw升,w[Rw_{l}, w_{r}[ Friedman 2001,贪婪函数近似:梯度提升机 ] 最后,我没有发现统计学学习的内容(Hastie等人,2008年)对这里的学习非常有帮助,因为相关部分(第10.13.1页,第367页)的味道与上述第二篇参考文献非常相似(可以对此进行解释)因为弗里德曼是这本书的合著者)。 PS:我知道gbm R包中的summary.gbm给出了相对变量重要性度量。我试图探索源代码,但似乎找不到实际的计算位置。 布朗尼要点:我想知道如何在R中获得这些图。

6
简约应该真的仍然是黄金标准吗?
只是一个想法: 简约模型一直是模型选择的默认选择,但是这种方法在多大程度上已经过时了?我对我们的简约化趋势多少是一次算盘和滑动规则(或更确切地说,是非现代计算机)的遗迹感到好奇。当今的计算能力使我们能够构建越来越复杂的模型,并且具有越来越强大的预测能力。由于计算能力不断提高的上限,我们是否真的仍然需要趋向于简化? 当然,更简单的模型更易于理解和解释,但是在数据量不断增长,变量数量越来越多,并且转向更加关注预测能力的时代,这可能甚至不再可能实现或不必要。 有什么想法吗?

3
班级失衡问题的根本原因是什么?
最近,我一直在思考机器/统计学习中的“班级不平衡问题”,并且越来越深地感觉到我只是不了解发生了什么。 首先让我定义(或尝试)定义我的术语: 机器/统计学习中的类不平衡问题是观察到,当0类与1类的比例非常不正确时,某些二进制分类算法(*)不能很好地执行。 因此,例如,在上面的示例中,如果每一个类有100个类,那么我会说类不平衡为到或。0001111111001001001%1%1\% 我见过的大多数问题陈述都缺乏我认为足够的资格(什么模型在挣扎,问题如何失衡),这是我感到困惑的原因之一。 对机器/统计学习中的标准文本的调查几乎没有: 统计学习和统计学习入门的要素在索引中不包含“班级失衡”。 用于预测数据分析的机器学习在索引中也不包含“类不平衡”。 墨菲的机器学习:概率观点 的确在索引中包含“类不平衡*。参考是关于SVM的一节,我在其中找到了以下诱人的评论: 值得记住的是,所有这些困难,以及为解决这些困难而提出的大量启发式方法,都从根本上出现,因为SVM无法使用概率对不确定性进行建模,因此它们的输出得分在各个类别之间不具有可比性。 此评论确实符合我的直觉和经验:在我以前的工作中,我们通常将逻辑回归和梯度增强树模型(以最小化二项式对数似然性)拟合到不平衡数据(类不平衡程度为),在性能上没有明显的问题。1%1%1\% 我已经(在某处)阅读了基于分类树的模型(树本身和随机森林)也确实遭受了类不平衡问题的困扰。从某种意义上讲,这会使水有些混乱,树木确实有返回概率:在树的每个终端节点中目标类的投票记录。 因此,总的来说,我真正想要的是对导致班级失衡问题(如果存在)的力量的概念性理解。 我们使用错误选择的算法和惰性默认分类阈值对自己做了什么吗? 如果我们始终拟合优化适当评分标准的概率模型,它会消失吗?换句话说,原因仅仅是损失函数的选择不正确,即基于硬分类规则和整体准确性评估模型的预测能力吗? 如果是这样,那么没有优化适当评分规则的模型就没有用(或者至少没有用处)吗? (*)分类是指适合二进制响应数据的任何统计模型。我没有假设我的目标是对一个班级或另一个班级进行艰巨的任务,尽管可能是这样。

3
是否为LASSO重新调整指标/二进制/虚拟预测值
对于LASSO(和其他模型选择程序),重新调整预测变量至关重要。我遵循的一般 建议 是对连续变量使用0均值,1标准差归一化。但是假人有什么关系呢? 例如,来自同一所(优秀)暑期学校的一些应用示例,我将其连续变量的比例调整为0到1(尽管离群值并不大),可能与假人相当。但是,即使那样也不能保证系数应该在相同的数量级上,并因此受到类似的惩罚,这是重新缩放的主要原因,不是吗?


1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

9
没有因果关系,关联何时可用?
许多统计学家的口头禅是“关联并不意味着因果关系”。这确实是正确的,但是在这里确实暗示了一件事,即关联几乎没有价值。这是真的?知道两个变量相关是否有用吗? 我无法想象是这样。我对预测分析并不十分熟悉,但似乎如果X是的预测因子Y,则无论因果关系如何,它对于预测Y基于的未来值都会很有用X。 我看到相关值不正确吗?如果不是,在什么情况下统计学家或数据科学家可能会使用因果关系而没有因果关系?

4
具有连续和分类特征的预测
一些预测建模技术更适合处理连续的预测变量,而另一些则更适合处理分类变量或离散变量。当然,存在将一种类型转换为另一种类型的技术(离散,伪变量等)。但是,是否有任何设计用来同时处理两种类型的输入而无需简单地转换要素类型的预测建模技术?如果是这样,这些建模技术是否倾向于在更适合它们的数据上更好地工作? 最接近的事,我知道的是,通常决策树处理离散数据很好,他们处理连续的数据,而不需要在前面离散化。但是,这并不是我一直在寻找的东西,因为有效地分割连续特征只是动态离散化的一种形式。 作为参考,以下是一些相关的,不可重复的问题: 预测连续变量时应如何实施决策树拆分? 当我将分类预测变量和连续预测变量混合使用时,可以使用多元回归吗? 将分类数据视为连续的有意义吗? 连续和分类变量数据分析

1
是否有结合分类和回归的算法?
我想知道是否有任何算法可以同时进行分类和回归。例如,我想让算法学习一个分类器,同时在每个标签内,它也学习一个连续的目标。因此,对于每个训练示例,它都具有分类标签和连续值。 我可以先训练一个分类器,然后再在每个标签中训练一个回归器,但是我只是在想,如果有一种算法可以同时实现这两个功能,那就太好了。

4
过采样,欠采样和SMOTE可以解决什么问题?
在最近一个广为接受的问题中,Tim问不平衡的数据何时真正成为机器学习中的问题?问题的前提是,有很多机器学习文献讨论班级平衡和班级不平衡的问题。这个想法是,正负类之间不平衡的数据集会导致某些机器学习分类(这里包括概率模型)算法出现问题,应该寻求方法来“平衡”数据集,以恢复完美的50/50在正面和负面类别之间进行划分。 赞成的答案的一般含义是“不是,至少如果您在建模时考虑周全”。M. Henry L.在对已接受答案的投票中说: [...]使用不平衡数据没有低级问题。以我的经验,“避免不平衡数据”的建议要么是特定于算法的,要么是继承的智慧。我同意AdamO的观点,即通常来说,不平衡的数据不会对特定模型造成任何概念上的问题。 AdamO认为阶级平衡的“问题”确实是阶级稀有性之一 因此,至少在回归分析中(但我怀疑在所有情况下),数据不平衡的唯一问题是有效地减少了样本量。如果有任何一种方法适合于稀有阶层的人数,那么他们的比例成员不平衡就不会有问题。 如果这确实是一个真正的问题,那么将有一个悬而未决的问题:所有旨在平衡数据集的重采样方法的目的是什么:过采样,欠采样,SMOTE等? 显然,它们不能解决隐含样本量较小的问题,您不能一无所有地创建信息!

2
混合模型是否可用作预测模型?
我对混合模型在预测建模方面的优势感到困惑。由于预测模型通常是用来预测先前未知观测值的,因此对我而言显而易见的是,混合模型可能有用的唯一方法是通过其提供总体水平的预测的能力(即不增加任何随机效应)。但是,问题在于,到目前为止,根据我的经验,基于混合模型的人口水平预测要比仅基于固定效应的标准回归模型的预测差得多。 那么关于预测问题的混合模型有什么意义呢? 编辑。问题如下:我拟合了混合模型(具有固定和随机效应)和仅具有固定效应的标准线性模型。当我进行交叉验证时,我得到以下预测精度层次:1)使用固定效应和随机效应进行预测时的混合模型(但这当然仅适用于具有已知随机效应变量水平的观察结果,因此这种预测方法似乎无法适合真正的预测应用!);2)标准线性模型;3)使用人口水平的预测时的混合模型(因此排除了随机影响)。因此,由于估计方法不同,标准线性模型和混合模型之间的唯一区别是系数的值有所不同(即,两个模型中的效果/预测因子相同,但相关系数不同)。 因此,我的困惑归结为一个问题,为什么我会使用混合模型作为预测模型,因为与标准线性模型相比,使用混合模型来生成总体水平的预测似乎是一种劣等策略。

3
交叉验证或自举以评估分类性能?
在特定数据集上评估分类器的性能并将其与其他分类器进行比较的最合适的抽样方法是什么?交叉验证似乎是标准做法,但是我已经读过诸如.632 bootstrap之类的方法是更好的选择。 作为后续措施:性能指标的选择是否会影响答案(如果我使用AUC而不是准确性)? 我的最终目标是能够自信地说一种机器学习方法优于特定的数据集。

3
如何解释Sklearn混淆矩阵
我正在使用混淆矩阵来检查分类器的性能。 我正在使用Scikit-Learn,我有点困惑。我如何解释结果 from sklearn.metrics import confusion_matrix >>> y_true = [2, 0, 2, 2, 0, 1] >>> y_pred = [0, 0, 2, 2, 0, 2] >>> confusion_matrix(y_true, y_pred) array([[2, 0, 0], [0, 0, 1], [1, 0, 2]]) 我该如何判断这个预测值是好还是不好。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.