Questions tagged «predictive-models»

预测模型是统计模型,其主要目的是为了最佳地预测系统的其他观察结果,而不是其目的是测试特定假设或以机械方式解释现象的模型。因此,预测模型不太强调可解释性,而更强调绩效。

2
预测是判断统计学家能力的“黄金标准”吗?
上周末,我正在阅读Faraway的带有R(第一版)的线性模型教科书。Faraway有一章称为“统计策略和模型不确定性”。他描述(第158页)时,他使用非常复杂的模型人工生成了一些数据,然后要求学生对数据进行建模,并将学生的预测结果与读取结果进行比较。不幸的是,大多数学生过度拟合了测试数据,并给出了完全超出预期的预测值。为了解释这种现象,他给我写了一些令人印象深刻的话: “模型之所以如此不同,是因为学生以不同的顺序应用了各种方法。有些人在变换之前进行了变量选择,而另一些则相反。有些人在模型更改后重复了一种方法,而其他人则没有。我研究了这些策略那几个用于学生和找不到什么明显的错误与他们所做的一切。有一个学生在计算犯了错误他或她的预测值,但没有什么明显错误的其余部分。在这个任务中的表现并没有表现出与考试有任何关系。 ” 我受过教育,模型预测的准确性是我们选择最佳模型性能的“黄金标准”。如果我没记错的话,这也是Kaggle比赛中常用的方法。但是在这里Faraway观察到了一些不同的性质,即模型预测性能可能与无关具有相关统计人员的能力。换句话说,我们能否根据预测能力建立最佳模型并不能真正取决于我们的经验。相反,它取决于巨大的“模型不确定性”(运气不佳?)。我的问题是:在现实生活中的数据分析中也是如此吗?还是我对基本的东西感到困惑?因为如果这是真的,那么对真实数据分析的意义是巨大的:在不知道数据背后的“真实模型”的情况下,经验丰富/经验不足的统计学家所做的工作之间就没有本质的区别:两者都只是前面的疯狂猜测。可用的培训数据。

1
当使用单独的建模/验证集构建回归模型时,“重新分发”验证数据是否合适?
假设我在建模/验证观察之间划分为80/20。我已经将模型拟合到建模数据集,并且对在验证数据集上看到的错误感到满意。在推出模型以对未来观察进行评分之前,是否将验证与建模数据结合起来以获取100%数据的更新参数估计值是否合适?我听说过两种观点: 我执行的验证是对模型结构的验证,即我已应用的一组预测变量和转换。当我可以使用它来更新估算值时,将20%的数据留在表上是没有意义的。 我执行的验证部分是对我在建模数据集上计算出的参数估计值的验证。如果我更新模型拟合度,那么我已经更改了估计值,并且不再具有测试更新模型性能的客观方法。 我一直遵循#1的论点,但最近我听到几个人争论#2。我想看看其他人对此有何看法。您是否在文献中或其他地方看到过有关该主题的精彩讨论?


2
采用过采样进行打包以建立罕见事件预测模型
有谁知道是否描述了以下内容以及(无论哪种方式)听起来像是一种学习目标变量非常不均衡的预测模型的合理方法? 通常在数据挖掘的CRM应用程序中,我们将寻求一个模型,其中相对于大多数事件(负面事件)而言,积极事件(成功)非常罕见。例如,我可能有500,000个实例,其中只有0.1%是感兴趣的正类(例如,购买的客户)。因此,为了创建预测模型,一种方法是对数据进行采样,从而保留所有正类实例,而仅保留一个负类实例的样本,以使正类与负类的比率更接近1(可能为25%达到75%(从正面到负面)。文献中有过采样,欠采样,SMOTE等所有方法。 我很好奇的是将上面的基本采样策略与否定类的装袋相结合。 保留所有积极的课堂实例(例如1,000个) 对否定类实例进行采样,以创建一个平衡的样本(例如1,000)。 拟合模型 重复 有人听说过吗?似乎没有装袋的问题是,当存在500,000个样本时,仅对1,000个否定类实例进行采样是因为预测变量空间将稀疏,并且您很可能无法表示可能的预测变量值/模式。套袋似乎对此有所帮助。 我看了rpart,当其中一个样本没有一个预测变量的所有值时都没有“中断”(然后用这些预测变量的值预测实例时也没有中断): library(rpart) tree<-rpart(skips ~ PadType,data=solder[solder$PadType !='D6',], method="anova") predict(tree,newdata=subset(solder,PadType =='D6')) 有什么想法吗? 更新: 我获取了一个真实世界的数据集(营销直接邮件响应数据),并将其随机划分为训练和验证。有618个预测变量和1个二进制目标(非常罕见)。 Training: Total Cases: 167,923 Cases with Y=1: 521 Validation: Total Cases: 141,755 Cases with Y=1: 410 我从训练集中选取了所有阳性样本(521),并从平衡样本中随机抽取了相同大小的阴性样本。我适合一棵rpart树: models[[length(models)+1]]<-rpart(Y~.,data=trainSample,method="class") 我重复了此过程100次。然后针对这100个模型中的每一个,在验证样本的情况下预测Y = 1的概率。我只是将这100个概率取平均值进行最终估算。我在验证集上确定了概率,并在每个十分位中计算了Y = 1(模型估算能力的传统方法)的百分比。 Result$decile<-as.numeric(cut(Result[,"Score"],breaks=10,labels=1:10)) 表演如下: 为了了解与没有套袋相比的情况,我仅使用第一个样本(所有阳性病例和相同大小的随机样本)预测了验证样本。显然,所采样的数据太稀疏或过拟合,以至于无法对保留的验证样本生效。 当发生罕见事件且n和p较大时,建议套袋程序的有效性。

2
为什么对于逻辑回归,P> 0.5临界值不是“最佳”的?
前言:我不在乎是否使用截止值的优点,也不在乎应该如何选择截止值。我的问题纯属数学,是出于好奇。 Logistic回归模型对A类与B类的后验条件概率进行建模,并且它拟合后验条件概率相等的超平面。因此,从理论上讲,我知道0.5的分类点将最大程度地减少总误差,而与集合平衡无关,因为它对后验概率建模(假设您始终遇到相同的分类比率)。 在我的实际示例中,使用P> 0.5作为分类截止值时,我获得的准确性非常差(约51%的准确性)。但是,当我查看AUC时,它高于0.99。因此,我查看了一些不同的临界值,发现P> 0.6的准确度为98%(较小类别的准确度为90%,较大类别的准确度为99%)-仅2%的案例被错误分类。 这些类严重不平衡(1:9),这是一个高维问题。但是,我将类平均分配给每个交叉验证集,这样模型拟合和预测之间的类平衡之间就不会有差异。我还尝试使用来自模型拟合和预测的相同数据,并且发生了相同的问题。 我对0.5不能使误差最小化的原因感兴趣,我认为如果通过最小化交叉熵损失来拟合模型,这将是设计使然。 是否有人对为什么会发生有任何反馈?是由于增加了处罚,如果可以的话,有人可以解释发生了什么吗?

2
分位数回归预测
我对某些模型使用分位数回归很感兴趣,但想对使用此方法可以实现的目标进行一些说明。我知道我可以对IV / DV 关系进行更可靠的分析,尤其是在遇到离群值和异方差的情况下,但在我的情况下,重点是预测。 特别是,我有兴趣提高模型的拟合度,而不求助于更复杂的非线性模型甚至分段线性回归。在预测时,是否可以根据预测变量的值选择最高概率的结果分位数?换句话说,是否可以根据预测变量的值确定每个预测结果的分位数概率?

2
什么是收缩?
收缩一词在某些圈子里泛滥了。但是什么是收缩,似乎没有一个明确的定义。如果我有一个时间序列(或某个过程的任何观察结果集合),我可以用什么不同的方式来测量该序列的某种经验性收缩?我可以谈论哪些不同类型的理论收缩?收缩率如何帮助预测?人们能否提供一些好的见解或参考?

2
在校准概率模型时如何选择最佳箱宽?
背景:这里有一些很棒的问题/答案,如何校准可预测结果发生概率的模型。例如 Brier分数,并将其分解为分辨率,不确定性和可靠性。 标定图和等渗回归。 这些方法通常需要对预测的概率使用分箱方法,以便通过取平均结果在分箱上使结果(0,1)的行为平滑。 问题: 但是,我找不到任何有关如何选择纸槽宽度的信息。 问题:如何选择最佳纸槽宽度? 尝试:正在使用的两种常见的料箱宽度似乎是: 等宽合并,例如10个合并,每个合并覆盖间隔[0,1]的10%。 Tukey的分箱方法在这里讨论。 但是,如果有兴趣在预测概率最不正确的区间中找到间隔,那么这些垃圾箱的选择是否是最佳选择?

1
Logistic回归中的拟合优度检验;我们要测试哪个“合适”?
我指的是这个问题及其答案:如何比较通过Logistic回归开发的模型的(概率)预测能力?@Clark Chong发表,@ Frank Harrell回答/评论。并在Hosmer-Lemeshow测试和评论中质疑的自由度χ2χ2\chi^2。 我已经阅读了DW Hosmer,T. Hosmer,S. Le Cessie,S. Lemeshow的论文,“ Logistic回归模型的拟合优度检验比较”,《医学统计》,第1卷。16,965-980(1997)。 阅读后,我感到困惑,因为我提到的问题明确要求“(概率)预测能力”,我认为这与上述论文的拟合优度检验旨在: 如我们大多数人所知,逻辑回归假设解释变量和成功概率之间呈S形联系,S形的函数形式为 P(y=1|xi)=11+e−(β0+∑iβixi)P(y=1|xi)=11+e−(β0+∑iβixi)P(y=1|_{x_i})=\frac{1}{1+e^{-(\beta_0+\sum_i \beta_i x_i)}} 在不假装Hosmer-Lemeshow检验没有缺点的情况下,我认为我们必须区分(a)“(概率)预测能力 ”和(b)“ 拟合优度 ”的检验。 前者的目标是检验概率是否得到了很好的预测,而拟合优度检验则检验了上面的S形函数是否为“正确”函数。更正式地: “概率预测能力测试”的检验具有,表明模型很好地预测了成功概率;H0H0H_0 而对于拟合优度测试,(参见Hosmer等人)认为上述S形功能形式是正确的。Hosmer等。进行仿真,在仿真中他们发现有能力检测到两种与零值的偏差,即链接函数错误或分母中的指数不是线性的。H0H0H_0 显然,如果上述函数具有“正确”的函数形式(因此,如果测试得出结论,我们可以接受作为拟合优度检验),则预测的概率将很好,...H0H0H_0 第一句话 ...但是,接受的结论很微弱,如我们未能否定原假设时该怎么办?。H0H0H_0 第一个问题 我最重要的问题/评论是,如果拟合优度被拒绝,则测试的结论是功能形式不是“正确的”形式,但是,这暗示着概率是预测不好?H0H0H_0 第二个问题 此外,我想指出Hosmer等人的结论。al; (我从摘要中引用): ``当正确的模型具有二次项但仅包含线性项的模型已拟合时,对测试性能的检查表明,皮尔逊卡方,未加权平方和,Hosmer-Lemeshow十分位数风险,平滑的残差平方和和Stukel得分测试,当样本量为100时,具有超过50%的功效来检测线性的适度偏离,对于大小为500的样本,这些相同替代品的功效为90%以上当正确的模型具有二分和连续协变量之间的相互作用,但只有连续协变量模型适合时,所有检验均无功效。对于大小为100的样本,检测到错误指定链接的能力很差。对于大小为500的样本,Stukel' s得分测试的功效最佳,但检测不对称链接功能的结果仅超过50%。未加权平方和检验用于检测指定不正确的链接函数的能力比Stukel的分数检验要小'' 我可以由此得出结论,哪个测试具有更大的功效,或者说Hosmer–Lemeshow的功效更低(检测这些特定异常)? 第二句话 Hosmer等人的论文。等 我在上文中提到过,计算(模拟)检测特定异常的功率(仅在指定情况下才能计算功率)。我认为这并不意味着可以将这些结果推广到“所有可能的替代方案 ”?H1H1H_1H1H1H_1

1
多重共线性和样条回归是否存在问题?
当使用自然的(即受限制的)三次样条曲线时,创建的基函数是高度共线性的,当在回归中使用时,似乎会产生非常高的VIF(方差膨胀因子)统计数据,表示多重共线性。当出于预测目的考虑模型的情况时,这是一个问题吗?由于样条线构造的性质,似乎总是这样。 这是R中的示例: library(caret) library(Hmisc) library(car) data(GermanCredit) spl_mat<-rcspline.eval(GermanCredit$Amount, nk=5, inclx=TRUE) #natural cubic splines with 5 knots class<-ifelse(GermanCredit$Class=='Bad',1,0) #binary target variable dat<-data.frame(cbind(spl_mat,class)) cor(spl_mat) OUTPUT: x x 1.0000000 0.9386463 0.9270723 0.9109491 0.9386463 1.0000000 0.9994380 0.9969515 0.9270723 0.9994380 1.0000000 0.9989905 0.9109491 0.9969515 0.9989905 1.0000000 mod<-glm(class~.,data=dat,family=binomial()) #model vif(mod) #massively high OUTPUT: x V2 V3 V4 …

1
PROC Mixed和LME / LMER在R自由度上的区别
注意:这个问题是一个转贴,因为我的上一个问题出于法律原因不得不删除。 在比较SAS的PROC MIXED与R中lme的nlme软件包的功能时,我偶然发现了一些相当混乱的差异。更具体地说,不同测试的自由度在PROC MIXED和之间有所不同lme,我想知道为什么。 从以下数据集(以下给出的R代码)开始: ind:指示进行测量的个人的因子 fac:进行测量的器官 trt:表示治疗的因素 y:一些连续响应变量 这个想法是建立以下简单模型: y ~ trt + (ind):ind作为随机因子 y ~ trt + (fac(ind)):fac嵌套在ind作为随机因子 需要注意的是最后一个模型应引起奇异性,因为只有1的值y对每一个组合ind和fac。 第一模型 在SAS中,我建立以下模型: PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; 根据教程,R中使用的相同模型nlme应为: > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 两种模型对系数及其SE均给出相同的估计,但是在对F的影响进行F检验时trt,它们使用的自由度不同: SAS : Type …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
保留语义的领域不可知特征工程?
特征工程通常是机器学习的重要组成部分(在2010年赢得了KDD杯冠军的过程中被大量使用)。但是,我发现大多数功能工程技术要么 破坏基本功能的任何直观含义,或 是特定于特定领域甚至特定类型的功能。 前者的经典示例是主成分分析。在我看来,主题专家将拥有的有关功能的任何知识都将通过将这些功能转换为主要组件而被破坏。 将其与将日期转换为“月中的某天”和“星期几”的特征的简单技术进行对比。潜在的含义仍然保留在新功能中,但是显然,此特定技术仅适用于日期,不适用于任意功能。 是否有任何标准的要素工程技术体系都没有破坏基本要素的含义,同时又适用于任意领域(或至少各种各样的领域)?

2
预测多个目标或类别?
假设我正在建立一个预测模型,在该模型中我试图预测多个事件(例如,掷骰子和掷硬币)。我熟悉的大多数算法都只能使用一个目标,因此我想知道是否存在针对此类问题的标准方法。 我看到两个可能的选择。也许最幼稚的方法是将它们简单地视为两个不同的问题,然后组合结果。但是,当两个目标不是独立的(在许多情况下它们可能非常依赖)时,这将带来严重的缺陷。 对我来说,更明智的方法是合并目标属性。因此,在骰子和硬币的情况下,我们将具有状态(等)。但是,这可能导致复合目标中的状态/类的数量变得相当大(很快,如果我们有2个骰子,等等)。此外,在一个属性是分类属性而另一个属性是数字属性的情况下,这似乎很奇怪(例如,如果预测温度和降水类型)。6⋅2=126⋅2=126\cdot 2=12(1,H),(1,T),(2,H)(1,H),(1,T),(2,H)(1, H), (1, T), (2, H) 有没有标准的方法来处理这类事情?另外,是否有专门设计的学习算法来处理此问题?

2
SVM,变量交互和训练数据拟合
我有2个一般/更多理论问题。 1)我很好奇在建立预测模型时SVM如何处理变量交互。例如,如果我有两个特征f1和f2,并且目标取决于f1,f2,并说f1 * f2(或某些函数h(f1,f2)),则SVM是否适合(不仅适用于OOS,甚至适用于训练数据)在仅包括f1和f2的特征中包括f1,f2和h(f1,f2)时是否有所改善?SVM算法处理特征交互吗?SVM如何尝试在更高维度的空间中创建超平面,但似乎并不确定。 2)在将SVM拟合训练数据时,如果具有足够的功能并找到最佳参数(通过蛮力搜索或其他方法),SVM会总是琐碎地拟合训练数据吗?不知道我的措词是否正确,但是基本上,如果功能中有足够的方差/噪声,SVM是否总是100%适合训练数据?相反,如果SVM无法100%拟合训练数据,这是否意味着某些影响目标变量的信息(或其他功能)并未在数据中捕获? 谢谢 小澄清。我指的是内核SVM

1
确定估计事件概率的模型的准确性
我正在为一个具有两个结果a和b的事件建模。我创建了一个模型,该模型估计a或b发生的可能性(即模型将计算a发生的可能性为40%,b发生的可能性为60%)。 根据模型的估算,我在试验结果方面有大量记录。我想量化模型使用此数据的准确性-这有可能吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.