任何人都可以建议以下是否有意义:
我正在处理具有4个预测变量的普通线性模型。我有两种想法是否放弃最不重要的任期。它的 -值超过0.05一点点。我主张将其沿以下方向删除:将这个术语的估计值乘以(例如)该变量的样本数据的四分位数范围,可以使保持这个术语对整个模型的临床效果具有一定意义。由于此数字非常低,大约等于该变量在临床环境中进行测量时可以在典型的日内值范围内,因此我认为该变量在临床上不具有重大意义,因此可以删除以给出更简化的模型,甚至尽管降低它会稍微降低调整后的R 2。
任何人都可以建议以下是否有意义:
我正在处理具有4个预测变量的普通线性模型。我有两种想法是否放弃最不重要的任期。它的 -值超过0.05一点点。我主张将其沿以下方向删除:将这个术语的估计值乘以(例如)该变量的样本数据的四分位数范围,可以使保持这个术语对整个模型的临床效果具有一定意义。由于此数字非常低,大约等于该变量在临床环境中进行测量时可以在典型的日内值范围内,因此我认为该变量在临床上不具有重大意义,因此可以删除以给出更简化的模型,甚至尽管降低它会稍微降低调整后的R 2。
Answers:
我从未理解过节俭的愿望。寻求简约会破坏统计推断的所有方面(回归系数的偏差,标准误差,置信区间,P值)。保留变量的一个很好的理由是,这保留了置信区间和其他数量的准确性。这样想:在普通多元回归中仅开发了两个残差方差的无偏估计量:(1)来自预先指定的(大)模型的估计,以及(2)由简化模型代替广义度的估计自由度(GDF)表示明显的(降低的)回归自由度。与最终“重要”参数的数量相比,GDF更接近候选参数的数量。
这是另一种思考方式。假设您要进行方差分析以比较5种治疗方法,并获得4 df F检验。然后出于某种原因,您使用t检验查看了处理之间的成对差异,并决定合并或删除某些处理(这与对4个虚拟变量使用P,AIC,BIC,Cp进行逐步选择相同)。产生的1、2或3 df的F检验将出现虚假的I型错误。具有4 df的原始F检验包含完美的多重度调整。
这些有关变量选择的答案均假设变量的观测成本为0。
那是不对的。
尽管给定模型的变量选择问题可能涉及或可能不涉及选择,但对未来行为的影响确实涉及选择。
考虑一下预测哪个大学巡边员在NFL中表现最佳的问题。你是侦察员。您必须考虑NFL当前巡边员的哪些素质最能预测其成功。您测量500个数量,并开始选择将来需要的数量的任务。
你该怎么办?您是否应该保留全部500个?是否应该消除某些(天文符号,出生的星期几)?
这是一个重要的问题,不是学术性的。观察数据是有代价的,而成本效益框架表明,某些变量由于其价值较低,因此将来无需观察。
保留变量至少还有两个其他可能的原因:1)它影响其他变量的参数。2)它很小的事实本身在临床上很有趣
要查看约1,可以查看模型中每个人在模型中是否包含变量的预测值。我建议对这两组值进行散点图绘制。如果没有太大的差异,那就是反对这个理由的理由
对于2,请考虑为什么在可能的变量列表中使用此变量。它是基于理论的吗?其他研究是否发现较大的效应量?
如今,最常见的建议是获取两种模型的AIC并采用较低AIC的模型。因此,如果完整模型的AIC为-20,而没有最弱预测变量的模型的AIC> -20,那么您将保留完整模型。有人可能会争辩说,如果差异<3,则保持简单。我更喜欢这样的建议,即当AIC彼此之间不超过3个时,您可以使用BIC打破“纽带”。
如果您使用R,则获取AIC的命令为... AIC
。
我确实从90年代初开始在这里有关于建模的教科书,建议您删除所有不重要的预测变量。但是,这实际上意味着您将摆脱预测器从模型添加或减少模型的复杂性。这也仅适用于方差分析,其重要性在于解释的可变性,而不是根据解释了其他内容而得出的斜率大小。使用AIC的更现代建议将这些因素考虑在内。出于各种原因,即使不重要的预测变量也不重要,也应将其包括在内。例如,与其他预测变量可能存在相关性问题,因为它可能是相对简单的预测变量。如果您想获得最简单的建议,请选择AIC,并使用BIC打破平局,并使用3之差作为平等的窗口。