比较不同预测变量集的重要性


13

我曾为有特定问题的研究学生提供建议,并且我很想在此站点上得到其他人的意见。

内容:

研究人员具有三种类型的预测变量。每种类型包含不同数量的预测变量。每个预测变量都是一个连续变量:

  • 社交:S1,S2,S3,S4(即四个预测变量)
  • 认知:C1,C2(即两个预测变量)
  • 行为:B1,B2,B3(即三个预测变量)

结果变量也是连续的。样本包括大约60名参与者。

研究人员想评论哪种类型的预测变量在解释结果变量方面更重要。这与对这些类型的预测变量的相对重要性的更广泛的理论关注有关。

问题

  • 有什么好方法可以评估一组预测变量相对于另一组预测变量的相对重要性?
  • 对于每个集合中预测变量数量不同的事实,有什么好的策略?
  • 您可能建议解释什么注意事项?

任何引用示例或技术讨论的内容也将受到欢迎。

Answers:


8

意见建议

  • 您可以为每种类型的预测变量执行单独的多元回归,并在多元回归,调整后的r平方,广义r平方或通过其他简约调整后的方差度量进行比较。
  • 您也可以探索关于重要性重要性的一般文献(有关链接的讨论,请参见此处)。这将鼓励关注各个预测变量的重要性。
  • 在某些情况下,层次回归可以提供有用的框架。您将在一个块中输入一种类型的变量(例如,认知变量),在第二块中输入另一种类型的变量(例如,社会变量)。这将有助于回答以下问题:一种类型的变量是否比另一种类型更能预测。
  • 作为附带检查,您可以对预测变量进行因子分析,以检查预测变量之间的相关性是否映射到类型变量的分配上。

注意事项

  • 变量的类型,例如认知,社会和行为,是广泛的变量类别。一项给定的研究将始终仅包括可能变量的子集,并且通常这样的子集相对于可能变量而言很小。此外,测量的变量可能不是测量预期构造的最可靠或最有效的手段。因此,在对给定类型的变量相对于实际测量值的相对重要性进行更广泛的推断时,您需要格外小心。
  • 您还需要考虑因变量测量方式中的任何偏差。特别是在心理学研究中,自我报告的措施有一种与自我报告,能力与能力,其他报告与其他报告等良好关联的趋势。问题在于,测量模式在实际感兴趣的结构之外具有很大的影响。因此,如果以特定方式(例如,自我报告)来测量因变量,则如果该类型的预测器也使用自我报告,则不要过度解释与一种类型的预测器的较大相关性。

我很喜欢阅读这个清晰,有用的回复,并将与同事分享。
rolando2 2011年

7

重要性

首先要做的是操作“预测变量的重要性”。我认为这意味着“平均结果对预测值变化的敏感性”。由于将预测变量分组,因此平均结果对预测变量组的敏感性比通过变量分析的变量更有趣。无论是否因果理解敏感性,我都会公开。该问题稍后再讨论。

三个版本的重要性

解释了很多方差:我猜想,心理学家的第一个介入点可能是方差分解,从而导致通过每个预测变量组中的方差-协方差结构来解释多少结果方差。作为一名实验主义者,我在这里不能提出太多建议,除非要注意,整个“方差解释”的概念对于我的品味来说是没有根据的,即使没有“哪个平方和”的问题。欢迎其他人不同意并进一步发展。

较大的标准化系数:SPSS提供了(错误命名的)Beta来以可比的变量来衡量影响。Fox的回归教科书,此处和其他地方讨论了一些不使用它的原因。全部适用于此处。它还忽略了组结构。

另一方面,我认为可以将组中的预测变量标准化,并使用协方差信息来判断一个标准偏差对所有预测变量的影响。我个人的座右铭是:“如果一件事情不值得做,那就不值得做好”,这挫败了我的兴趣。

较大的边际效应:另一种方法是保持测量的规模,并计算精心选择的样本点之间的边际效应。因为您对组感兴趣,所以选择点来改变变量组而不是单个变量是很有用的,例如,一次操纵两个认知变量。(这里有很多机会提供有趣的地块)。基本文件在这里effectsR中的软件包可以很好地做到这一点。

这里有两个警告:

  1. 如果这样做,您将要注意自己并没有选择两个认知变量,尽管它们各自看来合理,例如中位数,但与任何受试者的观察结果相距甚远。

  2. 有些变量在理论上甚至是不可操纵的,因此将边际效应解释为因果关系虽然更为有用,但更为微妙。

不同数量的预测变量

由于分组变量协方差结构而产生了问题,我们通常试着不用担心,但对此任务应该这样做。

特别是在计算群体而不是单个变量的边际效应(或该问题的标准系数)时,较大群体的维数诅咒将使比较更容易误入没有案例的区域。一组中的预测变量越多,导致人烟稀少的空间越多,因此,任何重要度量都将更多地取决于模型假设,而较少取决于观察值(但不会告诉您...),但是这些问题与模型拟合阶段相同真。当然,与基于模型的因果影响评估中会出现的情况相同。


7

χ2大号1个大号2大号3χ2大号1个-一种大号2-b大号3-Cχ2


确认一下,您的方法是将L1计算为因包含四个社会变量而导致的偏差减少(-2 *),并通过这四个变量的df进行了调整?同样,L2和L3又如何?
B_Miner 2011年

χ2

您是否还会认为,在设计纯粹的统计解决方案时,存在遗漏可能的总体问题的风险,在该问题中,所有三组预测变量都可以测量同一时间发生的特征/行为。如果没有因果链的较早原因的后继基础,那么在这种情况下可能不可能确定性地分解因果关系-无论我们如何计算?(我正在尝试思考詹姆斯·戴维斯在《因果秩序的逻辑》中的
做法

当然。在建模甚至开始之前就必须了解因果链。
弗兰克·哈雷尔

@FrankHarrell这些结果是否也适用于受罚的可能性?惩罚可能性是否具有使其不同于此变量重要性度量的可能性的任何属性?您能提出任何更详细地描述这一点的论文吗?谢谢。
julieth 2012年

2

一种方法是将变量集组合为捆变量。该方法已在社会学及相关领域广泛使用。

参考:

惠特(Whitt),休(Hugh P。),1986。“捆系数:一种简化和扩展的方法。” 社会科学研究15:174-189。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.