方差较大的预测变量是否“更好”?


13

我有一个“基本统计”概念问题。作为一名学生,我想知道我是否在想这完全错误,为什么,如果这样:

假设我正在假设要查看“愤怒管理问题”之间的关系,并在逻辑回归中说离婚(是/否),并且我可以选择使用两个不同的愤怒管理评分-满分均为100。
得分1来自问卷评分工具1和我的其他选择;得分2来自另一份问卷。假设地,我们有理由相信从先前的工作中,愤怒的管理问题会导致离婚。
如果在我的500个人的样本中,得分1的方差比得分2的方差高得多,是否有任何理由相信得分1将是基于其方差来预测离婚的更好得分?

在我看来,这本能地似乎是正确的,但是是这样吗?


有趣的问题,我相信Whuber的回答可以很好地解释它。我对这个问题的第一个回答是:“差异增加并不意味着需要更多的阶级歧视信息”。
朱巴卜

Answers:


11

几点要点:

  • 可以通过对变量采用不同的比例来任意增加或减少方差。将比例乘以大于1的常数将增加方差,但不会更改变量的预测能力。
  • 您可能会混淆方差与可靠性。在其他所有条件都相同的情况下(并假设至少存在一些真实分数预测),提高测量结构的可靠性应会提高其预测能力。查看有关衰减校正的讨论。
  • 假设两个量表均由20个5分项构成,因此总分在20到100之间,那么方差更大的版本也将更可靠(至少在内部一致性方面)。
  • 内部一致性可靠性不是判断心理测验的唯一标准,也不是区分给定结构的一种量表与另一种量表的预测能力的唯一因素。

9

一个简单的例子可以帮助我们确定基本要素。

Y=C+γX1+ε

其中和是参数,是第一个乐器(或自变量)的得分,而表示无偏iid误差。让第二个乐器的分数与第一个乐器的分数通过CγX1ε

X1=αX2+β.

例如,第二个乐器的分数可能在25到75之间,第一个乐器的分数可能在0到100之间,其中。的方差是乘以的方差。不过,我们可以重写X1=2X250X1α2X2

Y=C+γ(αX2+β)=(C+βγ)+(γα)X2+ε=C+γX2+ε.

参数发生变化,自变量的方差也发生变化,但是模型的预测能力保持不变

通常,和之间的关系可以是非线性的。哪个是的更好预测变量,将取决于哪个与线性关系更紧密。因此,问题不是规模问题之一(由的方差反映),而必须由工具与它们所用来预测的工具之间的关系决定。这个想法与最近关于选择回归中的自变量的问题中探讨的一个想法密切相关。X 2Y X iX1X2YYXi

可能存在缓解因素。举例来说,如果与是离散变量,两者都同样涉及到,那么一个具有较大差异的威力(如果它足够均匀散开),允许它的值之间的区分越细,从而提供更高的精度。 例如,如果两种工具都是1-5李克特量表,则它们都与很好地相关,并且的答案都是2和3,的答案分布在1到5之间,可能更受欢迎。这个基础。X 2Y X 1 X 2 X 2X1X2YYX1X2X2


1

始终检查您使用的统计检验的假设!

Logistic回归的假设之一是错误的独立性,这意味着数据的情况不应该相关。例如。您无法在不同的时间点测量同一个人,因为我担心您可能会在愤怒管理调查中做到这一点。

我还要担心,通过2次愤怒管理调查,您基本上在测量同一件事,而您的分析可能会遭受多重共线性。


1
我认为N26正在建议进行思想实验。即,如果在设计研究时可以在两种量表之间进行选择,那么您是否更希望表面上具有较大差异的表观。同样,具有两个表示相同构造但测量结果不同的预测变量也不会违反观测独立性的假设。
Jeromy Anglim
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.