与二进制数据相关的方差划分和纵向变化


14

我正在使用逻辑线性混合效应模型(随机截距)分析175所学校中300,000名学生的数据。每个学生仅出现一次,数据跨越6年。

  1. 如何以类似于VPC / ICC的方式在学校和学生之间划分差异,以获得连续的结果?我看过这篇文章,提出了4种方法,其中A和B对我来说似乎很有趣,但是我想知道使用这两种方法可能有哪些优点/缺点,当然还有其他方法可以使用它。

  2. 如何比较每年(或任何其他时间段)的学校水平残差方差?到目前为止,我是通过按年份划分数据并针对每年的数据运行模型来完成此操作的,但我认为这是有缺陷的,因为:i)没有明显的理由可以按年份进行划分;ii)由于每年的固定效应估算值是不同的,因此逐年比较随机效应可能没有意义(这是我的直觉,如果有人能够更正式地解释这一点(如果正确),那将是很好的)。

注意:我与Whuber和Macro 进行元讨论后重新写了这个问题


3
我认为这是一个重大改进。现在的问题非常清楚。现在,我没有时间给出井井有条的答复,但我稍后会发布答案。
Macro

3
逻辑混合效果模型似乎是高中的一个极其高级的话题。它们是您高中课程的一部分,还是您独立学习?
mark999 2012年

4
@ mark999我正在独立学习。实际上,我试图证明我的兄弟是错误的,他说“您无法理解这一点”。他正在攻读统计学学位,因此我可以访问他的所有书籍等。(当他很好时)。
乔·金

Answers:


15

分别表示学校j中学生i的响应和预测向量。yij,xijij

(1)对于二进制数据,我认为进行方差分解的标准方法类似于对连续数据进行方差分解的方法是作者在链接中称为方法D(我将在下面的其他方法中进行评论)-将二进制数据设想为由基础连续变量产生,该变量由线性模型控制,并分解该潜在规模上的方差。原因是逻辑模型(和其他GLM)自然是通过这种方式产生的-

要看到这个,定义 使得它是由一个线性混合模型支配:yij

yij=α+xijβ+ηj+εij

其中是回归系数,η ĴÑ 0 σ 2α,β是学校水平随机效应和 ε Ĵ是剩余方差术语和具有标准的物流配送。现在让ηĴñ0σ2ε一世Ĵ

ÿ一世Ĵ={1个如果   ÿ一世Ĵ00如果   ÿ一世Ĵ<0

现在,简单地使用物流CDF我们有pij=P(yij=1|xij,ηj)

pij=1P(yij<0|xij,ηj)=exp{(α+xijβ+ηj)}1+exp{(α+xijβ+ηj)}

现在进行双方的logit转换

log(pij1pij)=α+xijβ+ηj

这正是逻辑混合效应模型。因此,逻辑模型等效于上面指定的潜在变量模型。重要说明:

  • 规模因为没有确定,如果你要规模下来,但恒定的小号,它只会改变以上εijs

exp{(α+xijβ+ηj)/s}1+exp{(α+xijβ+ηj)/s}

       因此,系数和随机效应将简单地按相应的数量放大。所以,š = 1时,这意味着v 一个[R ε Ĵ
      s=1var(εij)=π2/3

现在,如果您使用此模型,然后使用数量

σ^η2σ^η2+π2/3

估计潜在变量的类内部相关性。另一个重要说明:

  • εij
    σ^η2σ^η2+1

关于您链接的论文中提到的其他方法:

  • (A)我从未见过线性化方法,但是我可以看到的一个缺点是,没有迹象表明这种方法会引起近似误差。此外,如果要线性化模型(通过可能的粗略近似),为什么不首先使用线性模型(例如,我将在稍后介绍的选项(C))?由于ICC依赖于X一世Ĵ

  • (B)这种模拟方法在直观上吸引了统计学家,因为它可以为您提供原始数据范围内的估计方差分解,但根据受众的不同,(i)在您的“方法”中描述该方法可能很复杂部分和(ii)可以关闭正在寻找“更标准”内容的评论者

  • (C)假装数据是连续的可能不是一个好主意,尽管如果大多数概率不太接近0或1时它不会表现出色,但是这样做肯定会给审阅者带来危险。所以我会离开。

现在终于

(2)如果固定效应在不同年份之间存在很大差异,那么您会认为,很难比较不同年份之间的随机效应差异,因为它们可能具有不同的规模(这与不可识别性有关上面提到的缩放问题)。

如果您想保持固定效果随时间变化(但是,如果您看到固定效果随时间变化很大,则可能不希望这样做),但要查看随机效果方差的变化,则可以使用一些随机效果来探索此效果。斜率和虚拟变量。例如,如果您想查看不同年份的ICC是否不同,可以一世ķ=1个 如果观察是在一年中进行的 ķ 否则为0,然后将线性预测变量建模为

α+X一世Ĵβ+η1个Ĵ一世1个+η2Ĵ一世2+η3Ĵ一世3+η4Ĵ一世4+η5Ĵ一世5+η6Ĵ一世6

每年您会获得不同的ICC,但固定效果相同。只是随时间使用随机斜率可能会很诱人,从而使您的线性预测变量

α+X一世Ĵβ+η1个+η2Ť

但我不建议这样做,因为那样只会使您的关联随着时间增加,而不会减少


Please would you give me your comment to address the point in the linked article about this variance partitioning technique that says "This approach may be reasonable where the (0, 1) response is, say, derived from a truncation of an underlying continuum such as a pass/fail response based upon a continuous mark scale, but would seem to have less justification when the response is truly discrete, such as mortality or voting". In my case I am dealing with the incidence of bullying, which falls into the latter category, I think...
Joe King

@JoeKing,我想说逻辑/概率(和类似)回归模型已经假设数据是从基础连续体生成的,因为可以证明该模型与之等效。因此,如果一个人甚至使用这样的模型,那么他们必须发现这种假设是可以辩护的:)
Macro

1
@JoeKing,如果您认为这个答案是确定的,请考虑接受:)
Macro

我的确会。目前,我对几点有不确定性,我想花一点时间(几天)阅读一些内容,然后再看一些数据,然后再找您,如果你不介意?
2012年

@JoeKing当然-一些新的成员都不知道,所以我想我指出这一点-这并不意味着你的地方压力都
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.