令分别表示学校j中学生i的响应和预测向量。yij,xijij
(1)对于二进制数据,我认为进行方差分解的标准方法类似于对连续数据进行方差分解的方法是作者在链接中称为方法D(我将在下面的其他方法中进行评论)-将二进制数据设想为由基础连续变量产生,该变量由线性模型控制,并分解该潜在规模上的方差。原因是逻辑模型(和其他GLM)自然是通过这种方式产生的-
要看到这个,定义 使得它是由一个线性混合模型支配:y⋆ij
y⋆ij=α+xijβ+ηj+εij
其中是回归系数,η Ĵ〜Ñ (0 ,σ 2α,β是学校水平随机效应和 ε 我Ĵ是剩余方差术语和具有标准的物流配送。现在让ηĴ〜 ñ(0 , σ2)ε我Ĵ
ÿ我Ĵ= ⎧⎩⎨⎪⎪1个0如果ÿ ⋆我Ĵ≥ 0如果ÿ ⋆我Ĵ< 0
设现在,简单地使用物流CDF我们有pij=P(yij=1|xij,ηj)
pij=1−P(y⋆ij<0|xij,ηj)=exp{−(α+xijβ+ηj)}1+exp{−(α+xijβ+ηj)}
现在进行双方的logit转换,
log(pij1−pij)=α+xijβ+ηj
这正是逻辑混合效应模型。因此,逻辑模型等效于上面指定的潜在变量模型。重要说明:
- 规模因为没有确定,如果你要规模下来,但恒定的小号,它只会改变以上εijs
exp{−(α+xijβ+ηj)/s}1+exp{−(α+xijβ+ηj)/s}
因此,系数和随机效应将简单地按相应的数量放大。所以,š = 1时,这意味着v 一个[R (ε 我Ĵ
s=1。var(εij)=π2/3
现在,如果您使用此模型,然后使用数量
σ^2ησ^2η+π2/3
估计潜在变量的类内部相关性。另一个重要说明:
- εij
σ^2ησ^2η+1
关于您链接的论文中提到的其他方法:
(A)我从未见过线性化方法,但是我可以看到的一个缺点是,没有迹象表明这种方法会引起近似误差。此外,如果要线性化模型(通过可能的粗略近似),为什么不首先使用线性模型(例如,我将在稍后介绍的选项(C))?由于ICC依赖于X我Ĵ。
(B)这种模拟方法在直观上吸引了统计学家,因为它可以为您提供原始数据范围内的估计方差分解,但根据受众的不同,(i)在您的“方法”中描述该方法可能很复杂部分和(ii)可以关闭正在寻找“更标准”内容的评论者
(C)假装数据是连续的可能不是一个好主意,尽管如果大多数概率不太接近0或1时它不会表现出色,但是这样做肯定会给审阅者带来危险。所以我会离开。
现在终于
(2)如果固定效应在不同年份之间存在很大差异,那么您会认为,很难比较不同年份之间的随机效应差异,因为它们可能具有不同的规模(这与不可识别性有关上面提到的缩放问题)。
如果您想保持固定效果随时间变化(但是,如果您看到固定效果随时间变化很大,则可能不希望这样做),但要查看随机效果方差的变化,则可以使用一些随机效果来探索此效果。斜率和虚拟变量。例如,如果您想查看不同年份的ICC是否不同,可以一世ķ= 1 如果观察是在一年中进行的 ķ 否则为0,然后将线性预测变量建模为
α + x我Ĵβ + η1 Ĵ一世1个+ η2 Ĵ一世2+ η3 Ĵ一世3+ η4 Ĵ一世4+ η5 Ĵ一世5+ η6 Ĵ一世6
每年您会获得不同的ICC,但固定效果相同。只是随时间使用随机斜率可能会很诱人,从而使您的线性预测变量
α + x我Ĵβ + η1个+ η2Ť
但我不建议这样做,因为那样只会使您的关联随着时间增加,而不会减少。