当结果变量不是病例/对照状态时,估计病例对照设计中的逻辑回归系数


10

考虑通过以下方式从大小为的总体中采样数据:对于Nk=1,...,N

  1. 观察个体的“疾病”状态k

  2. 如果他们患有疾病,则以概率将其包括在样本中pk1

  3. 如果他们没有疾病,则以概率包括他们。pk0

假设您观察到二元结果变量和预测变量向量,对于这种方式采样的对象。结果变量不是 “疾病”状态。我想估计逻辑回归模型的参数:YiXii=1,...,n

log(P(Yi=1|Xi)P(Yi=0|Xi))=α+Xiβ

我只关心(对数)比值比β。拦截与我无关。

我的问题是:我可以通过忽略采样概率\ {p_ {i1},p_ {i0} \}i = 1,...,n并像拟合模型一样来获得β的合理估计这是普通的随机样本吗?{pi1,pi0}i=1,...,n


我几乎可以肯定,这个问题的答案是“是”。 我正在寻找的是可以验证这一点的参考。

我对答案充满信心的主要原因有两个:

  1. 我已经进行了许多模拟研究,但没有一个与此相矛盾,并且

  2. 直接表明,如果总体由上述模型控制,则控制采样数据的模型为

log(P(Yi=1|Xi)P(Yi=0|Xi))=log(pi1)log(pi0)+α+Xiβ

如果采样概率不取决于,那么这将表示向截距的简单移动,并且的点估计显然不会受到影响。但是,如果每个人的偏移量都不相同,那么这种逻辑就不太适用,因为您肯定会得到不同的点估计值,尽管我怀疑类似的情况也会如此。 iβ

相关: Prentice和Pyke(1979)的经典论文说,病例对照(以疾病状态作为结果)的逻辑回归系数与前瞻性研究的分布具有相同的分布。我怀疑同样的结果在这里也适用,但是我必须承认我并不完全理解本文的每一点。

在此先感谢您的任何评论/参考。


1
您声明“结果变量不是疾病状态”。什么说明什么?顺便说一句,欢迎回到简历。Yi=1
gung-恢复莫妮卡

1
Yi是一个不同的变量。我的意思是,决定抽样概率(通常是病例对照中的疾病状态)的变量与结果变量不同-请考虑对数据集进行二次分析。例如,假设样本是通过系统地对毒品使用者和另外一组(频率匹配,带有某些协变量)进行抽样的非毒品使用者生成的,但您正在研究的结果变量是其他一些行为量度。在这种情况下,采样方案很麻烦。谢谢,顺便说一句!
2013年

Answers:


8

这是计量经济学中选择模型的一种变体。这里仅使用选定样本的估计的有效性取决于 。这里是的疾病状态。Pr(Yi=1Xi,Di=1)=Pr(Yi=1Xi,Di=0)Dii

要提供更多详细信息,请定义以下符号: 和 ; 表示样本中存在的事件。此外,为简单起见,假设独立于。π1=Pr(Di=1)π0=Pr(Di=0)Si=1iDiXi

样本中单位的的概率为 根据迭代期望法则。假设以疾病状态和其他协变量,结果 与独立。结果是, Yi=1i

Pr(Yi=1Xi,Si=1)=E(YiXi,Si=1)=E{E(YiXi,Di,Si=1)Xi,Si=1}=Pr(Di=1Si=1)Pr(Yi=1Xi,Di=1,Si=1)+Pr(Di=0Si=1)Pr(Yi=1Xi,Di=0,Si=1),
DiXiYiSi
Pr(Yi=1Xi,Si=1)=Pr(Di=1Si=1)Pr(Yi=1Xi,Di=1)+Pr(Di=0Si=1)Pr(Yi=1Xi,Di=0).
很容易看到 在这里,和是您定义的采样方案。从而,
Pr(Di=1Si=1)=π1pi1π1pi1+π0pi0 and Pr(Di=0Si=1)=π0pi0π1pi1+π0pi0.
pi1pi0
Pr(Yi=1Xi,Si=1)=π1pi1π1pi1+π0pi0Pr(Yi=1Xi,Di=1)+π0pi0π1pi1+π0pi0Pr(Yi=1Xi,Di=0).
如果,我们有 可以省略样本选择问题。另一方面,如果, 。在特定情况下,请考虑logit模型, Pr(Yi=1Xi,Di=1)=Pr(Yi=1Xi,Di=0)
Pr(Yi=1Xi,Si=1)=Pr(Yi=1Xi),
Pr(Yi=1Xi,Di=1)Pr(Yi=1Xi,Di=0)
Pr(Yi=1Xi,Si=1)Pr(Yi=1Xi)
Pr(Yi=1Xi,Di=1)=eXiα1+eXiα and Pr(Yi=1Xi,Di=0)=eXiβ1+eXiβ.
即使当和在上恒定时,所得的分布也不会保持logit的形式。更重要的是,参数的解释将完全不同。希望以上论点有助于您澄清一些问题。pi1pi0i

试图将作为附加的解释变量,并根据估计模型。为了证明使用的有效性,我们需要证明,这等于是的足够统计量。如果没有有关您的采样过程的更多信息,我不确定这是否成立。让我们使用抽象符号。可观察性变量可以视为和其他随机变量的随机函数,例如DiPr(YiXi,Di)Pr(YiXi,Di)Pr(YiXi,Di,Si=1)=Pr(YiXi,Di)DiSiSiDiZi。表示。如果 是独立的有条件和,我们有 根据独立性的定义。但是,如果在以和条件后不独立于,则 直观地包含一些有关 ,并且通常不希望Si=S(Di,Zi)ZiYiXiDiPr(YiXi,Di,S(Di,Zi))=Pr(YiXi,Di)ZiYiXiDiZiYiPr(YiXi,Di,S(Di,Zi))=Pr(YiXi,Di)。因此,在“但是”情况下,样本选择的无知可能会误导推理。我对计量经济学中的样本选择文献不是很熟悉。我建议Microeconometrics: methods and applications' by Cameron and Trivedi (especially the Roy model in that chapter). Also G. S. Maddala's classic book计量经济学的第16章“ 有限因变量和定性变量”是对样本选择和离散结果问题的系统处理。


2
谢谢。这是一个很好的答案,很有意义。在我的应用程序中,的假设是不现实的。但是,将添加为预测变量并考虑分布。使用类似的推导,我认为您可以证明,如果,那么您还可以。就我而言,这是一个合理的假设。你怎么看?顺便说一句,您是否碰巧有提及此问题的参考文献?我对计量经济学文献不熟悉。P(Yi|Xi,Di=1)=P(Yi|Xi,Di=0)DiP(Yi|Xi,Di)P(Yi=1|Xi,Di,Si=1)=P(Yi=1|Xi,Di,Si=0)
2013年

我很乐意将选择过程看作是一次bernoulli试用,即在此数据生成假设下,该bernoulli试验有条件地独立于,所以我认为我们很好。感谢您为解决此问题所做的努力和独到见解,并接受答案。假设没有人提供我正在寻找的确切参考文献(我宁愿能够简单地“引用”这个问题,而不必进行进一步的讨论),我还将奖励您。干杯。
Si|Di=d,Xi=xBernoulli(p(x,d))
Yi
2013年

该选择过程适合您的策略。基于这样的选择问题,您的问题将成为丢失数据文献中随机丢失(MAR)的一个示例。感谢您的奖励。
semibruin
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.