这是计量经济学中选择模型的一种变体。这里仅使用选定样本的估计的有效性取决于
。这里是的疾病状态。Pr(Yi=1∣Xi,Di=1)=Pr(Yi=1∣Xi,Di=0)Dii
要提供更多详细信息,请定义以下符号:
和 ; 表示样本中存在的事件。此外,为简单起见,假设独立于。π1=Pr(Di=1)π0=Pr(Di=0)Si=1iDiXi
样本中单位的的概率为
根据迭代期望法则。假设以疾病状态和其他协变量,结果
与独立。结果是,
Yi=1i
Pr(Yi=1∣Xi,Si=1)===E(Yi∣Xi,Si=1)E{E(Yi∣Xi,Di,Si=1)∣Xi,Si=1}Pr(Di=1∣Si=1)Pr(Yi=1∣Xi,Di=1,Si=1)+Pr(Di=0∣Si=1)Pr(Yi=1∣Xi,Di=0,Si=1),
DiXiYiSiPr(Yi=1∣Xi,Si=1)=Pr(Di=1∣Si=1)Pr(Yi=1∣Xi,Di=1)+Pr(Di=0∣Si=1)Pr(Yi=1∣Xi,Di=0).
很容易看到
在这里,和是您定义的采样方案。从而,
Pr(Di=1∣Si=1)=π1pi1π1pi1+π0pi0 and Pr(Di=0∣Si=1)=π0pi0π1pi1+π0pi0.
pi1pi0Pr(Yi=1∣Xi,Si=1)=π1pi1π1pi1+π0pi0Pr(Yi=1∣Xi,Di=1)+π0pi0π1pi1+π0pi0Pr(Yi=1∣Xi,Di=0).
如果,我们有
可以省略样本选择问题。另一方面,如果,
。在特定情况下,请考虑logit模型,
Pr(Yi=1∣Xi,Di=1)=Pr(Yi=1∣Xi,Di=0)Pr(Yi=1∣Xi,Si=1)=Pr(Yi=1∣Xi),
Pr(Yi=1∣Xi,Di=1)≠Pr(Yi=1∣Xi,Di=0)Pr(Yi=1∣Xi,Si=1)≠Pr(Yi=1∣Xi)
Pr(Yi=1∣Xi,Di=1)=eX′iα1+eX′iα and Pr(Yi=1∣Xi,Di=0)=eX′iβ1+eX′iβ.
即使当和在上恒定时,所得的分布也不会保持logit的形式。更重要的是,参数的解释将完全不同。希望以上论点有助于您澄清一些问题。
pi1pi0i
试图将作为附加的解释变量,并根据估计模型。为了证明使用的有效性,我们需要证明,这等于是的足够统计量。如果没有有关您的采样过程的更多信息,我不确定这是否成立。让我们使用抽象符号。可观察性变量可以视为和其他随机变量的随机函数,例如DiPr(Yi∣Xi,Di)Pr(Yi∣Xi,Di)Pr(Yi∣Xi,Di,Si=1)=Pr(Yi∣Xi,Di)DiSiSiDiZi。表示。如果
是独立的有条件和,我们有
根据独立性的定义。但是,如果在以和条件后不独立于,则
直观地包含一些有关
,并且通常不希望Si=S(Di,Zi)ZiYiXiDiPr(Yi∣Xi,Di,S(Di,Zi))=Pr(Yi∣Xi,Di)ZiYiXiDiZiYiPr(Yi∣Xi,Di,S(Di,Zi))=Pr(Yi∣Xi,Di)。因此,在“但是”情况下,样本选择的无知可能会误导推理。我对计量经济学中的样本选择文献不是很熟悉。我建议Microeconometrics: methods and applications' by Cameron
and Trivedi (especially the Roy model in that chapter). Also G. S.
Maddala's classic book
计量经济学的第16章“ 有限因变量和定性变量”是对样本选择和离散结果问题的系统处理。