当因变量具有“截止”时建模


12

如果我使用的任何术语不正确,请提前道歉。我欢迎任何纠正。如果我所说的“截断”使用不同的名称,请告诉我,我可以更新问题。

我感兴趣的情况是:您有自变量和一个因变量。我将保持模糊,但是假设为这些变量获得良好的回归模型将相对简单。xy

但是,您要创建的模型是针对自变量x和因变量w=min(y,a),其中ay范围内的某个固定值y。同样,您有权访问的数据不包含y,仅包含w

一个(有些不切实际的)例子是,如果您试图模拟人们将领取养老金的年限。在这种情况下,x可能是相关信息,例如性别,体重,每周运动时间等。“基本”变量y是预期寿命。但是,您可以访问并试图在模型中预测的变量将是w=min(0,yr),其中r是退休年龄(为简单起见,它是固定的)。

在回归建模中是否有解决此问题的好方法?


1
我不确定,但这听起来似乎可以通过生存分析的一些变化来实现。1)涉及审查2)至少在您的示例中,它涉及时间。但这将是左删减而不是右删减(更常见)。如果您同意我的看法,则可以添加生存标签,看看是否有人跳上它。
彼得·弗洛姆

4
@Peter对我来说肯定是正确的。进行检查的哪一侧意义不大,因为通过否定因变量,可以在右检查和左检查之间切换。
ub

@whuber我认为你是对的。但是,正如您所说,审查方式可以轻松切换。
彼得·弗洛姆

退休示例似乎需要一个计数数据模型(如果您愿意舍入为整年,并且只要在运行分析时每个人都死了的话)。潜变量方法似乎有点牵强,因为时间不能为负。
Dimitriy V. Masterov 2014年

Answers:


14

根据学科和主题领域,这种模型有多种名称。它的通用名称是删失因变量,截断因变量,有限因变量,生存分析,Tobit和删失回归。我可能遗漏了其他几个名字。

您建议在其中观察到称为“正确检查”,因为值在实线上太靠右了,所以进行检查-而是我们只看到检查点,。min{yi,a}yia

处理此类数据的一种方法是通过使用潜在变量(这基本上就是您的建议)。这是一种进行方法:

yi=xiβ+εiwi=min{yi,a}εiN(0,σ2) iid

然后,您可以通过最大可能性进行分析。发生审查的观测值对似然函数的贡献为,而没有进行审查的观测值的贡献为到似然函数。标准法线的CDF为,标准法线的密度为。因此,似然函数如下所示:P{yi>a}=Φ(1σxiβa)1σϕ((yixiβ)/σ)Φϕ

L(β,σ)=i  censoredΦ(1σxiβa)i  censored1σϕ((yixiβ)/σ)

您可以通过最大化此值来估算和。您将获得标准误差作为通常的最大似然标准误差。βσ

您可能会想到,这只是众多方法中的一种。


1
+1 ML解决方案的有效示例出现在stats.stackexchange.com/questions/49443上
ub

@whuber这是一个很好的阐述。
比尔
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.