logit函数是否始终是二进制数据回归建模的最佳选择?


15

我一直在考虑这个问题。用于模拟二进制数据的常用逻辑函数为: 然而,logit函数是S形曲线,始终是建模数据的最佳选择?也许您有理由相信您的数据不遵循正常的S形曲线,而是具有域的另一种类型的曲线。

log(p1p)=β0+β1X1+β2X2+
(0,1)

是否对此有任何研究?也许您可以将其建模为Probit函数或类似的函数,但是如果它完全是其他函数呢?这样可以更好地估计效果吗?只是我的想法,我想知道是否对此有任何研究。



2
@宏我不认为这是完全重复的。这个问题只是关于logit和probit。这个也要求其他选择。
彼得·弗洛姆

我投票决定不公开。我看到的主要区别是,这个Q被要求研究在不同的可能链接的功能主题的统计资料。这是一个细微的差异,但可能就足够了。@Glen,如果您尚未查看其他Q,则可能需要查看它。在我的回答中,我谈到了不同的可能链接。如果您认为这个Q并没有什么不同,请对其进行标记,然后mod可以将其关闭;如果您想出一种方法来区分您要问的问题和更清楚的Q值,则可以进行编辑。
gung-恢复莫妮卡

我知道这不是logit vs.probit问题的精确副本,但我认为gung的答案超出了链接问题所要求的范围,它解决了此处提出的大部分问题,这就是为什么我将其作为副本进行了总结。可能还有其他密切相关的线程,但这是我想到的第一个线程。
2013年

感谢您的评论。我相信我的问题与先前的问题不同。我对probit和log-log的转换非常熟悉,对上一个问题的讨论对我很有帮助。但是,在可能知道或不知道概率曲线遵循不同分布的情况下,我对可能的其他链接函数(可能是非参数的)感兴趣。我认为,当协变量之间涉及交互时,这可能起重要作用。@David J. Harris的回答也很有帮助...
格伦

Answers:


15

人们使用各种函数将数据保持在0到1之间。当您导出模型时,对数奇数从数学中自然掉落(称为“规范链接函数”),但是您绝对可以随意进行实验其他选择。

正如Macro在对您的问题的评论中提到的那样,一个常见的选择是概率模型,该模型使用高斯的分位数函数而不是逻辑函数。我也曾听说过有关使用学生分布的分位数功能的好消息,尽管我从未尝试过。t

它们都具有相同的基本S形,但是在两端饱和的速度不同。概率模型非常快地接近0和1,如果概率趋向于不太极端,则这很危险。基于的模型可以采用任何一种方式,具体取决于t分布具有多少自由度。安德鲁·盖尔曼(Andrew Gelman)(在最不相关的情况下),t 7大致类似于逻辑曲线。降低自由度会使您的尾巴更胖,并且回归中的中间值范围更广。当自由度达到无穷大时,您将回到概率模型。ttt7

希望这可以帮助。

编辑添加:与@Macro链接的讨论确实很棒。如果您对更多细节感兴趣,我强烈建议您通读它。


这个问题专门针对“二进制数据”,而不是0到1之间的数据。对于二进制数据,概率模型没有理论上的依据。
Neil G

3
@NeilG,使用概率模型的一个原因是它提供了一种将多元二进制数据建模为阈值法线的便捷方法(例如,使用混合模型)。在那种情况下,基础变量的相关矩阵在统计上是可识别的,而在逻辑情况下则不是。有一个长一点的讨论在这里
2013年

@Macro:哦,我知道了。很好,谢谢。
Neil G

@David J.Harris:您的意思是五分位数(或分位数具有相同的意思),即将分布分解为五分之一:20%,40%,..,100%吗?
MSIS

1
@MSIS,五分位数分为五分之一,百分位数分为百分之四,四分位数分为任意单位。请参见en.wikipedia.org/wiki/Quantile#Specialized_quantiles
David J. Harris

11

我没有理由先验地确定为什么给定数据集的适当链接函数必须是logit(尽管从总体上看,对于我们来说,宇宙似乎并不友好)。我不知道这些是否正是您要寻找的东西,但是这里有一些论文讨论了更多的奇异链接函数:

披露:我不太了解这种材料。几年前,我尝试使用Cauchit和Scobit,但我的代码不断崩溃(可能是因为我不是一个优秀的程序员),而且它似乎与我正在从事的项目无关,所以我放弃了它。 。

X


4

最好的策略是根据发生的事情对数据建模(不足为奇!)

  • Probit模型源自LD50研究-您想要剂量的杀虫剂杀死一半的虫子。二进制响应是指漏洞是存活还是死亡(在给定剂量下)。一剂易感的虫子也将在低剂量下易感,这就是对累积法线进行建模的想法所在。
  • 如果二元观测值成簇出现,则可以使用β二项式模型。Ben Bolker在他的bbmle软件包的文档中有很好的介绍(在R中),该软件包在简单的情况下即可实现。与二项分布相比,这些模型可以更好地控制数据的变化。
  • 可以使用对数线性模型分析多变量二进制数据-汇总到多维列联表中的排序。链接功能是对数而不是对数几率。有人将此称为泊松回归。

尽管对这些模型中的任何一种,它们之间的比较以及估计它们的不同方法进行了大量研究,但可能还没有对这些模型的研究。您在文献中发现,一段时间以来有很多活动,因为研究人员考虑了针对特定类别问题的多种选择,然后出现了一种更好的方法。


+1为二项式。那是一个很好的工具箱。
大卫·J·哈里斯

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.