我一直在考虑这个问题。用于模拟二进制数据的常用逻辑函数为: 然而,logit函数是S形曲线,始终是建模数据的最佳选择?也许您有理由相信您的数据不遵循正常的S形曲线,而是具有域的另一种类型的曲线。
是否对此有任何研究?也许您可以将其建模为Probit函数或类似的函数,但是如果它完全是其他函数呢?这样可以更好地估计效果吗?只是我的想法,我想知道是否对此有任何研究。
我一直在考虑这个问题。用于模拟二进制数据的常用逻辑函数为: 然而,logit函数是S形曲线,始终是建模数据的最佳选择?也许您有理由相信您的数据不遵循正常的S形曲线,而是具有域的另一种类型的曲线。
是否对此有任何研究?也许您可以将其建模为Probit函数或类似的函数,但是如果它完全是其他函数呢?这样可以更好地估计效果吗?只是我的想法,我想知道是否对此有任何研究。
Answers:
人们使用各种函数将数据保持在0到1之间。当您导出模型时,对数奇数从数学中自然掉落(称为“规范链接函数”),但是您绝对可以随意进行实验其他选择。
正如Macro在对您的问题的评论中提到的那样,一个常见的选择是概率模型,该模型使用高斯的分位数函数而不是逻辑函数。我也曾听说过有关使用学生分布的分位数功能的好消息,尽管我从未尝试过。
它们都具有相同的基本S形,但是在两端饱和的速度不同。概率模型非常快地接近0和1,如果概率趋向于不太极端,则这很危险。基于的模型可以采用任何一种方式,具体取决于t分布具有多少自由度。安德鲁·盖尔曼(Andrew Gelman)说(在最不相关的情况下),t 7大致类似于逻辑曲线。降低自由度会使您的尾巴更胖,并且回归中的中间值范围更广。当自由度达到无穷大时,您将回到概率模型。
希望这可以帮助。
编辑添加:与@Macro链接的讨论确实很棒。如果您对更多细节感兴趣,我强烈建议您通读它。
我没有理由先验地确定为什么给定数据集的适当链接函数必须是logit(尽管从总体上看,对于我们来说,宇宙似乎并不友好)。我不知道这些是否正是您要寻找的东西,但是这里有一些论文讨论了更多的奇异链接函数:
Cauchit(等):
Koenker,R.和Yoon,J.(2009)。 二元选择模型的参数链接:Fisher-Bayesian口语。 计量经济学杂志152,2,第120-130页。
Koenker,R。(2006)。二元选择模型的参数链接。Rnews,6,4,第32-34页。
斯科比特:
Nagler,J。(1994)。Scobit:logit和probit的替代估计量。 《美国政治学杂志》,第38卷,第1期,第230-255页。
偏斜位:
Bazan,JL,Bolfarine,H.&Branco,MD(2010)。 二元回归中的偏斜链接的框架。 统计学中的通信-理论与方法,第39页,第678-697页。
(这似乎是贝叶斯框架内偏斜链接的很好概述):
Chen MH(2004)。 分类响应数据的倾斜链接模型。在“ 斜椭圆分布及其应用:超越常态的旅程”中,Marc Genton,编辑。查普曼和霍尔。
披露:我不太了解这种材料。几年前,我尝试使用Cauchit和Scobit,但我的代码不断崩溃(可能是因为我不是一个优秀的程序员),而且它似乎与我正在从事的项目无关,所以我放弃了它。 。
最好的策略是根据发生的事情对数据建模(不足为奇!)
尽管对这些模型中的任何一种,它们之间的比较以及估计它们的不同方法进行了大量研究,但可能还没有对这些模型的研究。您在文献中发现,一段时间以来有很多活动,因为研究人员考虑了针对特定类别问题的多种选择,然后出现了一种更好的方法。