什么是对数赔率分布?


11

我正在阅读一本关于机器学习的教科书(Witten等人的《数据挖掘》,2011年),并且遇到了这段话:

...此外,可以使用不同的分布。尽管通常对于数字属性来说,正态分布是一个不错的选择,但它不适用于具有预定最小值但没有上限的属性;在这种情况下,“对数正态”分布更为合适。可以通过“对数奇数”分布来模拟上下边界的数值属性。

我从未听说过这种分布。我在Google上搜索了“对数分布”,但找不到任何相关的完全匹配项。有人可以帮我吗?这种分布是什么,为什么对上下有界的数字有帮助?

PS:我是软件工程师,而不是统计学家。

Answers:


14

为什么对上下限的数字有帮助?

上所定义的分布是什么使得它适合作为用于数据的模型上0 1 。我不认为该文本更意味着什么比“这是对数据的模型0 1 ”(或更一般地,在一个b )。(0,1)(0,1)(0,1)(a,b)

这是什么分布...?

不幸的是,术语“对数奇数分布”不是完全标准的(即使在那时也不是很普通的术语)。

我将讨论一些可能的含义。让我们首先考虑一种为单位间隔中的值构造分布的方法。

到连续随机变量,模型中的常见方法0 1 β分布,并以离散的比例模型的常用方法[ 0 1 ]是经缩放的二项式(P = X / Ñ,至少当X是一个计数)。P(0,1)[0,1]P=X/nX

使用β分布另一种方法是采取一些连续逆CDF(),并使用它来变换的值0 1 的实线(或很少,真正的半行),然后使用任何相关的分布(G),以对转换范围内的值进行建模。这提供了许多可能性,因为实线(F G)上的任意一对连续分布都可用于变换和模型。F1(0,1)GF,G

因此,例如,对数奇数变换 (也称为logit)就是这样的逆CDF变换(是标准logistic的逆CDF),然后有很多分布我们可以考虑作为Y的模型。Y=log(P1P)Y

然后,我们可以对Y使用logistic 模型,Y是实际线上的简单两参数族。转化回0 1 通过逆数优势变换(即,P = EXP Ý (μ,τ)Y(0,1))为P产生两个参数分布,一个参数分布可以是单峰,U形或J形,对称或偏斜,在许多方面都类似于beta分布(个人而言,我将其称为logit -logistic,因为它的logit是logistic)。以下是一些不同的μτ值的示例:P=exp(Y)1+exp(Y)Pμ,τ

在此处输入图片说明

看看Witten等人在文本中的简短提及,这可能就是“对数奇数分布”的意图-但它们很可能意味着其他含义。

另一种可能性是预期的是logit-normal

但是,例如,van Erp和van Gelder(2008)[ 1 ]似乎已经使用过该术语,指的是基于beta分布的对数奇数变换(因此实际上以F为对数,G为对数)。日志的一个分布的β-素随机变量,或等价2卡方随机变量的日志)的差的分布。但是,他们正在使用它来计算离散的模型计数比例。这当然导致一些问题(由试图与有限概率在0和1分配用一个模型0 1 [1]FG(0,1)),然后他们似乎花了很多精力。(避免不适当的模型似乎更容易,但是也许就是我。)

其他几份文件(我发现至少有三份)将对数奇数的样本分布(即上述的比例)称为“对数奇数分布”(在某些情况下,P为离散比例*,而在某些情况下,在一个连续的比例的情况下)-因此在这种情况下,它不是概率模型,但您可以在实际生产线上应用一些分布模型。YP

PY

[2]

如您所见,这不是一个具有单一含义的术语。如果没有Witten或该书的其他作者之一明确的指示,我们只能猜测目的是什么。

[1]:Noel van Erp和Pieter van Gelder,(2008年),
“如何解释发生故障时的Beta分布”
,第六届国际概率研讨会论文集,达姆施塔特
pdf链接

[2]:郭燕(2009),
《 NDE系统荚能力评估和鲁棒性的新方法》,
论文提交给密歇根州底特律市韦恩州立大学研究生院


1
(+1)搜索整本书表明没有任何澄清。上下文表明“对数奇数分布”是指某些特定模型,就像前一句中提出的“对数正态”是所有非负值的通用分布一样!
ub

1
@whuber,我同意您对书中所含内容的描述-我无意让我对在其他情况下使用该术语指代样本分发的评论暗示这是书中的意图,但仅作为表明它是一个具有多种含义的术语。在所讨论的段落中,我对学习该材料(就像在很多事情上一样)的人们的建议是,要阅读多于一本书。
Glen_b-恢复莫妮卡2014年

2

我是一名软件工程师(不是统计学家),最近我读了一本书,叫做《统计学习入门》。在R中具有应用程序。

我认为您正在阅读的是对数或对数。第132页

http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Fourth%20Printing.pdf

辉煌的书-我从头到尾都读着它。希望这可以帮助


谢谢你的指点。假设log-odds分布与“ logistic分布”相同,我在Wikipedia上查找了后者。它的PDF似乎没有下限或上限。因此,我仍然想知道为什么我引用的教科书最初说的是“可以用这种分布模型来模拟上下边界的数值属性”。
stackoverflowuser2010 2014年

我认为这可能是关于边界为0.0(不可能)到1.0(确定)的函数的输出。(我在这里可能完全错了)
JasonEdinburgh 2014年

您的模型可能会产生任意大的正或负结果。这些可能无法用诸如概率之类的有界范围来解释,但是可以使用logit函数及其与logistic函数的反函数解释为对数奇数。
亨利
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.