相关的伯努利试验,多元伯努利分布?


15

我正在简化我正在工作的研究问题。想象一下,我有5个硬币,让我们称之为成功。这些是非常有偏见的硬币,成功概率为p = 0.1。现在,如果硬币是独立的,那么获得至少1个头或更多的概率非常简单,即。在我的情况下,我的伯努利试验(掷硬币)不是独立的。我获得的唯一信息是成功的概率(每个概率为p = .1)和二进制变量之间的理论Pearson相关性。1(11/10)5

有什么方法可以仅凭此信息来计算一次成功或更多次成功的概率?我试图避免基于仿真的方法,因为这些理论结果将用于指导仿真研究的准确性。我一直在研究多元伯努利分布,但我认为仅凭相关性和成功的边际概率不能完全说明它。我的一个朋友建议构造一个具有bernoulli边际的高斯copula(使用R包copula),然后pMvdc()在一个大样本上使用该函数来获得我想要的概率,但是我不确定如何处理它。


多元伯努利分布的描述如下:arxiv.org/abs/1206.1874
蒂姆

在试验之间是否存在时间因素,或者它们是并行的?如果是前者,您是否可以做一个简化的假设,仅取决于,其中给出您的马尔可夫模型的阶数? t r i a l i n ntrialitrialinn
朱巴卜

Answers:


17

不,每当您拥有三个或更多硬币时,这是不可能的。

两枚硬币的情况

首先让我们看一下为什么它适用于两个硬币,因为这提供了一些直觉,以了解在更多硬币的情况下会分解什么。

令和表示对应于两种情况的伯努利分布变量,。首先,回想一下和的相关性是ÿ X ë - [R p ý ë - [R q X ÿXYXBer(p)YBer(q)XY

corr(X,Y)=E[XY]E[X]E[Y]Var(X)Var(Y),

并且由于您知道边际,所以您知道,,和,因此通过了解相关性,您也知道。现在,当且仅当两个和,所以 E [ Y ] V a rX V a rY E [ X Y ] X Y = 1 X = 1 Y = 1 E [ X Y ] = P X = 1 Y = 1 E[X]E[Y]Var(X)Var(Y)E[XY]XY=1X=1Y=1

E[XY]=P(X=1,Y=1).

通过知道边际,您知道,而。由于我们刚刚发现您知道,所以这意味着您也知道和,但是现在完成,因为您正在寻找的可能性是p=P(X=1,Y=0)+P(X=1,Y=1)q=P(X=0,Y=1)+P(X=1,Y=1)P(X=1,Y=1)P(X=1,Y=0)P(X=0,Y=0)

P(X=1,Y=0)+P(X=0,Y=1)+P(X=1,Y=1).

现在,我个人发现所有这些都更容易通过图片看到。令。然后,我们可以将各种概率描述为一个正方形:Pij=P(X=i,Y=j)

在这里,我们看到知道相关性意味着您可以推断出标记为红色的,并且知道边际后,您就知道每个边缘的总和(其中一个用蓝色矩形表示)。P11

三枚硬币的情况

对于三个硬币,这将不那么容易。直观地不难看出为什么:通过了解边缘人及相关,你知道共的参数,但联合分布具有的结果,但是通过知道概率的那些的,您可以找出最后一个;现在,,因此可以合理地构造两个边际和相关性相同的不同联合分布,并且可以置换概率,直到您要寻找的概率不同为止。6=3+323=877>6

令,和为三个变量,令XYZ

Pijk=P(X=i,Y=j,Z=k).

在这种情况下,上方的图片如下:

在此处输入图片说明

尺寸被一个凸出:红色的顶点变成了几个彩色的边缘,被蓝色矩形覆盖的边缘变成了整个表面。在这里,蓝色平面表示通过了解边际,您知道其中的概率之和;对于图片中的那个,

P(X=0)=P000+P010+P001+P011,

并且对于多维数据集中的所有其他面都类似。彩色边缘表示通过了解相关性,您可以知道边缘连接的两个概率之和。例如,通过知道,您就知道(完全如上所述),并且E [ X Y ]corr(X,Y)E[XY]

E[XY]=P(X=1,Y=1)=P110+P111.

因此,这对可能的关节分布设置了一些限制,但是现在我们将练习简化为将数字放置在立方体的顶点上的组合练习。事不宜迟,让我们提供两个边际和相关性相同的联合分布:

在此处输入图片说明

在此,将所有数字除以以获得概率分布。要查看这些有效且具有相同的边际/相关性,只需注意每个面上的概率之和为(表示变量为),并且在这两种情况下,彩色边缘上的顶点都是一致的(在这种情况下,所有相关实际上都是相同的,但是通常不必如此)。1 / 2 ë - [R 1 / 2 1001/2Ber(1/2)

最后,在两种情况下获得至少一个头和的概率是不同的,这就是我们要证明的。 1 - P ' 0001P0001P000

对我而言,提出这些示例归结为将数字放在立方体上以产生一个示例,然后简单地修改并让更改传播。P111

编辑:在这一点上,我意识到您实际上是在使用固定边距,并且您知道每个变量都是,但是如果上面的图片有意义,则可以进行调整直到您拥有所需的边际。Ber(1/10)

四个或更多硬币

最后,当我们拥有三个以上的代币时,我们可以制作出失败的示例也就不足为奇了,因为现在描述联合分布所需的参数数量与边距和边距提供给我们的参数之间存在更大的差异。相关性。

具体而言,对于任何数量大于三的硬币,您可以简单地考虑以下示例,其前三个硬币的行为与上述两个示例相同,而后两个硬币的结果与所有其他硬币无关。


3

相关的伯努利试验得出计数结果的β二项分布。应该可以对该分布进行参数化以提供指定的相关值,然后计算所需的概率。


Beta二项式不仅仅是一个成功概率参数是Beta之后的随机变量的二项式吗?这如何适用于OP的问题?
AG

1
是的,这是分布的一个特征。这也是相关的伯努利试验的解决方案之一(例如,参见Hisakado等,2006年
Ben-Reinstate Monica,

就是这样!已投票。
AG

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.