如何为相关数据建模伯努利随机变量的总和?


9

我有几乎相同的问题,例如: 如何有效地建模伯努利随机变量的总和?

但是设置却大不相同:

  1. S=i=1,NXi,,〜20,〜0.1P(Xi=1)=piNpi

  2. 我们有伯努利随机变量结果的数据:,Xi,jSj=i=1,NXi,j

  3. 如果我们用最大似然估计来估计(并得到),那么则要大得多,由其他条件期望:pip^iMLEP^{S=3}(p^iMLE)P^{S=3}(p^iMLE)P^expected{S=3}0.05

  4. 因此,和不能被视为独立的(它们具有较小的依赖性)。XiXj (j>k)

  5. 有一些这样的约束:和(已知),这应该有助于估计。pi+1pis2P^{S=s}=AP{S}

在这种情况下,我们如何尝试对伯努利随机变量的总和建模?

哪些文献可能对解决任务有用?

更新

还有一些进一步的想法:

(1)可以假设之间的未知依赖关系是在连续1次或更多次成功之后开始的。因此,当,和。Xii=1,KXi>0pK+1pK+1pK+1<pK+1

(2)为了使用MLE,我们需要最少可疑的模型。这是一个变体:

P{X1,...,Xk}=(1p1)...(1pk)如果对于任何k个,则 如果且,并且对于任意k。i=1,kXi=0P{X1,...,Xk,Xk+1,...,XN}=(1p1)...pkP{Xk+1,...,XN}i=1,k1Xi=0Xk=1P{Xk+1=1,Xk+2=1,...,XN=1}pk+1pk+2...pN

(3)因为我们只对感兴趣,所以我们可以设置(从尾部获得N-(k ​​+ 1)+1个求和的成功的概率)。并使用参数化P{S}P{Xk+1,...,XN}P{i=1,kXi=s;N(k+1)+1=l}i=k+1,NXiP{i=k,NXi=s;Nk+1=l}=ps,l

(4)将MLE用于基于参数和其中(和任意)的,以及其他一些本地约束。p1,...,pNp0,1,p1,1;p0,2,p1,2,p2,2;...ps,l=0s6l

这个计划可以吗?

更新2

与Poisson分布(蓝色)相比,经验分布(红色)的一些示例(泊松平均值为2.22和2.45,样本大小为332和259):P{S}

样本1 样本2

对于具有泊松平均数2.28和2.51(样本大小分别为303和249)的样本(A1,A2):

样本3 样本4

对于加入的samlpe A1 + A2(样本大小为552):

样本3 +样本4

看起来对泊松的一些修正应该是最好的模型:)。


2
什么是?Xi,j
chl

1
@Andrey(2)中的公式和(4)中的第二个约束没有意义:(4)中的帽子是什么意思?什么是?(您只定义了,没有定义。)(4)中的表达式是三个乘积之和还是其他乘积?SSjS
ub

Xi,j是伯努利随机结果(第j系列的第i个结果),是总和(系列之和)的第j个结果。是总和的随机变量;(4)中的帽子表示估计值。因此,有一些有关的最小值之和的额外信息。对困惑感到抱歉。SjSS
安德烈

Answers:


3

一种方法是使用广义线性模型(GLM)对建模。在这里,您可以将第次试验的成功概率公式化为最近观察历史的(逻辑线性)函数。因此,您实际上要拟合一种自回归GLM,其中噪声为Bernoulli,链接函数为logit。设置为:Xpii

pi=f(b+a1Xi1+a2Xi2+akXik),其中

f(x)=11+exp(x),和

XiBernoulli(pi)

模型的参数为,可以通过逻辑回归来估计。(您要做的就是在每次试验中使用观察历史的相关部分来设置设计矩阵,并将其传递给logistic回归估计函数;对数似然是凹入的,因此参数具有唯一的全局最大值)。如果结果确实是独立的,则将被设置为零;否则,将被设置为零。正表示一旦观察到成功,后续就会增加。{b,a1,ak}aiaipi

该模型没有提供关于的总和的概率的简单表达式,但是由于该模型具有简单的马尔可夫结构,因此易于通过仿真(粒子滤波或MCMC)进行计算。Xi

这种模型已经成功地用于对大脑中神经元“突峰”之间的时间依赖性进行建模,并且有大量关于自回归点过程模型的文献。参见,例如Truccolo等,2005(尽管本文使用泊松而不是伯努利似然法,但是从一个映射到另一个映射很简单)。


1

如果相关性是由于聚集引起的,则复合泊松模型可以作为模型的解决方案。Barbour和Chryssaphinou的这篇参考文献有些随机。Sj

在完全不同的方向上,由于您指出为20,因此相对较小,可能是建立的图形模型,但是我不知道您的设置和数据是否可行。作为@chl注释,如果描述是什么,将很有用。NXijXi,j

如果表示连续测量,例如随着时间的推移,并且相关性与此相关,则第三种可能性(在某种程度上扩展了上述两个建议之间的折衷关系)是使用以下形式的隐马尔可夫模型:所述的。Xi,jXi,j


Xi,j是伯努利随机结果。抱歉,不准确。因此,是运动队在连续相等的时间间隔内得分的总和。事实证明,在第一个进球得分后,间隔中下一个进球的概率将有所不同。Xi
安德烈
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.