可视化二元二项分布


11

问题:二元二项分布在3维空间中是什么样的?

下面是我想针对各种参数值可视化的特定功能;即,和。p 1 p 2np1p2

f(x1,x2)=n!x1!x2!p1x1p2x2,x1+x2=n,p1+p2=1.

注意,有两个约束;和。另外,是一个正整数,例如。p 1 + p 2 = 1 n 5x1+x2=np1+p2=1n5

在使用LaTeX(TikZ / PGFPLOTS)进行了两次绘图功能的尝试。这样做,我得到以下图形的以下值:,和以及,和分别为。我尚未成功实现对域值的约束;,所以我有些困惑。p 1 = 0.1 p 2 = 0.9 n = 5 p 1 = 0.4 p 2 = 0.6 x 1 + x 2 = nn=5p1=0.1p2=0.9n=5p1=0.4p2=0.6x1+x2=n

用任何语言生成的可视化效果都很好(R,MATLAB等),但是我正在使用TikZ / PGFPLOTS在LaTeX中工作。

第一次尝试

n=5,和p 2 = 0.9p1=0.1p2=0.9

在此处输入图片说明

第二次尝试

n=5,和p 2 = 0.6p1=0.4p2=0.6

在此处输入图片说明

编辑:

作为参考,这里是包含一些图表的文章。论文的标题是Atanu Biswasa和Hing-Shiang Hwang撰写的“新的二元二项分布”。统计与概率快报60(2002)231–240。

编辑2: 为清楚起见,并针对评论中的@GlenB,以下是该书中如何向我介绍发行版的快照。该书未涉及退化/非退化案例等。它只是这样呈现,而我试图对其进行可视化。干杯! 而且,正如@JohnK指出的那样,关于x1 + x1 = 1可能有一个错字,他建议应该为x1 + x1 = n。

在此处输入图片说明

方程的图像来自:

Spanos,A(1986)计量经济学建模的统计基础。剑桥大学出版社


5
但这不应该是连续的,对吗?两个随机变量都是离散的。
JohnK

1
所以x1和x2是独立的,对吗?您需要伪3D图吗?热图可以接受吗?
gung-恢复莫妮卡


2
@JohnK如果和您正在处理(而只是)。这是单变量的二项式(或者被认为是双变量的,是简并的)。x1+x2=np1+p2=1X1Binomial(n,p1)X2nX1
Glen_b-恢复莫妮卡

3
您的问题中没有双变量二项式的规格。(指定一种可能被称为“二项式”的双变量分布的方法不止一种。您没有任何一种,尽管退化的将是其中某些的特例。)您的Biswasa&黄参考是离散二元PMF的合适的显示器。简而言之,您的问题没有什么要提的,您的参考资料主要是作为避免事项的示例。
Glen_b-恢复莫妮卡

Answers:


8

这有两部分:首先,您需要弄清楚各个概率是什么,然后需要以某种方式绘制它们。

二项式PMF只是一系列“成功”中的一组概率。二元二项式PMF将是“成功”可能组合的网格上的一组概率。在您的情况下,您有,因此(请记住,有可能成功在网格/二元二项分布中有可能的结果。 ni=nj=506×6=36

我们可以首先计算边缘二项式PMF,因为这非常简单。由于变量是独立的,因此每个联合概率都将是边际概率的乘积。这是矩阵代数。在这里,我使用R代码演示此过程:

b1 = dbinom(0:5, size=5, prob=0.1);  sum(b1)  # [1] 1
b9 = dbinom(0:5, size=5, prob=0.9);  sum(b9)  # [1] 1
b4 = dbinom(0:5, size=5, prob=0.4);  sum(b4)  # [1] 1
b6 = dbinom(0:5, size=5, prob=0.6);  sum(b6)  # [1] 1

b19 = b1%o%b9;  sum(b19)  # [1] 1
rownames(b19) <- colnames(b19) <- as.character(0:5)
round(b19, 6)
#       0        1        2        3        4        5
# 0 6e-06 0.000266 0.004783 0.043047 0.193710 0.348678
# 1 3e-06 0.000148 0.002657 0.023915 0.107617 0.193710
# 2 1e-06 0.000033 0.000590 0.005314 0.023915 0.043047
# 3 0e+00 0.000004 0.000066 0.000590 0.002657 0.004783
# 4 0e+00 0.000000 0.000004 0.000033 0.000148 0.000266
# 5 0e+00 0.000000 0.000000 0.000001 0.000003 0.000006
b46 = b4%o%b6;  sum(b46)  # [1] 1
rownames(b46) <- colnames(b46) <- as.character(0:5)
round(b46, 3)
#       0     1     2     3     4     5
# 0 0.001 0.006 0.018 0.027 0.020 0.006
# 1 0.003 0.020 0.060 0.090 0.067 0.020
# 2 0.004 0.027 0.080 0.119 0.090 0.027
# 3 0.002 0.018 0.053 0.080 0.060 0.018
# 4 0.001 0.006 0.018 0.027 0.020 0.006
# 5 0.000 0.001 0.002 0.004 0.003 0.001

至此,我们有了两个必要的概率矩阵。我们只需要决定如何绘制它们即可。老实说,我不是3D条形图的忠实拥护者。因为R似乎同意我的观点,所以我在Excel中制作了这些图:

b19

在此处输入图片说明

b46

在此处输入图片说明


感谢您的介绍和R代码。这导致我问x1 + x2 = n。如果这种情况成立,那么这里应该只显示一行支柱:reference.wolfram.com/language/ref/MultinomialDistribution.html我假设的Wolfram图就是@Glen_b所谓的简写情况?这是否意味着您已经提出了非简并的案例?
Graeme Walsh

1
GraemeWalsh,我的演示文稿未显示x1 + x2 = n的二元二项式。正如@Glen_b在评论和他的回答中广泛讨论的那样,我不会真正称其为“二元二项分布”,而没有限定它。而且,这意味着x1和x2不是独立的(如您在响应评论中所说),而是完全独立的。实际上,我没有注意到这是一个奇怪的变体(您可以怪我没有足够仔细地阅读)。如Glen_b所示,该版本将是一行支柱。我介绍的是非退化的情况。
gung-恢复莫妮卡

@gung我喜欢你的新地块。我认为您的讨论很好地涵盖了退化的情况(“您需要弄清楚各个概率是什么”确实说明了一切;退化情况的实际计算是微不足道的);我只是进行了这些琐碎的计算。
Glen_b-恢复莫妮卡

7

gung的答案对于实际的二元二项式来说是一个很好的答案,可以很好地说明问题(我建议接受它作为标题问题的很好答案,这很可能对其他人有用)。

您实际上在编辑中出现的数学对象实际上是单变量缩放的二项式。这里是不是由二项式计数,但通过的比例(二项式除以获取的值)。x1n

因此,让我们正确定义事物。请注意,实际上没有提供随机变量的定义,因此我们需要进行一些猜测。

让请注意,当我们给一个数学公式这是必要的什么值可以拿,所以。令,并注意。Y1binomial(n,p1),P(Y1=y1)y1y1=0,1,...,nX1=Y1/nx1=0,16,26,...,1

然后,您给出的方程式是的pmf (请注意和)。P(X1=x1)x2=nx1p2=1p1

对于,它看起来像这样:n=6,p1=0.3

在此处输入图片说明

我们只需将第二组标签放在等于的值下(也许用不同的颜色)来指示所取的值,就可以很容易地将值放在上述图上。x2x11x1x2

我们可以将其视为(缩放)简并双变量二项式:

在此处输入图片说明

但真正将本书中定义的称为二元二项式(因为它实际上是单变量二项式),有点费力。

假设有人想要生成与3D图形相似的图形,那么(R)代码的这一点与上面的第二个图形非常接近:

y = 0:6
x1 = y/6
x2 = 1-x1
p = dbinom(y,6,.3)
scatterplot3d(x1,x2,p,grid=TRUE, box=FALSE, cex.lab=1.2,
        color=3, cex.main=1.4,pch=21,bg=1,, type="h",angle=120,
        main="degenerate scaled binomial", ylab="x2", xlab="x1", 
        zlab="prob")

(您需要scatterplot3d包含相同功能的软件包。)

“真实”(非简并)双变量二项式同时具有两个变量的变化。这是一类特殊的二元二项式(在这种情况下不是独立的)的示例。我在情节中使用了不同的颜色,因为否则很容易迷失在“棍子”森林中。

在此处输入图片说明

有很多方法可以获取称为二元二项式的对象。这种特殊类型是您拥有,,(所有独立的),然后让和。Xbin(n0,p)Ybin(ny,p)Zbin(nz,p)X1=X+YX2=X+Z

这样就产生了相关的二项式和(但缺点是它不会产生负相关)。X 2X1X2

这种特殊的双变量二项式分布的pmf表达式在Hamdan,1972中给出[1],但是我没有使用该计算;一个人可以很容易地进行直接计算(数字卷积)。在此特定情况下,为4,和分别仅为2,因此在整个网格上进行直接数值计算(最终结果为49个值)并不困难也不费力。从退化的双变量(两个维度)开始,类似于上图的退化的双变量(但更小且在“主对角线” 上-x_1而不是对角线()),然后添加独立分量,沿对角线传播概率。n y n z = X x 1 = x 2 x 1 + x 2 = nn0nynz=Xx1=x2x1+x2=n

[1]:Hamdan,MA(1972),
“具有不等边际指数的双变量二项分布的规范展开”,《
国际统计评论》40:3(12月),第277-280页。


真好 还值得注意的是,在这种情况下,corr(X1,X2)=1
JohnK,2016年

Glen_b。非常感谢你。指出我提出(已经提出给我!)的数学对象是(缩放)简并二元二项式非常有用!我从一开始就不知道这一点。最后,一个基本要求!您是否可以明确地(通过数学符号表示)如何定义真正的或实际的二元二项式?我认为这将很有用。
Graeme Walsh

1
@Graeme正如我在评论(/ answer)中已经提到的那样,有很多方法可以获取可以称为双变量二项式的对象(实际上,问题中Biswasa和Hwang参考的标题告诉了您很多)。当然,这并不是二项式所独有的,许多更常用的单变量分布有许多可用的双变量概括。我在回答中给出的“特殊类型的二元二项式”是您拥有,,(所有独立的),然后让和。... ctdÿ Ñ Ýp ž Ñ Žp X 1 = X + Ŷ X 2 = X + žXbin(n0,p)Ybin(ny,p)Zbin(nz,p)X1=X+YX2=X+Z
Glen_b-莫妮卡(Monica)恢复

1
ctd ...这会产生相关的二项式和,但缺点是它不会产生负相关,因此对于一般的双变量建模,它不如其他一些双变量二项式公式有用。通常,当将单变量分布族概括为双变量族时,必须选择最想要的属性以及可以负担得起的属性,而这些选择将导致双变量族的不同选择。[正态分布是不寻常的-有一种我们所有想要的东西都有一个“明显的”概括。]X 2X1X2
Glen_b-恢复莫妮卡

@Graeme ...我计划添加更多详细信息。
Glen_b-恢复莫妮卡

4

Mathematica现在在这样的事情上相当强大-它在文档中可以解决您的问题。只需添加很少的内容,我就可以制作一个模型(p = p1 = 0.4可以更好地呈现视觉效果)。这就是界面的外观以及如何对其进行控制。

在此处输入图片说明

片段

Manipulate[
 Grid[{
   {DiscretePlot3D[
     PDF[MultinomialDistribution[n, {p, 1 - p}], {x, y}], {x, 0, 
      n}, {y, 0, n}, PlotLabel -> Row[{"n = ", n}], 
     ExtentSize -> Right],

    DiscretePlot3D[
     CDF[MultinomialDistribution[n, {p, 1 - p}], {x, y}], {x, 0, 
      n}, {y, 0, n}, PlotLabel -> Row[{"n = ", n}], 
     ExtentSize -> Right]}
   }]
 ,
 {{n, 5}, 1, 20, 1, Appearance -> "Labeled"},
 {{p, 0.4}, 0.1, 0.9},
 TrackedSymbols -> True
 ]

PDF[MultinomialDistribution[n, {p, 1 - p}], {x, y}]我认为,这里的主要内容是不言自明的。Multinomial只是意味着您可能会pi针对每个变量进行大量分配。简单的形式是BinomialDistribution。当然,我可以手动创建它,但是规则是如果您具有内置功能-应该使用它。

如果您需要有关代码结构的一些注释,请告诉我。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.