Questions tagged «distributions»

分布是概率或频率的数学描述。


3
累积/累积图(或“可视化洛伦兹曲线”)
我不知道这些图被称为什么,因此我给这个问题一个愚蠢的标题。 假设我有一个如下的有序数据集 4253 4262 4270 4383 4394 4476 4635 ... 每个数字对应于某个用户在网站上发布的帖子数量。我正在根据经验调查这里定义的“参与不平等”现象。 为了便于掌握,我想制作一个图表,使读者可以快速推断出诸如“ 10%的用户贡献50%的数据”之类的陈述。它看起来应该类似于这个公认的糟糕的油漆草图: 我不知道如何称呼它,因此我不知道在哪里寻找。另外,如果有人在中实现R,那将是非常棒的。

3
测量2D正方形中点分布的均匀性
我有一个2D正方形,里面有一组点,例如1000点。我需要一种方法来查看正方形内的点的分布是否散布(或或多或少均匀分布),或者它们倾向于在正方形内的某个点聚集在一起。 我需要一种数学/统计(非编程)方法来确定这一点。我在Google上搜索,发现了诸如拟合优度,Kolmogorov等之类的东西,只是想知道是否还有其他方法可以实现这一目标。需要这个用于课堂论文。 输入:2D正方形和1000点。输出:是/否(是=均匀分布,否=在某些地方聚集在一起)。

1
对数随机数生成
我需要从具有密度的对数柯西分布中提取随机数: 谁能帮助我或将我指向一本可以告诉我如何的书/纸?F(x ; μ ,σ)= 1X πσ[ 1 + (升Ñ (X )- μσ)2]。F(X;μ,σ)=1个Xπσ[1个+(升ñ(X)-μσ)2]。f(x;\mu,\sigma)=\frac{1}{x\pi\sigma\left[1+\left(\frac{ln(x)-\mu}{\sigma}\right)^2\right]}.

1
为什么使用康沃尔-菲舍尔扩展而不是样本分位数?
在康沃尔-Fisher展开提供了一种估算基于矩分布的分位数的方式。(从这个意义上说,我认为它是对Edgeworth Expansion的补充,后者基于矩来估计累积分布。)我想知道在哪种情况下,人们更愿意将Cornish-Fisher扩展用于实证研究而不是样本分位数,反之亦然。一些猜测: 通过计算,可以在线计算样本矩,而在线估计样本分位数则很困难。在这种情况下,CF“获胜”。 如果一个人有能力预测力矩,那么CF将允许人们利用这些预测来进行分位数估计。 CF扩展可能会给出观察值范围之外的分位数估计,而样本分位数可能不会。 我不知道如何围绕CF给出的分位数估计来计算置信区间。在这种情况下,样本分位数“获胜”。 似乎CF膨胀需要一个来估计分布的多个较高矩。这些估计中的误差可能以CF扩展具有比样本分位数更高的标准误差的方式复合。 还有其他吗?是否有人有使用这两种方法的经验?

2
分配百分比数据
我有一个关于使用我的数据创建模型的正确分布的问题。我用50个地块进行了森林清查,每个地块的尺寸为20m×50m。对于每个图,我估计了遮蔽地面的树冠的百分比。每个地块都有一个以百分比表示的顶盖覆盖率值。百分比范围从0到0.95。我正在建立一个树冠覆盖率百分比模型(Y变量),并具有一个基于卫星图像和环境数据的独立X变量的矩阵。 我不确定是否应该使用二项式分布,因为二项式随机变量是n个独立试验的总和(即,伯努利随机变量)。百分比值不是试验的总和;它们是实际百分比。即使没有上限,我也应该使用伽玛吗?我应该将百分比转换为整数并使用泊松作为计数吗?我应该坚持使用高斯吗?我没有在文献或教科书中找到许多尝试以这种方式模拟百分比的示例。任何提示或见解表示赞赏。 谢谢您的回答。实际上,正是我需要的beta发行版,并在本文中进行了详细讨论: Eskelson,BN,Madsen,L.,Hagar,JC和Temesgen,H.(2011)。使用Beta回归和copula模型估算河岸底层植被覆盖度。森林科学,57(3),212-221。 这些作者使用Cribari-Neto和Zeileis的R中的betareg软件包。 下面的文章讨论了转换包含百分比范围内的真0和/或1的beta分布响应变量的好方法: Smithson,M.和J. Verkuilen,2006年。更好的柠檬榨汁器?具有β分布因变量的最大似然回归,《心理方法》,11(1):54–71。


1
指数和伽马之间的分布的名称?
密度F(š )α 小号s + αË− 秒,s > 0f(s)∝ss+αe−s,s>0f(s)\propto \frac{s}{s+\alpha}e^{-s},\quad s > 0,其中α ≥ 0α≥0\alpha \ge 0是一个参数,生命指数(之间α = 0α=0\alpha=0)和Γ (2 ,1 )Γ(2,1)\Gamma(2,1)(α → ∞α→∞\alpha \to \infty)分布。只是好奇这是否恰好是更广泛的发行系列的一个例子?我不这样认为。

2
广义正态分布的提案分布
我正在使用具有概率密度函数的广义正态分布(维基百科条目)来模拟植物扩散。 b2aΓ(1/b)e−(da)bb2aΓ(1/b)e−(da)b \frac{b}{2a\Gamma(1/b)} e^{-(\frac{d}{a})^b} 其中是行进距离,是比例参数,是形状参数。平均行驶距离由以下分布的标准偏差给出:dddaaabbb a2Γ(3/b)Γ(1/b)−−−−−−−−√a2Γ(3/b)Γ(1/b) \sqrt{\frac{a^2 \Gamma(3/b)}{\Gamma(1/b)}} 这是方便的,因为它允许以指数形式时,高斯形状时,并且对于尖峰厚尾分布时。这种分布在植物传播文献中经常出现,尽管通常它很少见,因此很难找到有关的信息。b=1b=1b=1b=2b=2b=2b&lt;1b&lt;1b<1 最有趣的参数是和平均分散距离。bbb 我正在尝试使用MCMC 估算和,但是我正在努力想出一种有效的方法来对提案价值进行抽样。到目前为止,我已经使用Metropolis-Hastings,并且从和均匀分布中得出,并且我得到的后平均分散距离约为200-400米,这确实具有生物学意义。但是,收敛确实很慢,并且我不确信它正在探索整个参数空间。aaabbb0&lt;a&lt;4000&lt;a&lt;4000 < a < 400 0&lt;b&lt;30&lt;b&lt;3 0 < b<3 为和分配更好的提案分配是棘手的,因为它们彼此依赖,而没有太多意义。平均分散距离确实具有明确的生物学意义,但是给定的平均分散距离可以用和许多组合来解释。因此,和在后面相关。aaabbbaaabbbaaabbb 到目前为止,我已经使用了Metropolis Hastings,但是我对在这里可以使用的其他算法持开放态度。 问题:有人可以建议一种更有效的方法来绘制和投标值吗?aaabbb 编辑:关于系统的其他信息:我正在研究沿山谷的植物种群。目的是确定花粉在供体植物和它们授粉的植物之间传播的距离分布。我的数据是: 每个可能的花粉供体的位置和DNA 从已经生长并进行基因分型的60种母本植物(即花粉接受者)的样品中收集的种子。 每个母本植物的位置和DNA。 我不知道供体植物的身份,但是可以通过确定哪些供体是每株幼苗的父亲,从遗传数据中推论得出。假设此信息包含在概率矩阵G中,每个后代都有一行,每个候选供体都有一列,这仅根据遗传数据就可以得出每个候选者是每个后代的父亲的概率。G需要大约3秒钟的时间来计算,并且每次迭代都需要重新计算,这大大降低了速度。 由于我们通常期望更接近的候选人捐赠者更有可能是父亲,因此,如果您共同推断父子关系和分散父子关系,则父子关系推断会更准确。矩阵D具有与G相同的维度,并且仅基于母体与候选者之间的距离和某些参数向量的函数包含父系概率。在给定遗传和空间数据的情况下,D和G中的相乘元素给出了父权的联合概率。乘积值的乘积给出了离散模型的可能性。 如上所述,我一直在使用GND来建模色散。实际上,我实际上使用了GND和均匀分布的混合体,以允许非常遥远的候选者仅由于偶然性(遗传杂乱)而具有较高的亲子关系可能性(如果忽略,这会使GND的明显尾部膨胀)。因此,扩散距离的概率为:ddd cPr(d|a,b)+(1−c)NcPr(d|a,b)+(1−c)N c \Pr(d|a,b) + \frac{(1-c)}{N} 其中是到GND的散布距离的概率,N是候选者的数量,而()确定GND对散布的贡献。Pr(d|a,b)Pr(d|a,b)\Pr(d|a,b)ccc0&lt;c&lt;10&lt;c&lt;10< c <1 因此,还有两个额外的考虑因素会增加计算负担: 色散距离是未知的,但必须在每次迭代中进行推断,而创建G来做到这一点非常昂贵。 有第三个参数进行积分。ccc 由于这些原因,在我看来,执行网格插值过于复杂,但我很高兴被说服。 例 这是我使用的python代码的简化示例。我简化了从遗传数据中对亲子关系的估计,因为这将涉及很多额外的代码,并将其替换为0到1之间的值矩阵。 首先,定义函数以计算GND: import numpy as np …

2
UMVUE
让(X1,X2,…,Xn)(X1,X2,…,Xn)(X_1,X_2,\ldots,X_n)是从密度的随机样本fθ(x)=θxθ−110&lt;x&lt;1,θ&gt;0fθ(x)=θxθ−110&lt;x&lt;1,θ&gt;0f_{\theta}(x)=\theta x^{\theta-1}\mathbf1_{00 我正在尝试找到θ的UMVUEθ1+θθ1+θ\frac{\theta}{1+\theta}。 (X1,…,Xn)(X1,…,Xn)(X_1,\ldots,X_n)的联合密度为 fθ(x1,⋯,xn)=θn(∏i=1nxi)θ−110&lt;x1,…,xn&lt;1=exp[(θ−1)∑i=1nlnxi+nlnθ+ln(10&lt;x1,…,xn&lt;1)],θ&gt;0fθ(x1,⋯,xn)=θn(∏i=1nxi)θ−110&lt;x1,…,xn&lt;1=exp⁡[(θ−1)∑i=1nln⁡xi+nln⁡θ+ln⁡(10&lt;x1,…,xn&lt;1)],θ&gt;0\begin{align} f_{\theta}(x_1,\cdots,x_n)&=\theta^n\left(\prod_{i=1}^n x_i\right)^{\theta-1}\mathbf1_{00 \end{align} 随着人口的PDF fθfθf_{\theta}属于单参数指数族,这表明,对于一个完整的充分统计量θθ\theta是T(X1,…,Xn)=∑i=1nlnXiT(X1,…,Xn)=∑i=1nln⁡XiT(X_1,\ldots,X_n)=\sum_{i=1}^n\ln X_i 由于E(X1)=θ1+θE(X1)=θ1+θE(X_1)=\frac{\theta}{1+\theta},首先想到E(X1∣T)E(X1∣T)E(X_1\mid T)将给我θ的UMVUEθ1+θθ1+θ\frac{\theta}{1+\theta}根据Lehmann-Scheffe定理, 1 + θ。不确定是否可以直接找到该条件期望,还是必须找到条件分布 X1∣∑ni=1lnXiX1∣∑i=1nln⁡XiX_1\mid \sum_{i=1}^n\ln X_i。 另一方面,我考虑了以下方法: 我们有Xi∼i.i.dBeta(θ,1)⟹−2θlnXi∼i.i.dχ22Xi∼i.i.dBeta(θ,1)⟹−2θln⁡Xi∼i.i.dχ22X_i\stackrel{\text{i.i.d}}{\sim}\text{Beta}(\theta,1)\implies -2\theta\ln X_i\stackrel{\text{i.i.d}}{\sim}\chi^2_2,使−2θT∼χ22n−2θT∼χ2n2-2\theta\, T\sim\chi^2_{2n}。 所以,rrr的阶原时刻−2θT−2θT-2\theta\,T大约为零,作为使用卡方PDF计算是E(−2θT)r=2rΓ(n+r)Γ(n),n+r&gt;0E(−2θT)r=2rΓ(n+r)Γ(n),n+r&gt;0E(-2\theta\,T)^r=2^r\frac{\Gamma\left(n+r\right)}{\Gamma\left(n\right)}\qquad ,\,n+r>0 因此,似乎对于rrr不同整数选择,我将获得θθ\theta的不同整数幂的无偏估计量(和UMVUE)。例如,E(−Tn)=1θE(−Tn)=1θE\left(-\frac{T}{n}\right)=\frac{1}{\theta}和E(1−nT)=θE(1−nT)=θE\left(\frac{1-n}{T}\right)=\theta直接给我1的UMVUE1θ1θ\frac{1}{\theta}和θθ\theta。 现在,当θ&gt;1θ&gt;1\theta>1我们有θ1+θ=(1+1θ)−1=1−1θ+1θ2−1θ3+⋯θ1+θ=(1+1θ)−1=1−1θ+1θ2−1θ3+⋯\frac{\theta}{1+\theta}=\left(1+\frac{1}{\theta}\right)^{-1}=1-\frac{1}{\theta}+\frac{1}{\theta^2}-\frac{1}{\theta^3}+\cdots。 我绝对可以得到1的UMVUE1θ,1θ2,1θ31θ,1θ2,1θ3\frac{1}{\theta},\frac{1}{\theta^2},\frac{1}{\theta^3}等。所以结合这些UMVUE是我能得到所需的UMVUEθ1+θθ1+θ\frac{\theta}{1+\theta}。此方法有效吗?还是我应该继续第一种方法?由于UMVUE存在时是唯一的,因此两者都应给我相同的答案。 明确地说,我得到E(1+Tn+T2n(n+1)+T3n(n+1)(n+2)+⋯)=1−1θ+1θ2−1θ3+⋯E(1+Tn+T2n(n+1)+T3n(n+1)(n+2)+⋯)=1−1θ+1θ2−1θ3+⋯E\left(1+\frac{T}{n}+\frac{T^2}{n(n+1)}+\frac{T^3}{n(n+1)(n+2)}+\cdots\right)=1-\frac{1}{\theta}+\frac{1}{\theta^2}-\frac{1}{\theta^3}+\cdots 即,E(∑r=0∞Trn(n+1)...(n+r−1))=θ1+θE(∑r=0∞Trn(n+1)...(n+r−1))=θ1+θE\left(\sum_{r=0}^\infty \frac{T^r}{n(n+1)...(n+r-1)}\right)=\frac{\theta}{1+\theta} 有没有可能是我需要的是UMVUE ∑r=0∞Trn(n+1)...(n+r−1)∑r=0∞Trn(n+1)...(n+r−1)\displaystyle\sum_{r=0}^\infty \frac{T^r}{n(n+1)...(n+r-1)}当θ&gt;1θ&gt;1\theta>1? 为0&lt;θ&lt;10&lt;θ&lt;10<\theta<1,我会得到g(θ)=θ(1+θ+θ2+⋯)g(θ)=θ(1+θ+θ2+⋯)g(\theta)=\theta(1+\theta+\theta^2+\cdots),因此将UMVUE不同。 已经确信的是,在第一种方法的条件期望值不能直接找到,因为E(X1∣∑lnXi=t)=E(X1∣∏Xi=et)E(X1∣∑ln⁡Xi=t)=E(X1∣∏Xi=et)E(X_1\mid \sum\ln X_i=t)=E(X_1\mid \prod X_i=e^t),我已经着手寻找条件分布X1∣∏XiX1∣∏XiX_1\mid \prod X_i。为此,我需要(X1,∏Xi)(X1,∏Xi)(X_1,\prod X_i)的联合密度。 我用了变数(X1,⋯,Xn)→(Y1,⋯,Yn)(X1,⋯,Xn)→(Y1,⋯,Yn)(X_1,\cdots,X_n)\to (Y_1,\cdots,Y_n)使得Yi=∏ij=1XjYi=∏j=1iXjY_i=\prod_{j=1}^i X_j所有i=1,2,⋯,ni=1,2,⋯,ni=1,2,\cdots,n。这导致关节支承的(Y1,⋯,Yn)(Y1,⋯,Yn)(Y_1,\cdots,Y_n)是S={(y1,⋯,yn):0&lt;y1&lt;1,0&lt;yj&lt;yj−1 for j=2,3,⋯,n}S={(y1,⋯,yn):0&lt;y1&lt;1,0&lt;yj&lt;yj−1 for …

2
随机图中三角形数量的分布和方差
考虑一个Erdos-Renyi随机图G=(V(n),E(p))G=(V(n),E(p))G=(V(n),E(p))。该组nnn顶点VVV由标V={1,2,…,n}V={1,2,…,n}V = \{1,2,\ldots,n\}。边缘的集合EEE通过随机过程构造。 让ppp是一个概率0&lt;p&lt;10&lt;p&lt;10<p<1,则每个二元集合{i,j}{i,j}\{i,j\}顶点(i≠ji≠ji \neq j)发生在边缘EEE以概率ppp,独立于其它对。 GGG中的三角形是不同顶点的无序三元组{i,j,k}{i,j,k}\{i,j,k\},因此{i,j}{i,j}\{i,j\},{j,k}{j,k}\{j,k\}和{k,i}{k,i}\{k,i\}是中的边GGG。 可能的三角形最大数量为。将随机变量定义为图观察到的三角形数。(n3)(n3)\binom{n}{3}XXXGGG 同时存在三个链接的概率为p3p3p^3。因此,X的期望值XXX由E(X)=(n3)p3E(X)=(n3)p3E(X) = \binom{n}{3} p^3。天真的,人们可能会猜测方差由E(X2)=(n3)p3(1−p3)E(X2)=(n3)p3(1−p3)E(X^2) =\binom{n}{3} p^3 (1-p^3),但事实并非如此。 下面的Mathematica代码模拟了该问题: n=50; p=0.6; t=100; myCounts=Table[Length[FindCycle[RandomGraph[BernoulliGraphDistribution[n,p]],3,All]],{tt,1,t}]; N[Mean[myCounts]] // 4216. &gt; similar to expected mean Binomial[n,3]p^3 // 4233.6 N[StandardDeviation[myCounts]] // 262.078 &gt; not similar to "expected" std Sqrt[Binomial[n,3](p^3)(1-p^3)] // 57.612 Histogram[myCounts] X的方差是XXX多少?

1
从成对的边际分布获得联合分布
假设我们有3个随机变量,并且我们知道成对的边际分布P (X 1,X 2),P (X 2,X 3),P (X 3,X 1),但是我们什么都不知道(例如条件独立)。我们可以得到联合分布P (X 1,X 2,X 3)X1个,X2,X3X1个,X2,X3X_1,X_2,X_3P(X1个,X2), P(X2,X3), P(X3,X1个)P(X1个,X2),P(X2,X3),P(X3,X1个)P(X_1,X_2), P(X_2,X_3), P(X_3,X_1)P(X1个,X2,X3)P(X1个,X2,X3)P(X_1,X_2,X_3)?

2
排序列表上的分布
说我们有一个有序的物品清单 [a, b, c, ... x, y, z, ...] 我正在寻找一个上面的列表中受某些参数alpha控制的发行版系列,以便: 对于alpha = 0,它将第一项的概率分配为1,将其分配给上方,将其余的分配为0。也就是说,如果我们从此列表中进行采样并进行替换,则总会得到a。 随着alpha的增加,我们会按照指数衰减的方式,为列表的其余部分分配越来越高的概率,并遵守列表的顺序。 当alpha = 1时,我们为列表中的所有项目分配相等的概率,因此从列表中进行采样类似于忽略其顺序。 这与几何分布非常相似,但是有一些明显的区别: 在所有自然数上定义了几何分布分布。在上面的例子中,列表的大小是固定的。 没有为alpha = 0定义几何分布。

2
胖手指分布
简短的问题: 是否有胖手指分布?我敢肯定,如果它存在,那么它会有不同的名称。 我不知道如何将其表述为分析函数。您能帮我找到它的现有版本,还是以比大型模拟更干净的方式开始制定它? 它是当给定数字为预期目标时实际命中的数字分布,但是按钮比手指小得多,因此附近的按钮有时是偶然命中的一个按钮。 像这样的分配方式的使用是对手机按键的错误输入。如果我经营一家公司,必须“立即按1”或某样东西,然后按“您按1,是正确的”,那么尽管连续2个胖手指可能会弄乱胖手指的概率,但是他们可以得到相当不错的胖手指概率一些。 (胖手指的远距离距离?胖手指马尔可夫链?) 我想用它来尝试将纠错内置到按键中。我有一些自己的样本,但是手指“脂肪”或手机键盘拓扑的变化不足以使其健壮。 背景和细节: 这是正常的手机键盘布局: 想象一下,我的手指比琴键大得多,因此当我击打5时,我很可能会得到5,但是然后我也有可能会得到2、4、6或8(同样可能),那么获得1,3,7,9(同等可能性)的可能性较小(但不为零),而获得0的可能性很小。 我可以想象,如果我尝试为固定的“手指直径”键入无穷多个5,那么我将获得值的分布。如果我的手指值较小,则分布会改变。如果我尝试打不同的数字,则分布会改变。 实际上,这将取决于键的布局。如果它们处在一个巨大的环中而不是一个3x3的网格中,那将是另一种问题。在这种情况下,我希望我们只处理3x3矩形网格。我还怀疑键盘上有数字锁存器,因此只能检测到一次按键。其他按钮最多有7个频率,例如按下“ 0”时。我不确定采用哪种干净的方法。可能是目标密钥和候选触发密钥之间的归一化平方距离的倍数? 这是我如何模拟按下五个按钮时的分布(权重有些随意): #number of presses npress &lt;- 1000 #hack this (not quadratic) myprobs &lt;- c(0.85) myprobs &lt;- c(myprobs, 0.1275/4, 0.1275/4, 0.1275/4, 0.1275/4) myprobs &lt;- c(myprobs, 0.019125/4, 0.019125/4, 0.019125/4, 0.019125/4) myprobs &lt;- c(myprobs,1-sum(myprobs) ) #order of number my_button &lt;- …

3
Dirac的delta函数是否应被视为高斯分布的子类?
在Wikidata中,可以将本体中的概率分布(像其他所有事物一样)联系起来,例如,t分布是非中心t分布的子类,请参见,例如, https://angryloki.github.io/wikidata-graph-builder/?property=P279&amp;item=Q209675&amp;iterations=3&amp;limit=3 存在多种限制情况,例如,当t分布中的自由度变为无穷大时,或者当正态分布(高斯分布)的方差接近零时。在后一种情况下,分布将​​趋向于Dirac的delta函数。 我注意到,在英语Wikipedia上,方差参数当前被表示为大于零,因此严格解释下,人们不会说Dirac的delta函数是正态分布的子类。但是,对我来说似乎还可以,因为我要说指数分布是狄拉克三角函数的超类。 说明Dirac的delta函数是高斯分布的子类是否有问题?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.