Questions tagged «distributions»

分布是概率或频率的数学描述。

1
随机重叠间隔
如何在以下问题中找到解析表达式?D(n,l,L)D(n,l,L)D(n,l,L) 我将长度为 “小节” 随机放入间隔。“条”可以重叠。我想找到间隔的平均总长度,该平均长度至少被一个“小节”占据。nnnlll[0,L][0,L][0,L]DDD[0,L][0,L][0,L] 在“低密度”限制中,重叠应该可以忽略,并且。在“高密度”的限制,接近。但是如何获得的一般表达式?那应该是一个非常基本的统计问题,但是我在论坛上找不到解释性的解决方案。D=n⋅lD=n⋅lD = n\cdot lDDDLLLDDD 任何帮助将不胜感激。 请注意,这些小节彼此之间是真正随机(统计独立)的。


1
我们是否可以始终根据任意分布和对称分布的组成来重写右偏分布?
考虑一个二次可微和对称分布。现在考虑第二个两次可微分布偏斜,其含义是:FXFX\mathcal{F}_XFZFZ\mathcal{F}_Z (1)FX⪯cFZ.(1)FX⪯cFZ.(1)\quad\mathcal{F}_X\preceq_c\mathcal{F}_Z. 其中⪯c⪯c\preceq_c是van Zwet [0]的凸序,因此(1)(1)(1)等效于: (2)F−1ZFX(x) is convex ∀x∈R.(2)FZ−1FX(x) is convex ∀x∈R.(2)\quad F^{-1}_ZF_X(x)\text{ is convex $\forall x\in\mathbb{R}.$} 现在考虑满足以下条件的第三个两次可微分布:FYFY\mathcal{F}_Y (3)FY⪯cFZ.(3)FY⪯cFZ.(3)\quad\mathcal{F}_Y\preceq_c\mathcal{F}_Z. 我的问题是:我们总能找到一个分配和对称分布重写任何 中的一个组成方面(如上定义的所有三种)和 为:FYFY\mathcal{F}_YFXFX\mathcal{F}_XFZFZ\mathcal{F}_ZFXFX\mathcal{F}_XFYFY\mathcal{F}_Y FZ(z)=FYF−1XFY(z)FZ(z)=FYFX−1FY(z)F_Z(z)=F_YF_X^{-1}F_Y(z) 或不? 编辑: 例如,如果是形状参数为3.602349的Weibull(因此它是对称的),而是形状参数为3/2的Weibull分布(因此它是右偏),我懂了F ZFXFX\mathcal{F}_XFZFZ\mathcal{F}_Z maxz|FZ(z)−FYF−1XFY(z)|≈0maxz|FZ(z)−FYFX−1FY(z)|≈0\max_z|F_Z(z)-F_YF_X^{-1}F_Y(z)|\approx 0 通过将为形状参数为2.324553的Weibull分布。请注意,所有三个分布均满足:FYFY\mathcal{F}_Y F−X=FX⪯cFY⪯cFZ,F−X=FX⪯cFY⪯cFZ,\mathcal{F}_{-X}=\mathcal{F}_X\preceq_c\mathcal{F}_Y\preceq_c\mathcal{F}_Z, 根据需要。我不知道这总体上是正确的(在所述条件下)。 [0] van Zwet,WR(1979)。平均值,中位数,模式II(1979)。Statistica Neerlandica。第33卷,第1期,第1--5页。

4
从中提取without时,其概率分布是否会发生变化,而无需平均替换?
假设我的骨灰盒包含N种不同颜色的球,每种颜色可以出现不同的次数(如果有10个红色球,那么也不必有10个蓝色球)。如果在绘制之前知道know的确切内容,我们可以形成离散的概率分布,该分布告诉我们绘制每种颜色的球的概率。我想知道的是,平均没有从骨灰盒上取下k个球后,分布如何变化。我了解到,随着我们从骨灰盒中提取物品,我们可以根据已取出的知识更新分布,但是我想知道的是,在移除k个球之后,我们期望分布的形状是什么。分布是平均变化还是保持不变?如果不保持相同,是否可以写出一些公式,以便在进行k次绘制后,我们期望新分布的平均外观如何?


2
仍然是同一族的两个随机非法线的线性组合
众所周知,两个随机正态变量的线性组合也是一个随机正态变量。是否有任何共同的非正态分布族(例如Weibull)也共享此属性?似乎有许多反例。例如,制服的线性组合通常不是均匀的。特别是,是否存在以下两个都成立的非正态分布族: 来自该族的两个随机变量的线性组合等效于该族中的某些分布。 可以根据原始参数和线性组合中的常数来确定结果参数。 我对这种线性组合特别感兴趣: Y=X1⋅w+X2⋅(1−w2)−−−−−−−√Y=X1⋅w+X2⋅(1−w2)Y = X_1 \cdot w + X_2 \cdot \sqrt{(1-w^2)} 其中和是从某个具有参数和非正常族中采样的,而来自同一个具有参数非正规族。X 2 θ 1 θ 2 Ŷ θ Ý = ˚F (θ 1,θ 2,瓦特)X1X1X_1X2X2X_2θ1θ1\theta_1θ2θ2\theta_2YYYθY=f(θ1,θ2,w)θY=f(θ1,θ2,w)\theta_Y = f(\theta_1, \theta_2, w) 为了简单起见,我将描述一个带有1个参数的发布系列,但是我愿意接受带有多个参数的发布系列。 另外,我正在寻找一个示例,其中和上有足够的参数空间可用于模拟目的。如果您只能找到一个适用于某些非常特定的和的示例,那将没有太大帮助。θ 2 θ 1 θ 2θ1θ1\theta_1θ2θ2\theta_2θ1θ1\theta_1θ2θ2\theta_2

2
回归结果具有意外的上限
我尝试预测平衡得分,并尝试了几种不同的回归方法。我注意到的一件事是,预测值似乎具有某种上限。也就是说,实际余额为,但我的预测顶部约0.8。下图显示了实际余额与预测余额(通过线性回归预测):[ 0.0 ,1.0 )[0.0,1.0)[0.0, 1.0)0.80.80.8 这是相同数据的两个分布图: 由于我的预测变量非常偏斜(具有幂律分布的用户数据),因此我应用了Box-Cox转换,将结果更改为以下内容: 尽管它改变了预测的分布,但仍然存在上限。所以我的问题是: 预测结果出现上限的可能原因是什么? 如何确定与实际值的分布相对应的预测? 奖励:由于Box-Cox转换后的分布似乎遵循转换后的预测变量的分布,因此这可能直接相关吗?如果是这样,我是否可以应用一种转换以使分布适合实际值? 编辑:我使用了5个预测变量的简单线性回归。

1
如果是独立Beta,则显示也是beta
这是几年前在我们大学进行的学期考试中遇到的一个问题,我正在努力解决。 如果X1,X2X1,X2X_1,X_2是密度分别为\ beta(n_1,n_2)和\ beta(n_1 + \ dfrac {1} {2},n_2)的独立ββ\beta随机变量,则表明\ sqrt {X_1X_2}遵循\ beta(2n_1, 2n_2)。β(n1个,n2)β(ñ1个,ñ2)\beta(n_1,n_2)β(n1个+ 12,n2)β(ñ1个+1个2,ñ2)\beta(n_1+\dfrac{1}{2},n_2)X1个X2-----√X1个X2\sqrt{X_1X_2}β(2 n1个,2 n2)β(2ñ1个,2ñ2)\beta(2n_1,2n_2) 我使用Jacobian方法获得Y = \ sqrt {X_1X_2}的密度ÿ= X1个X2-----√ÿ=X1个X2Y=\sqrt{X_1X_2}如下: Fÿ(y)= 4 ÿ2 n1个乙(Ñ1个,n2)B (n1个+ 12,n2)∫1个ÿ1个X2(1 − x2)ñ2− 1(1 − y2X2)ñ2− 1dXFÿ(ÿ)=4ÿ2ñ1个乙(ñ1个,ñ2)乙(ñ1个+1个2,ñ2)∫ÿ1个1个X2(1个-X2)ñ2-1个(1个-ÿ2X2)ñ2-1个dXf_Y(y)=\dfrac{4y^{2n_1}}{B(n_1,n_2)B(n_1+\dfrac{1}{2},n_2)}\int_y^1\dfrac{1}{x^2}(1-x^2)^{n_2-1}(1-\dfrac{y^2}{x^2})^{n_2-1}dx 我实际上在这一点上迷路了。现在,在主文件中,我发现已经提供了提示。我尝试使用提示,但无法获得所需的表达式。提示逐字记录如下: 提示:根据给定的X_1和X_2密度,得出Y = \ sqrt {X_1X_2}的密度公式,并尝试使用z = \ dfrac {y ^ 2} {x}的变量更改。ÿ= X1个X2-----√ÿ=X1个X2Y=\sqrt{X_1X_2}X1个X1个X_1X2X2X_2ž= y2Xž=ÿ2Xz=\dfrac{y^2}{x} 因此,在这一点上,我尝试通过考虑变量的这种变化来利用此提示。因此我得到Fÿ(y)= …

1
如何计算似然函数
3个电子元件的使用寿命是 X1个= 3 ,X2= 1.5 ,X1个=3,X2=1.5,X_{1} = 3, X_{2} = 1.5, 和 X3= 2.1X3=2.1X_{3} = 2.1。根据参数的指数分布,已将随机变量建模为大小为3的随机样本θθ\theta。似然函数为θ > 0θ>0\theta > 0 F3(x | θ )=θ3È X p (- 6.6 θ )F3(X|θ)=θ3ËXp(-6.6θ)f_{3}(x|\theta) = \theta^{3} exp(-6.6\theta),在哪里 X = (2 ,1.5 ,2.1 )X=(2,1.5,2.1)x = (2, 1.5, 2.1)。 然后问题继续进行,通过找到的值确定MLE。 θθ\theta 最大化 升Ò 克F3(x | θ …

2
混合分布的CDF逆采样
上下文外的简短版本 令为CDF yyyF(⋅)≡{θθ+(1−θ)×CDFlog-normal(⋅;μ,σ) y = 0 y > 0F(⋅)≡{θ y = 0 θ+(1−θ)×CDFlog-normal(⋅;μ,σ) y > 0 F(\cdot) \equiv \cases{\theta & y = 0 \\ \theta + (1-\theta) \times \text{CDF}_{\text{log-normal}}(\cdot; \mu, \sigma) & y > 0} 假设我想使用反CDF方法模拟绘制。那可能吗?此函数不完全具有逆函数。然后再次有两个正态分布的混合分布的逆变换采样,这表明这里有一种已知的方法可以应用逆变换采样。yyy 我知道两步法,但是我不知道如何将其应用于我的情况(请参见下文)。 带背景的长版 我使用MCMC(特别是Stan)为向量值响应拟合了以下模型:yi=(y1,…,yK)iyi=(y1,…,yK)iy^i = \left( y_1 , \dots , y_K \right)^i θik≡logit−1(αkxi),μik≡βkxi−σ2k2F(⋅)≡{θθ+(1−θ)×CDFlog-normal(⋅;μ,σ) y = …

4
当您不知道分布时如何采样
我是统计学的新手(一些初学者的Uni课程),并且想知道是否从未知分布中进行采样。具体来说,如果您不了解基本分布,是否有任何方法可以“保证”获得代表性样本? 举例说明:假设您试图弄清楚财富的全球分布。对于任何给定的个人,您都可以以某种方式找出他们的确切财富;但您无法“采样”地球上的每个人。因此,假设您随机抽样了n = 1000个人。 如果您的样本中不包括比尔·盖茨,您可能会认为不存在亿万富翁。 如果您的样本确实包括比尔·盖茨,您可能会认为亿万富翁比他们实际更为普遍。 无论哪种情况,您都无法真正分辨出亿万富翁的普通或罕见。您甚至可能根本无法判断是否存在任何内容。 对于这种情况,是否存在更好的采样机制? 您如何告诉先验使用哪种采样程序(以及需要多少个样本)? 在我看来,您可能必须“抽样”大量人口,以某种合理的确定性来了解地球上有多少普通或稀有的亿万富翁,这是由于基本的分布有点困难跟...共事。

1
使用哪种分布来模拟网页阅读时间?
我有一个函数可以返回Web用户的平均等待时间。即,给定了以字为单位的网络资源长度,它给出了普通用户可以停留在网页上的平均时间。我想结合使用此功能(以及得到的平均值)和分布来对浏览网络的“平均网络用户”进行建模。哪种发行版本可能适合此操作,为什么? 编辑:我也特别想知道为此目的使用指数分布的可行性。 谢谢

3
如果,
假定设置如下: 令Zi=min{ki,Xi},i=1,...,nZi=min{ki,Xi},i=1,...,nZ_i = \min\{k_i, X_i\}, i=1,...,n。还有Xi∼U[ai,bi],ai,bi>0Xi∼U[ai,bi],ai,bi>0X_i \sim U[a_i, b_i], \; a_i, b_i >0。而且ki=cai+(1−c)bi,0<c<1ki=cai+(1−c)bi,0<c<1k_i = ca_i + (1-c)b_i,\;\; 0 k_i) = 1- \Pr(X_i \le k_i) =1−ki−aibi−ai=1−(1−c)(bi−ai)bi−ai=c=1−ki−aibi−ai=1−(1−c)(bi−ai)bi−ai=c= 1- \frac {k_i - a_i}{b_i-a_i} = 1-\frac {(1-c)(b_i-a_i)}{b_i-a_i} =c 因此,在所有 FZi(zi)=⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪0zi<aizi−aibi−aiai≤zi<ki1ki≤ziFZi(zi)={0zi<aizi−aibi−aiai≤zi<ki1ki≤ziF_{Z_i}(z_i) = \begin{cases} 0\qquad z_i0zi=kizi=kiz_i = k_i 总而言之,它等于现实的统一。 我想能够得出或表示随机变量S_n \ equiv \ sum_ {i = …


1
可以使用引导重采样来计算数据集方差的置信区间吗?
我知道,如果您多次对数据集进行重新采样并每次计算平均值,则这些均值将遵循正态分布(通过CLT)。因此,您可以对数据集的平均值计算置信区间,而无需对数据集的概率分布进行任何假设。 我想知道您是否可以对差异做类似的事情。也就是说,如果我要多次从数据集中重新采样并每次计算方差,那么这些方差会遵循一定的分布吗(不管数据集的原始概率分布是什么)? 我知道,如果原始数据集是正态的,则方差将遵循卡方分布。但是在不正常的情况下该怎么办?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.