Questions tagged «distributions»

分布是概率或频率的数学描述。


3
与Kullback-Leibler散度相比,Wasserstein度量标准有什么优势?
Wasserstein度量和Kullback-Leibler散度之间的实际区别是什么?Wasserstein度量标准也称为推土机距离。 从维基百科: Wasserstein(或Vaserstein)度量是在给定度量空间M上的概率分布之间定义的距离函数。 和 Kullback-Leibler散度是一种概率分布与第二个预期概率分布之间的差异的度量。 我已经看到KL被用于机器学习实现中,但是最近我遇到了Wasserstein指标。关于何时使用一种或另一种有很好的指南吗? (我的信誉不足,无法使用Wasserstein或创建新标签Earth mover's distance。)


2
负二项分布的连续推广
负二项式(NB)分布是在非负整数上定义的,并且具有概率质量函数f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)={\binom {k+r-1}{k}}p^{k}(1-p)^{r}.是否有意义考虑对非负实数的连续分布由相同的公式定义(替换ķ ∈ Ñ0ķ∈ñ0k\in \mathbb N_0通过X ∈ ř≥ 0X∈[R≥0x\in\mathbb R_{\ge 0})?可以将二项式系数重写为(k + 1)\ cdot \ ldots \ cdot(k + r-1)的乘积,该乘积(k + 1 )⋅ … ⋅ (k + r − 1 )(ķ+1个)⋅…⋅(ķ+[R-1个)(k+1)\cdot\ldots\cdot(k+r-1)对于任何实数k都是定义明确的ķķk。因此,我们将得到一个PDF F(X ; - [R ,p )α Π我= 1r − 1(X + 我)⋅ pX(1 − p )[R。F(X;[R,p)∝∏一世=1个[R-1个(X+一世)⋅pX(1个-p)[R。f(x;r,p)\propto\prod_{i=1}^{r-1}(x+i)\cdot p^{x}(1-p)^{r}. 更一般而言,我们可以用Gamma函数替换二项式系数,从而允许r的非整数值[R[Rr: F(X …

1
半柯西分布的性质是什么?
我目前正在研究一个问题,我需要为状态空间模型开发马尔可夫链蒙特卡罗(MCMC)算法。 为了能够解决该问题,我给了以下概率:p()= 2I( > 0)/(1+)。是的标准偏差。ττ\tauττ\tauττ\tauτ2τ2\tau^2ττ\tauxxx 所以现在我知道这是一个半Cauchy分布,因为我从查看示例中就知道了它,并且因为有人告诉我。但是我不完全理解为什么它是一个“半Cauchy”发行版以及附带的属性。 在属性方面,我不确定我想要什么。我对这种计量经济学理论还很陌生。因此,对我而言,更多的是了解分布以及如何在状态空间模型上下文中使用它。模型本身看起来像这样: ytxt+1at+1p(σ2)p(τ)=xt+et=xt+at + 1∼ N(0 ,τ2)∝ 1 /σ2=2I(τ> 0)π(1 + τ2)yŤ=XŤ+ËŤXŤ+1个=XŤ+一种Ť+1个一种Ť+1个〜 ñ(0,τ2)p(σ2)∝1个/σ2p(τ)=2一世(τ>0)π(1个+τ2)\begin{align} y_t &= x_t + e_t \\ x_{t+1} &= x_t + a_{t+1} \\[10pt] a_{t+1} &\sim ~ N(0, \tau^2) \\ p(\sigma^2) &\propto 1/\sigma^2 \\[3pt] p(\tau) &= \frac{2I(\tau>0)}{\pi(1+\tau^2)} \end{align} 编辑:我在p()中包含。感谢您指出这一点。ππ\piττ\tau

3
偏态分布的异常值检测
根据离群点的经典定义,即数据点位于上四分位数或下四分位数的1.5 * IQR范围之外,假设存在非偏态分布。对于偏斜分布(指数分布,泊松分布,几何分布等),通过分析原始函数的变换是否是检测异常值的最佳方法? 例如,松散地由指数分布控制的分布,可以使用对数函数进行转换-在什么时候可以基于相同的IQR定义查找异常值?

1
多项式(1 / n,…,1 / n)可以表征为离散Dirichlet(1,..,1)吗?
所以这个问题有点混乱,但是我将提供彩色图表来弥补这一点!首先是背景,然后是问题。 背景 假设您有维多项式分布,并且在类别上的Probailites相等。令是该分布的归一化计数(),即:nnnnnnπ=(π1,…,πn)π=(π1,…,πn)\pi = (\pi_1, \ldots, \pi_n)ccc (c1,…,cn)∼Multinomial(1/n,…,1/n)πi=cin(c1,…,cn)∼Multinomial(1/n,…,1/n)πi=cin(c_1, \ldots, c_n) \sim \text{Multinomial}(1/n, \ldots, 1/n) \\ \pi_i = {c_i \over n} 现在上的分布已支持n -simplex,但具有离散步骤。例如,对于n = 3,此分布具有以下支持(红点):ππ\pinnnn=3n=3n = 3 具有类似支持的另一个分布是维分布,即单位单纯形上的均匀分布。例如,这是一个3维 1,1,1)的随机抽奖:狄利克雷(1 ,... ,1 )狄利克雷(1 ,1 ,1 )nnnDirichlet(1,…,1)Dirichlet(1,…,1)\text{Dirichlet}(1, \ldots, 1)Dirichlet(1,1,1)Dirichlet(1,1,1)\text{Dirichlet}(1, 1, 1) 现在我有了一个想法,即分布中的分布可以被描述为来自离散化为的离散支持。我想到的离散化(似乎很好用)是将单纯形中的每个点取整并“舍入”到支持的最接近点。对于3维单纯形,您将获得以下分区,其中每个有色区域中的点应“舍入”到最接近的红点:ππ\piMultinomial(1/n,…,1/n)Multinomial(1/n,…,1/n)\text{Multinomial}(1/n, \ldots, 1/n)Dirichlet(1,…,1)Dirichlet(1,…,1)\text{Dirichlet}(1, \ldots, 1)ππ\piππ\pi 由于狄利克雷分布是均匀的,因此每个点的最终密度/概率与“四舍五入”到每个点的面积/体积成比例。对于二维和三维情况,这些概率为: (这些概率来自蒙特卡洛模拟) 这样看来,至少对于2维和3维,以这种特殊方式离散化所得到的概率分布与的概率分布相同。那就是分布的标准化结果。我也尝试过使用4维,并且似乎可以使用。Dirichlet(1,…,1)Dirichlet(1,…,1)\text{Dirichlet}(1, \ldots, 1)ππ\piMultinomial(1/n,…,1/n)Multinomial(1/n,…,1/n)\text{Multinomial}(1/n, \ldots, 1/n) …

3
此发行版有名称吗?
今天我想到,分布 可以看作是高斯和拉普拉斯之间的折衷分布,对于和这样的分布有名称吗?它是否有一个标准化常数的表达式?结石树桩我,因为我不知道如何甚至开始求解在积分 1 = c ^ ·&∫ ∞ - ∞ EXP ( - | X - μ | pX∈[R ,p∈[1,2]β>0Çf(x)∝exp( - |x−μ|pβ)f(x)∝exp⁡(-|X-μ|pβ) f(x)\propto\exp\left(-\frac{|x-\mu|^p}{\beta}\right) x∈R,p∈[1,2]x∈R,p∈[1,2]x\in\mathbb{R}, p\in[1,2]β>0.β>0.\beta>0.CCC1=C⋅∫∞−∞exp(−|x−μ|pβ)dx1=C⋅∫−∞∞exp⁡(−|x−μ|pβ)dX 1=C\cdot \int_{-\infty}^\infty \exp\left(-\frac{|x-\mu|^p}{\beta}\right) dx

2
两个iid对数正态随机变量的差
令和为2个iidrv,其中。我想知道的分布。X 2日志(X 1),日志(X 2)〜Ñ (μ ,σ )X 1 - X 2X1X1X_1X2X2X_2log(X1),log(X2)∼N(μ,σ)log⁡(X1),log⁡(X2)∼N(μ,σ)\log(X_1),\log(X_2) \sim N(\mu,\sigma)X1−X2X1−X2X_1 - X_2 我所能做的最好是将二者的泰勒级数取整,得出的差值是两个法线rv和两个卡方rv的差之和,以及其余各项之间的差。是否有更直接的方法来获取2个iid对数正态rv之间的差异的分布?

3
学生t作为高斯的混合
使用自由度k>0k>0k > 0,位置参数和比例参数的学生t分布密度 l lllsss Γ(k+12)Γ(k2kπs2−−−−√){1+k−1(x−ls)}−(k+1)/2,Γ(k+12)Γ(k2kπs2){1+k−1(x−ls)}−(k+1)/2,\frac{\Gamma \left(\frac{k+1}{2}\right)}{\Gamma\left(\frac{k}{2}\sqrt{k \pi s^2}\right)} \left\{ 1 + k^{-1}\left( \frac{x-l}{s}\right)\right\}^{-(k+1)/2}, 如何显示,学生ttt -配送可以通过让写为高斯分布的混合X∼N(μ,σ2)X∼N(μ,σ2)X\sim N(\mu,\sigma^2),τ=1/σ2∼Γ(α,β)τ=1/σ2∼Γ(α,β)\tau = 1/\sigma^2\sim\Gamma(\alpha,\beta)和集成的联合密度f(x,τ|μ)f(x,τ|μ)f(x,\tau|\mu)得到边际密度f(x|μ)f(x|μ)f(x|\mu)?得到的t的参数是什么ttt分布,作为?的函数μ,α,βμ,α,β\mu,\alpha,\beta 通过将联合条件密度与Gamma分布相结合,我迷失了微积分。

4
如何计算R中的累积分布?
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我需要计算数据样本的累积分布函数。 R中是否有类似于hist()的东西来测量累积密度函数? 我尝试过ecdf(),但我听不懂逻辑。
23 r  distributions  cdf 

4
如何判断我的数据分布是否对称?
我知道,如果中位数和均值近似相等,则意味着存在对称分布,但在这种情况下我不确定。均值和中位数非常接近(只有0.487m / all差),这使我说有一个对称分布,但从箱线图中可以看出,它似乎正偏斜(经确认,中位数比Q3靠近Q1按值)。 (如果您对此软件有任何具体建议,我正在使用Minitab。)

3
最大熵分布的统计解释
我使用最大熵的原理来证明在各种环境下使用多个分布是合理的。但是,相对于信息论,我还不能对最大熵进行统计解释。换句话说,最大化熵意味着分布的统计特性是什么? 有没有人遇到过或者可能发现自己对max的统计解释。熵分布不吸引信息,而只吸引概率概念吗? 作为这种解释的一个例子(不一定是正确的):“对于RV域上任意长度L的间隔(为简单起见,假设其1-d为连续的),可以最小化此间隔中包含的最大概率通过最大熵分布。” 因此,您会看到没有谈论“信息性”或其他更具哲学性的想法,而只是谈论概率问题。



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.