Questions tagged «distributions»

分布是概率或频率的数学描述。

1
了解卡方检验和卡方分布
我试图理解卡方检验背后的逻辑。 卡方测试是。χ2然后比较卡方分布,找出一个p.value以拒绝或不零假设。H0:观测值来自我们用来创建期望值的分布。例如,我们可以测试获得概率是否如我们预期的那样由p给出。所以我们翻转100次,发现ñ^ h和1-ñ^ h。我们希望我们的发现比较预期是什么(100⋅p)。我们也可以使用二项式分布,但这不是问题的重点……问题是:χ2=∑(obs−exp)2expχ2=∑(obs−exp)2exp\chi ^2 = \sum \frac{(obs-exp)^2}{exp}χ2χ2\chi ^2H0H0H_0headpppnHnHn_H Heads1−nH1−nH1-n_H tails100⋅p100⋅p100 \cdot p 您能否解释一下为什么在零假设下遵循卡方分布吗?∑(obs−exp)2exp∑(obs−exp)2exp\sum \frac{(obs-exp)^2}{exp} 关于卡方分布,我所知道的是,度的卡方分布是k平方标准正态分布的总和。kkkkkk

2
经验分布替代
赏金: 完整的奖金将颁发给别人谁提供任何发表的论文,它使用或提及的估计参考以下。F~F~\tilde{F} 动机: 本部分对您可能并不重要,我怀疑它不会帮助您获得赏金,但是由于有人问了动机,这就是我正在努力的目标。 我正在研究统计图论问题。标准稠密图限制性目的是在这个意义上的对称函数,w ^ (Û ,v )= w ^ (v ,Ú )。取样在图上Ñ顶点可以被认为是取样Ñ在单位间隔均匀值(û 我为我= 1 ,... ,ÑW:[0,1]2→[0,1]W:[0,1]2→[0,1]W : [0,1]^2 \to [0,1]W(u,v)=W(v,u)W(u,v)=W(v,u)W(u,v) = W(v,u)nnnnnnUiUiU_ii=1,…,ni=1,…,ni = 1, \dots, n),那么边的概率为W (U i,U j)。我们得到的邻接矩阵被称为一个。(i,j)(i,j)(i,j)W(Ui,Uj)W(Ui,Uj)W(U_i, U_j)AAA 我们可以把作为密度˚F = w ^ / ∬ W¯¯假设∬ w ^ > 0。如果我们基于A来估计f,而对f没有任何约束,那么我们将无法获得一致的估计。我发现一个有趣的结果,当f来自一组可能的函数时,不断估计f。从这个估计和Σ 一,我们可以估算w ^。WWWf=W/∬Wf=W/∬Wf = W / \iint W∬W>0∬W>0\iint …

3
聚类概率分布-方法和指标?
我有一些数据点,每个数据点包含5个聚集的离散结果向量,每个向量的结果都是通过不同的分布生成的(具体类型我不确定,我最好的猜测是Weibull,其形状参数在幂次幂附近变化定律(大致为1到0)。) 我正在寻找使用像K-Means这样的聚类算法,根据其5个分量分布的属性将每个数据点分组。我想知道是否有确定的距离度量标准可以很好地满足这些目的。到目前为止,我已经有了三个想法,但是我不是一个经验丰富的统计学家(更多的是一位数据挖掘计算机初学者),所以我几乎不知道自己有多远。 由于我不知道我要处理的是哪种分布,因此我的蛮力解决方法是将每个分布(每个点有5个)切成其各自的离散数据值(I pad)每个值都对应一个相同的长度,并在末尾用零表示),并将这些值中的每个用作数据点本身的单独属性。我尝试基于PDF和CDF的这些属性使用曼哈顿距离和欧几里得距离作为度量。 再一次,由于我不知道我拥有哪种分布,所以我发现,如果要测量总体分布之间的距离,则可以在分布之间使用某种非参数测试对,例如KS检验,以查找给定分布是由不同PDF生成的可能性。我认为,使用曼哈顿距离的第一个选择(以上)将是使用该方法可能获得的一种上限(因为KS统计量是CDF差的最大绝对值,其中曼哈顿距离是PDF差异的绝对值之和)。然后,我考虑了可能使用欧几里得距离,但可能仅取所有这些值中的最大值来组合每个数据点内不同的KS统计量或P值。 最后,为了尽我所能解释的分布形状,我想我可能会尝试估计分布的参数以拟合Weibull曲线。然后,我可以基于Weibull分布的两个参数lambda和k(比例和形状)的差异对分布进行聚类,可能根据这些参数的差异或某种形式进行归一化。这是我认为可能对参数进行标准化的唯一情况。 所以我的问题是,对于集群分布,您会建议什么度量/方法?我甚至在这些方面都走对了吗?K-Means甚至是使用的好算法吗? 编辑:澄清数据。 每个数据点(Obj我要集群的每个对象)实际上都包含5 vectors数据。我知道这些对象可以进入5个阶段。(为简化起见)我们将说每个向量都属于length N。 这些载体(称之为中的每一个vector i)是一个概率分布与整数x-values至N,其中每个对应的y值表示测量的概率1 value x中phase i的对象Obj。那么N是我期望在对象的任何阶段测量的最大x值(在我的分析中,这实际上不是一个固定的数字)。 我通过以下方式确定这些概率: 我拿一个Obj,并把它phase i的k trials,进行测量,在每次试验。每个度量都是一个整数。我对单个对象的5个阶段中的每个阶段都执行此操作,然后依次对每个对象执行此操作。我对单个对象的原始测量数据可能类似于: 向量1。[90、42、30、9、3、4、0、1、0、0、1] 向量2。[150,16,5,0,1,0,0,0,0,0,0] ... 矢量5。[16,... ...,0] 然后,相对于该给定向量中的测量总数,我将每个向量单独归一化。这使我在该载体中,其中每一个对应的y值表示测量的概率的概率分布value x中phase i。



3
图书初学者关于概率分布的建议
我正在学习机器学习,打开的每一本书都碰到卡方分布,伽马函数,t分布,高斯分布等。 到目前为止,我读过的每一本书都只定义了分布:它们并不能解释或给出函数的特定公式从何而来的直觉。 例如,为什么卡方分布是这样?什么是t分布?发行背后的直觉是什么?证明?等等 我想对最常用的分布有一个清晰而基本的了解,以便以后每次看到它们时,我都能真正理解什么是t分布,什么是高斯分布,最重要的是为什么它们如此他们是。 如果书籍/教程可以向外行解释这些概念,这样您就不必了解它们就可以了。x)许多书籍都是这样的,它们不适合初学者:(

4
对相关矩阵特征值分布的直觉/解释?
您对相关矩阵特征值分布的直觉/解释是什么?我倾向于听到通常3个最大特征值最重要,而接近零的特征值则是噪声。另外,我已经看过几篇研究论文,研究自然发生的特征值分布与从随机相关矩阵计算得出的特征值分布有何不同(再次,区分信号中的噪声)。 请随时详细说明您的见解。

1
“绝对连续随机变量”与“连续随机变量”?
在Valentin V. Petrov的《概率论的有限定理》一书中,我看到了分布的定义是“连续的”和“绝对连续的”之间的区别,其定义如下: X P (X ∈ 乙) = 0 乙P (X ∈ 乙) = 0 乙(* )(∗)(*) “ ... 如果实线的任何有限点或可数点的,则随机变量的分布被认为是连续的。如果Lebesgue的所有Borel集的,则绝对是连续的...”XXXP(X∈ 乙) = 0P(X∈乙)=0P\left(X \in B\right)=0乙乙BP(X∈ 乙) = 0P(X∈乙)=0P\left(X \in B\right)=0乙乙B 我熟悉的概念是: (#)(#)(\#) “如果随机变量具有连续的累积分布函数,则它绝对是连续的。” (∗ )(#)我的问题是:我的问题是:\textbf{My questions are:}和关于“绝对连续性”的两个描述是在谈论同一件事吗?如果是,我如何将一种解释翻译成另一种解释?(* )(∗)(*)(#)(#)(\#) 谢谢!


5
XXX和YYY独立地分布的随机变量,其中X∼χ2(n−1)X∼χ(n−1)2X\sim\chi^2_{(n-1)}和Y∼Beta(n2−1,n2−1)Y∼Beta(n2−1,n2−1)Y\sim\text{Beta}\left(\frac{n}{2}-1,\frac{n}{2}-1\right)。Z=(2Y−1)√的分布是什么Z=(2Y−1)X−−√Z=(2Y−1)XZ=(2Y-1)\sqrt X? 联合密度(X,Y)(X,Y)(X,Y)由下式给出 fX,Y(x,y)=fX(x)fY(y)=e−x2xn−12−12n−12Γ(n−12)⋅yn2−2(1−y)n2−2B(n2−1,n2−1)1{x&gt;0,0&lt;y&lt;1}fX,Y(x,y)=fX(x)fY(y)=e−x2xn−12−12n−12Γ(n−12)⋅yn2−2(1−y)n2−2B(n2−1,n2−1)1{x&gt;0,0&lt;y&lt;1}f_{X,Y}(x,y)=f_X(x)f_Y(y)=\frac{e^{-\frac{x}{2}}x^{\frac{n-1}{2}-1}}{2^{\frac{n-1}{2}}\Gamma\left(\frac{n-1}{2}\right)}\cdot\frac{y^{\frac{n}{2}-2}(1-y)^{\frac{n}{2}-2}}{B\left(\frac{n}{2}-1,\frac{n}{2}-1\right)}\mathbf1_{\{x>0\,,\,00\,,\,|z|<w\}} 的边缘PDF 是然后 ˚F Ž(ż )= &Integral; ∞ | z | f Z ,W(z ,w )ZZZ,它不会带我到任何地方。fZ(z)=∫∞|z|fZ,W(z,w)dwfZ(z)=∫|z|∞fZ,W(z,w)dwf_Z(z)=\displaystyle\int_{|z|}^\infty f_{Z,W}(z,w)\,\mathrm{d}w 同样,在找到的分布函数时,出现了不完整的beta /γ函数:ZZZ FZ(z)=Pr(Z≤z)FZ(z)=Pr(Z≤z)F_Z(z)=\Pr(Z\le z) =Pr((2Y−1)X−−√≤z)=∬(2y−1)x√≤zfX,Y(x,y)dxdy=Pr((2Y−1)X≤z)=∬(2y−1)x≤zfX,Y(x,y)dxdy\quad\qquad=\Pr((2Y-1)\sqrt X\le z)=\displaystyle\iint_{(2y-1)\sqrt{x}\le z}f_{X,Y}(x,y)\,\mathrm{d}x\,\mathrm{d}y 这里变量的适当变化是什么?还有另一种方法可以找到的分布吗?ZZZ 我尝试使用Chi-Squared,Beta,“ F”和“ t”分布之间的不同关系,但似乎无济于事。也许我缺少明显的东西。 如@Francis所述,此转换是Box-Müller转换的概括。

2
构造示例显示
如何构造一个E(1X)=1E(X)E(1X)=1E(X)\mathbb{E}\left(\frac{1}{X}\right)=\frac{1}{\mathbb{E}(X)}假设P(X≠0)=1P(X≠0)=1\mathbb{P}(X\ne0)=1? E(X )成立。 从Jensen不等式得出的正值RV XXX的不等式类似于E(1X)≥1E(X)E(1X)≥1E(X)\mathbb{E}\left(\frac{1}{X}\right)\ge\frac{1}{\mathbb{E}(X)}(如果X&lt;0X&lt;0X<0则为反向不等式)。这是因为该映射x↦1xx↦1xx\mapsto\frac{1}{x}对于x&gt;0x&gt;0x>0是凸的,对于x&lt;0x&lt;0x<0凹的。遵循詹森不等式中的等式条件,我猜想分布必须退化才能保持所需的等式。如果X=1X=1X=1ae,则等式成立的一个简单情况当然是在问题书中找到的一个示例:考虑一个离散随机变量XXX,使得P(X=−1)=19,P(X=12)=P(X=2)=49P(X=−1)=19,P(X=12)=P(X=2)=49\mathbb{P}(X=-1)=\frac{1}{9}, \mathbb{P}(X=\frac{1}{2})=\mathbb{P}(X=2)=\frac{4}{9}。然后可以很容易地验证E(1X)=1E(X)=1E(1X)=1E(X)=1\mathbb{E}\left(\frac{1}{X}\right)=\frac{1}{\mathbb{E}(X)}=1。 此示例表明,XXX不必为正(或负)ae即可保持标题中的相等。这里的分布也不退化。 我如何构造一个示例,可能就像我在书中找到的那样?有动力吗?

1
可以从概念上理解pareto / nbd模型吗?
我正在学习使用BTYD程序包,该程序使用Pareto / NBD模型来预测何时将有客户返回。但是,有关该模型的所有文献都充斥着数学,并且似乎没有对该模型的工作原理进行简单/概念性的解释。是否可以为非数学家理解Pareto / NBD模型?我读完了Fader的那篇著名论文。Pareto / NBD模型进行以下假设: 一世。当处于活动状态时,客户在长度为t的时间段内进行的交易数量将以交易率λ进行泊松分布。 ii。客户之间交易率的异质性遵循具有形状参数r和比例参数α的伽马分布。 iii。每个客户都有一个长度τ的不可观察的“寿命”。客户处于非活动状态的这一点以辍学率µ呈指数分布。 iv)客户之间的辍学率异质性遵循形状参数为s和比例参数为β的伽玛分布。 v。交易率λ和退出率μ随客户而独立变化。” 我不理解假设(ii),(iii)和(iv)的(直觉)原理。为什么只分配这些分布,为什么不分配其他分布? BG / NBD模型的假设还包括: i。)在激活时,客户进行的交易数量遵循Poisson流程,交易率为λ。这等效于假设事务之间的时间以事务速率λ呈指数分布 ii)λ中的异质性遵循伽马分布 iii)进行任何交易后,客户以概率p变得不活跃。因此,根据pmf的(移位)几何分布,客户在各个交易中分布的“退出”点 iv)p中的异质性遵循beta分布 假设(ii),(iii)和(iv)的(直观)合理性也不是很明显。 我将不胜感激。谢谢。

6
是否存在我们无法抽样的单变量分布?
从单变量分布(逆变换,接受拒绝,Metropolis-Hastings等)中,我们有各种各样的随机生成方法,似乎我们可以从任何有效分布中采样-是这样吗? 您能否提供无法随机生成的单变量分布示例?我想这个不可能的例子不存在(?),所以说“不可能”是指计算量非常大的情况,例如,需要蛮力模拟,例如绘制大量样本以仅接受他们很少。 如果不存在这样的示例,我们是否可以实际证明可以从任何有效分布中生成随机抽奖?我只是很好奇是否存在反例。


1
标准正态随机变量的平方的Pdf [关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 4年前关闭。 我有这个问题,我必须找到的pdf Y=X2Y=X2Y = X^2。所有我知道的是,XXX具有分布N(0,1)N(0,1)N(0,1)。是什么分布Y=X2Y=X2Y = X^2?与相同XXX吗?我如何找到pdf文件?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.