Questions tagged «distributions»

分布是概率或频率的数学描述。



1
MLE与拟合概率分布中的最小二乘
根据我读过的几篇论文,书籍和文章,给我的印象是,将概率分布拟合到一组数据上的推荐方法是使用最大似然估计(MLE)。但是,作为物理学家,一种更直观的方法是仅使用最小二乘法将模型的pdf与数据的经验pdf拟合。那么为什么MLE在拟合概率分布上比最小二乘更好?有人可以指出我要回答该问题的科学论文/书吗? 我的直觉是因为MLE没有假定噪声模型,而经验pdf中的“噪声”是异方差的,不是正常的。

2
描述负二项式分布变量之间差异的分布?
一个Skellam分布描述了具有泊松分布的两个变量之间的区别。是否存在类似的分布来描述遵循负二项式分布的变量之间的差异? 我的数据是通过泊松过程生成的,但包含大量噪声,导致分布的过度分散。因此,使用负二项式(NB)分布对数据建模非常有效。如果要对这两个NB数据集之间的差异进行建模,我有哪些选择?如果有帮助,则假设两组的均值和方差相似。

3
根据预期分布测试随机生成的数据
我写了一个程序,可以生成随机数据。如果程序正常运行,则该数据应遵循特定的已知概率分布。我想运行该程序,对结果进行一些计算,并得出一个p值。 在其他人说之前:我了解假设检验无法检测程序何时正常运行。它只能以特定方式检测何时无法正确运行。(即使如此,测试还是应该在X%的时间内失败,具体取决于您选择的显着性水平...) 因此,我试图了解哪种工具合适。尤其是: 我可以根据需要生成任意多的随机数据。我要做的就是让程序运行足够长的时间。因此,我不限于任何特定的样本量。 我对产生p值的技术感兴趣。因此,盯着图说“是的,看起来有点线性”并不是一个有趣的选择。除非有某种方法可以将硬数字放在图形的“奇特性”上。;-) 我到目前为止所知道的: 我已经看到提到了三种主要的测试,听起来可能适用:[Pearson]卡方测试,Kolmogorov-Smirnov测试和Anderson-Darling测试。 卡方检验似乎适用于离散分布,而其他两个检验更适合于连续分布。(?) 各种资料表明,AD测试比KS测试“更好”,但是没有进一步详细介绍。 最终,所有这些测试都可能检测出偏离指定零分布的“不同方式”。但是我还真的不知道它们之间的区别是什么...总之,我正在寻找某种一般性的描述,以说明每种类型的测试最适用的位置以及可以最好地检测到哪些类型的问题。

2
来自两个独立的伯努利人口的抽样分布
让我们假设我们有两个独立的伯努利随机变量的样本,乙ë - [R( θ1个)乙Ë[R(θ1个)\mathrm{Ber}(\theta_1)和乙È - [R( θ2)乙Ë[R(θ2)\mathrm{Ber}(\theta_2)。 我们如何证明吗?(X¯1−X¯2)−(θ1−θ2)θ1(1−θ1)n1+θ2(1−θ2)n2−−−−−−−−−−−−−−√→dN(0,1)(X¯1−X¯2)−(θ1−θ2)θ1(1−θ1)n1+θ2(1−θ2)n2→dN(0,1)\frac{(\bar X_1-\bar X_2)-(\theta_1-\theta_2)}{\sqrt{\frac{\theta_1(1-\theta_1)}{n_1}+\frac{\theta_2(1-\theta_2)}{n_2}}}\xrightarrow{d} \mathcal N(0,1) 假设。n1≠n2n1≠n2n_1\neq n_2

2
对于什么(对称)分布,样本意味着比样本中位数更有效的估计器?
我一直认为,样本中位数比样本均值对集中趋势的度量更为可靠,因为它忽略了离群值。因此,我很惊讶地得知(在另一个问题中),对于从正态分布中抽取的样本,样本均值的方差小于样本中位数的方差(至少对于大)。nñn 我从数学上理解为什么这是真的。有没有一种“哲学的”方式看待这一点,从而有助于直觉何时使用中位数而不是其他分布的均值? 是否有数学工具可以帮助快速回答特定分布的问题?

2
的分布是什么
我有四个独立的均匀分布的变量a,b,c,da,b,c,da,b,c,d中,每个在 [0,1][0,1][0,1]。我想计算(a−d)2+4bc(a−d)2+4bc(a-d)^2+4bc。我计算的分布u2=4bcu2=4bcu_2=4bc是(因此),并且的等于f2(u2)=−14lnu24f2(u2)=−14ln⁡u24f_2(u_2)=-\frac{1}{4}\ln\frac{u_2}{4}u2∈(0,4]u2∈(0,4]u_2\in(0,4]u1=(a−d)2u1=(a−d)2u_1=(a-d)^2f1(u1)=1−u1−−√u1−−√.f1(u1)=1−u1u1.f_1(u_1)=\frac{1-\sqrt{u_1}}{\sqrt{u_1}}.现在,总和的分布为(也独立)因为。这里必须是因此积分等于现在我将其插入Mathematica并得到u1+u2u1+u2u_1+u_2u1,u2u1,u2u_1,\, u_2fu1+u2(x)=∫+∞−∞f1(x−y)f2(y)dy=−14∫401−x−y−−−−√x−y−−−−√⋅lny4dy,fu1+u2(x)=∫−∞+∞f1(x−y)f2(y)dy=−14∫041−x−yx−y⋅ln⁡y4dy,f_{u_1+u_2}(x)=\int_{-\infty}^{+\infty}f_1(x-y)f_2(y)dy=-\frac{1}{4}\int_0^4\frac{1-\sqrt{x-y}}{\sqrt{x-y}}\cdot\ln\frac{y}{4}dy,y∈(0,4]y∈(0,4]y\in(0,4]x>yx>yx>yfu1+u2(x)=−14∫x01−x−y−−−−√x−y−−−−√⋅lny4dy.fu1+u2(x)=−14∫0x1−x−yx−y⋅ln⁡y4dy.f_{u_1+u_2}(x)=-\frac{1}{4}\int_0^{x}\frac{1-\sqrt{x-y}}{\sqrt{x-y}}\cdot\ln\frac{y}{4}dy.fu1+u2(x)=14[−x+xlnx4−2x−−√(−2+lnx)].fu1+u2(x)=14[−x+xln⁡x4−2x(−2+ln⁡x)].f_{u_1+u_2}(x)=\frac{1}{4}\left[-x+x\ln\frac{x}{4}-2\sqrt{x}\left(-2+\ln x\right)\right]. 我制作了四个独立的集合,每个集合分别由数字组成,并绘制了的直方图:a,b,c,da,b,c,da,b,c,d10610610^6(a−d)2+4bc(a−d)2+4bc(a-d)^2+4bc 并绘制了:fu1+u2(x)fu1+u2(x)f_{u_1+u_2}(x) 通常,该图与直方图相似,但在区间大部分为负(根在​​2.27034处)。正部分的积分。(0,5)(0,5)(0,5)≈0.77≈0.77\approx 0.77 哪里错了?或者我在哪里缺少什么? 编辑:我缩放直方图以显示PDF。 编辑2:我想我知道推理的问题所在-集成限制。因为和,所以我不能简单地。该图显示了我必须集成的区域:y∈(0,4]y∈(0,4]y\in (0,4]x−y∈(0,1]x−y∈(0,1]x-y\in(0,1]∫x0∫0x\int_0^x 这意味着我有为(这就是为什么我的一部分是正确的),中和 in。不幸的是,Mathematica无法计算后两个积分(嗯,它的确计算了第二个积分,因为输出中有一个虚构的单位会破坏一切... )。 Ý ∈ (0 ,1 ] ˚F ∫ X X - 1个 Ÿ ∈ (1 ,4 ] ∫ 4 X - 1 Ÿ ∈ (4 ,5 ]∫x0∫0x\int_0^xy∈(0,1]y∈(0,1]y\in(0,1]fff∫xx−1∫x−1x\int_{x-1}^xy∈(1,4]y∈(1,4]y\in(1,4]∫4x−1∫x−14\int_{x-1}^4y∈(4,5]y∈(4,5]y\in (4,5] 编辑3:看来Mathematica可以使用以下代码计算最后三个积分: (1/4)*Integrate[((1-Sqrt[u1-u2])*Log[4/u2])/Sqrt[u1-u2],{u2,0,u1}, Assumptions ->0 <= u2 <= u1 …

3
pdf和pmf以及cdf是否包含相同的信息?
pdf和pmf以及cdf是否包含相同的信息? 对我来说,pdf将整个概率提供给某个点(基本上是该概率下的面积)。 pmf给出某一点的概率。 cdf给出特定点下的概率。 因此对我来说pdf和cdf具有相同的信息,但是pmf却没有,因为它给出了分布上某一点的概率x。

3
对只有5位数摘要的两个分布进行统计检验
我有两个分布,其中只有5位数的摘要(最小,第一四分位数,中位数,第三四分位数,最大值)和样本大小已知。顺便问一下这里的问题,并非所有数据点都可用。 是否有任何非参数统计检验可以让我检查两者的基本分布是否不同? 谢谢!


1
这种后验分布图怎么了?
我收到以下图片,该图片说明了后验概率分布是先验分布和似然分布的组合。 有人告诉我图像有问题,即后验分布不能具有似然函数形式的形式。但是我正在努力思考图像出了什么问题。 后验似乎是可能性,但是被先验分布拉到右边。这与我对应该发生的事情的理解相符,并且很有意义。有谁知道可能出什么问题了? 我唯一的想法是,后方的面积可能会比似然度下的面积略小。尽管考虑到后部的可能性似乎比可能性要大一些,但似乎提出了一个非常挑剔的方面。

3
在R中拟合t分布:缩放参数
我如何拟合t分布的参数,即与正态分布的“均值”和“标准偏差”相对应的参数。我假设它们被称为t分布的“均值”和“缩放/自由度”? 以下代码通常会导致“优化失败”错误。 library(MASS) fitdistr(x, "t") 我必须先缩放x还是转换成概率?如何做到最好?

5
如何在R中的glm族参数中指定对数正态分布?
一个简单的问题:如何在R中的GLM系列参数中指定对数正态分布?我找不到如何实现的目标。为什么对数正态(或指数)不是family参数中的选项? 我读到R存档中的某个地方,只需指定GLM中设置为高斯的族的对数链接,即可指定对数正态。但是,这是无稽之谈,因为这将适合非线性回归并且R开始要求起始值。 有人知道如何为GLM设置对数正态(或指数)分布吗?

3
如何决定使用哪个glm家庭?
我有一些鱼密度数据,我试图在几种不同的采集技术之间进行比较,该数据有很多零,并且直方图看上去像是适合泊松分布的vaugley,除了密度以外,它不是整数数据。我对GLM相对陌生,最近几天一直在网上寻找如何确定使用哪个发行版,但是在寻找任何有助于做出此决定的资源方面完全失败了。数据的直方图示例如下所示: 我不知道如何决定要为GLM使用的合适家庭。如果有人有任何建议或可以给我资源,我应该检查一下,那就太好了。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.