Questions tagged «normal-distribution»

正态分布或高斯分布的密度函数为对称的钟形曲线。它是统计中最重要的分布之一。使用[normality]标签询问有关正常性测试的信息。

11
标准偏差完全错误吗?如何计算高度,计数等(正数)的std?
假设我正在计算高度(以厘米为单位),并且数字必须大于零。 这是示例列表: 0.77132064 0.02075195 0.63364823 0.74880388 0.49850701 0.22479665 0.19806286 0.76053071 0.16911084 0.08833981 Mean: 0.41138725956196015 Std: 0.2860541519582141 在此示例中,根据正态分布,值的99.7%必须在平均值的标准偏差的±3倍之间。但是,即使两次标准偏差也变为负值: -2 x std calculation = 0.41138725956196015 - 0.2860541519582141 x 2 = -0,160721044354468 但是,我的数字必须为正。因此它们必须大于0。我可以忽略负数,但是我怀疑这是使用标准差计算概率的正确方法。 有人可以帮助我了解我是否以正确的方式使用它吗?还是我需要选择其他方法? 老实说,数学就是数学。是否为正态分布都没有关系。如果它适用于无符号数字,那么它也应适用于正数!我错了吗? 编辑1:添加直方图 更清楚地说,我添加了我的真实数据的直方图 EDIT2:一些值 Mean: 0.007041500928135767 Percentile 50: 0.0052000000000000934 Percentile 90: 0.015500000000000047 Std: 0.0063790857035425025 Var: 4.06873389299246e-05

2
关节正态性是正常随机变量总和是否正常的必要条件吗?
在我对相关问题的回答之后的评论中,用户ssdecontrol和Glen_b询问和联合正态性对于断言的正态性是否必要?当然,关节正常就足够了。在那里没有解决这个补充问题,也许值得单独考虑。Y X + YXXXYYYX+YX+YX+Y 由于联合常态意味着边际常态,我问 难道存在正常的随机变量和,使得 是一个正常的随机变量,但和是不是 共同正常的随机变量?Y X + Y X YXXXYYYX+YX+YX+YXXXYYY 如果不要求和具有正态分布,则很容易找到这样的正态随机变量。可以在我以前的答案中找到一个示例(上面提供了链接)。我认为,上面突出显示的问题的答案是“是”,并已发布(我认为是)示例作为对此问题的答案。ÿXXXYYY

1
了解卡方检验和卡方分布
我试图理解卡方检验背后的逻辑。 卡方测试是。χ2然后比较卡方分布,找出一个p.value以拒绝或不零假设。H0:观测值来自我们用来创建期望值的分布。例如,我们可以测试获得概率是否如我们预期的那样由p给出。所以我们翻转100次,发现ñ^ h和1-ñ^ h。我们希望我们的发现比较预期是什么(100⋅p)。我们也可以使用二项式分布,但这不是问题的重点……问题是:χ2=∑(obs−exp)2expχ2=∑(obs−exp)2exp\chi ^2 = \sum \frac{(obs-exp)^2}{exp}χ2χ2\chi ^2H0H0H_0headpppnHnHn_H Heads1−nH1−nH1-n_H tails100⋅p100⋅p100 \cdot p 您能否解释一下为什么在零假设下遵循卡方分布吗?∑(obs−exp)2exp∑(obs−exp)2exp\sum \frac{(obs-exp)^2}{exp} 关于卡方分布,我所知道的是,度的卡方分布是k平方标准正态分布的总和。kkkkkk

1
来自正态分布组合的分位数
我了解不同年龄儿童的人体测量尺寸分布(例如肩跨度)。对于每个年龄和维度,我都有均值,标准差。(我也有八个分位数,但我认为我无法从中得到想要的东西。) 对于每个维度,我想估算长度分布的特定分位数。如果我假设每个维度都是正态分布的,则可以使用均值和标准偏差来实现。我是否可以使用一个漂亮的公式来获取与特定分位数的分布相关的值? 反向操作非常简单:对于特定值,对于每个正态分布(年龄),将面积都设置在该值的右侧。对结果求和,然后除以分布数。 更新:这是图形形式的相同问题。假设每个彩色分布都是正态分布。 而且,很明显,我可以尝试一堆不同的长度,并不断更改它们,直到获得与我的精度足够接近所需分位数的长度为止。我想知道是否有比这更好的方法。如果这是正确的方法,那么它有名字吗?


3
有没有人比今天的Usain Bolt快?
编辑:我对给定样本统计量的给定总体中确定“真实”最大值的可能性的技术问题和方法更感兴趣。从创纪录的短跑时间来估算比博尔特先生更快的跑动者的可能性是显而易见的,这是显而易见的。通过想象并非如此来嘲笑我。 Usain Bolt是最快跑出100m的人。但是,鉴于运动员的数量很少,看来“真正的”最快的人还活着坐在某个地方的沙发上,从未尝试过竞争性的跑步生涯。 我试图利用这样一个事实,即正态分布尾部的样本之间的差异越来越小。我正在使用它通过将Usain与第二快,第三快等进行比较,来计算存在比Usain Bolt更快的人的可能性。 为此,我试图通过将正态分布的CDF相对于的导数计算出来,从而将“ Usain Bolt”之外的最大值计算出来,将其yyy提高到第nnn个(其中nnn约为7,000,000,000或样本小于“最大值”-其背后的逻辑在“ 德国坦克问题维基百科”页面中进行了描述,该页面概括了不同分布之间的关系,例如: ∫∞0yfYN(y)dy=λn∫∞0y[12[1+erf(y−μσ2√)]]n−112πσ2√e−(y−μ)22σ2dy∫0∞yfYN(y)dy=λn∫0∞y[12[1+erf⁡(y−μσ2)]]n−112πσ2e−(y−μ)22σ2dy\int_{0}^{\infty}y f_{Y_N} (y)dy = \lambda n \int_{0}^{\infty} y \left [ \tfrac12\left[1 + \operatorname{erf}\left( \frac{y-\mu}{\sigma\sqrt{2}}\right)\right] \right ]^{n-1} \frac{1}{\sqrt{2\pi\sigma^2}}\, e^{-\frac{(y - \mu)^2}{2 \sigma^2}}dy 这是一种计算存在某人的概率比Usain Bolt更快的有效方法吗? 在“其他分布的德国坦克问题”之外,这种问题是否有名称? 有没有一种很好的方法可以从分布的极端样本估计标准偏差?查找有关有史以来最快的1亿个破折号的信息很容易,很难找到平均值和方差) 感谢您耐心与没有背景知识的程序员打交道。

2
QQ情节看起来正常,但Shapiro-Wilk测试却相反
在R中,我有348个度量的样本,并且想知道是否可以假定它正态分布以用于将来的测试。 本质上是在遵循另一个Stack答案之后,我正在使用以下命令查看密度图和QQ图: plot(density(Clinical$cancer_age)) qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2) 我没有统计方面的丰富经验,但是它们看起来像我所见过的正态分布示例。 然后,我正在运行Shapiro-Wilk测试: shapiro.test(Clinical$cancer_age) > Shapiro-Wilk normality test data: Clinical$cancer_age W = 0.98775, p-value = 0.004952 如果我正确地解释它,它告诉我可以否定原假设,即分布是正态的。 但是,我遇到了两个Stack帖子(here和here),这些帖子严重破坏了此测试的用处。看起来如果样本很大(348是否被认为是大样本?),它将总是说分布不正常。 我应该如何解释所有这些?我应该坚持使用QQ图并假设我的分布是正常的吗?

2
如果随机变量的值范围是有界的,我们如何获得正态分布为?
假设我们有一个随机变量,其值的范围由和界定,其中是最小值,是最大值。b a baaabbbaaabbb 有人告诉我,,其中是我们的样本大小,我们样本均值的抽样分布是正态分布。也就是说,当我们增加我们越来越接近正态分布,但实际极限是相等的正态分布。ñ ñ ñ →交通∞n→∞n→∞n \to \inftynnnnnnn→∞n→∞n \to \infty 但是,它不是必须从扩展到的正态分布的定义的一部分吗?∞−∞−∞- \infty∞∞\infty 如果我们范围的最大值为,则最大样本均值(与样本大小无关)将等于,最小样本均值将等于。b 一bbbbbbaaa 因此在我看来,即使当接近无穷大时采用极限,我们的分布也不是实际的正态分布,因为它受和。一个bnnnaaabbb 我想念什么?

1
标准正态随机变量的平方的Pdf [关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 4年前关闭。 我有这个问题,我必须找到的pdf Y=X2Y=X2Y = X^2。所有我知道的是,XXX具有分布N(0,1)N(0,1)N(0,1)。是什么分布Y=X2Y=X2Y = X^2?与相同XXX吗?我如何找到pdf文件?

1
t检验的“近似正常”评估
我正在使用Welch的t检验来测试均值。底层分布远非正常分布(比此处相关讨论的示例更偏斜)。我可以获取更多数据,但希望有一些原则性的方法来确定在多大程度上可以这样做。 是否有一个很好的试探法可以评估样本分布是否可以接受?与正常性的哪些偏差最令人担忧? 是否还有其他方法(例如,对样本统计数据依赖引导置信区间)会更有意义?

1
N正态id的乘积的近似分布?特例μ≈0
给定 iid和,寻找:X Ñ ≈ Ñ(μ X,σ 2 X)μ X ≈ 0ñ≥ 30N≥30N\geq30Xñ≈ ñ(μX,σ2X)Xn≈N(μX,σX2)X_n\approx\mathcal{N}(\mu_X,\sigma_X^2)μX≈ 0μX≈0\mu_X \approx 0 精确封闭形式分布近似值 ÿñ= ∏1个ñXñYN=∏1NXnY_N=\prod\limits_{1}^{N}{X_n} 相同乘积的渐近(指数?)逼近 这是一个特殊情况,是一个更一般的问题。μX≈ 0μX≈0\mu_X \approx 0

1
方差分析:测试多组正常性的假设,每组样本很少
假定以下情况: 我们有大量(例如20个),小组规模较小(例如n = 3)。我注意到,如果我从均匀分布生成值,则即使误差分布均匀,残差也将看起来近似正态。以下R代码演示了此行为: n.group = 200 n.per.group = 3 x <- runif(n.group * n.per.group) gr <- as.factor(rep(1:n.group, each = n.per.group)) means <- tapply(x, gr, mean) x.res <- x - means[gr] hist(x.res) 如果我查看三个一组的样本的残差,则很明显会出现这种情况: [R1个= x1个− 平均值(x 1 ,x 2 ,x 3 )= x 1 − x1个+ x2+ x33= 23X1个− x2− …

4
多大比例的独立分布给出正态分布?
两个独立正态分布的比率给出柯西分布。t分布是正态分布除以独立的卡方分布。两个独立的卡方分布的比率给出F分布。 我正在寻找独立连续分布的比率,该比率给出均值和方差正态分布随机变量?σ 2μμ\muσ2σ2\sigma^2 可能有无限可能的答案。您能给我一些可能的答案吗?如果要计算比率的两个独立分布相同或至少具有相似的方差,我将特别感激。

2
正态分布的X和Y是否更有可能导致正态分布的残差?
这里讨论了线性回归中对正态性假设的误解(“正态性”是指X和/或Y而不是残差),并且张贴者询问是否可能具有非正态分布的X和Y并且仍然具有正态分布的残差。 我的问题是:正态分布的X和Y 更有可能导致正态分布的残差吗?有很多相关的帖子,但是我不相信有人会问这个问题。 我意识到,如果只进行一次回归,那么这也许是微不足道的,但是如果有多个测试,那么就不那么重要了。假设我有100个X变量,且所有变量具有相同的偏斜度,我想测试所有这些变量。如果我将它们全部转换为正态分布,那么由于非正态分布的残差,我可能需要较少的X变量进行重新检验(具有不同/无转换),或者回归前的转换是完全任意的吗?

3
如何规范未知分布的数据
我试图找到某种类型的重复测量数据的最合适的特征分布。 本质上,在我所在的地质学领域,我们经常使用放射线测定样品中的矿物(岩石块)的年代,以查明事件发生多久了(岩石冷却到阈值温度以下)。通常,将对每个样本进行几次(3-10)次测量。然后,取平均值和标准偏差。这是地质,因此样品的冷却年龄可以根据情况从扩展到年。σ 10 5 10 9μμ\muσσ\sigma10510510^510910910^9 不过,我有理由相信,测量不高斯:“离群”,要么宣布随意,或者通过一些标准,比如皮尔斯的标准[罗斯2003]或狄克逊Q检验[院长和迪克森,1951年],是相当这很常见(例如30分之一),而且这些数据几乎总是比较旧,这表明这些测量值通常偏向右侧。与矿物杂质有关的原因很容易理解。 因此,如果我能找到一个更好的分布,包括肥尾和偏斜,我认为我们可以构造更有意义的位置和比例参数,而不必如此迅速地分配离群值。也就是说,如果可以证明这些类型的测量是对数正态或对数拉普拉斯等,则可以使用比和更合适的最大似然性度量,它们是非稳健的,在这种情况下可能会有偏差系统右偏的数据。σμμ\muσσ\sigma 我想知道这样做的最好方法是什么。到目前为止,我有一个大约有600个样本的数据库,每个样本有2-10个(或大约)重复测量值。我尝试通过将样本除以均值或中位数来对样本进行归一化,然后查看归一化数据的直方图。这会产生合理的结果,并且似乎表明该数据具有典型的对数拉普拉斯算式: 但是,我不确定这是否是解决问题的适当方法,或者不确定我是否意识到有一些警告可能会影响我的结果,所以它们看起来像这样。是否有人对这种事情有经验并知道最佳实践?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.