Questions tagged «normal-distribution»

正态分布或高斯分布的密度函数为对称的钟形曲线。它是统计中最重要的分布之一。使用[normality]标签询问有关正常性测试的信息。

2
估计正态分布的参数:中位数而不是均值?
估计正态分布参数的常用方法是使用均值和样本标准差/方差。 但是,如果存在一些离群值,则中位数和与中位数的中位数偏差应该更健​​壮,对吗? 在某些数据集我想,通过估计正态分布N(median(x),median|x−median(x)|)N(median(x),median|x−median(x)|)\mathcal{N}(\text{median}(x), \text{median}|x - \text{median}(x)|)似乎产生更好的配合比经典N(μ^,σ^)N(μ^,σ^)\mathcal{N}(\hat\mu, \hat\sigma)用平均值和RMS偏差。 如果您假设数据集中存在一些离群值,是否有任何理由不使用中位数?您知道这种方法的参考吗?在Google上进行快速搜索并没有发现有用的结果来讨论此处使用中位数的好处(但显然,“正态分布参数估计中位数”不是一组非常具体的搜索字词)。 中位数偏差,是否有偏差?我应该乘它n−1nn−1n\frac{n-1}{n}减少偏见? 您是否知道其他分布(例如Gamma分布或指数修改的高斯分布)(在参数估计中需要偏度,而离群值确实弄乱了该值)的相似鲁棒参数估计方法吗?

1
随着尺寸增加,正态分布的密度
我要问的问题是:正态分布均值的1个标准差内的样本比例如何随着变量数量的增加而变化? (几乎)所有人都知道,在一维正态分布中,可以在平均值的1个标准偏差内找到68%的样本。那么在2、3、4,...尺寸上呢?我知道它变少了……但是多少(精确地)呢?拥有一张显示1、2、3 ... 10尺寸以及1、2、3 ... 10 SD尺寸的数字的表格会很方便。谁能指出这样的桌子? 还有一点背景-我有一个传感器,可以提供多达128个通道的数据。每个通道都受到(独立)电噪声的影响。当我感觉到校准对象时,我可以对足够多的测量求平均值,并获得128个通道的平均值以及128个单独的标准偏差。 但是...就单个瞬时读数而言,数据的响应不像128个单个读数那样,而是像一个(最多)128维矢量量的单个读数一样。当然,这是处理我们获取的一些关键读数的最佳方法(通常是128个中的4-6个)。 我想了解一下此向量空间中的什么是“正常”变化以及什么是“离群值”。我确定我已经见过一张我所描述的表格,该表格适用于这种情况-有人可以指向一张吗?

3
如何估计一个总体中的随机成员比另一个总体中的随机成员“更好”的概率?
假设我从两个不同的人群中取样。如果我测量每个成员完成一项任务需要多长时间,则可以轻松估算每个总体的均值和方差。 如果我现在假设与每个人口中的一个人进行随机配对,我是否可以估计第一个比第二个更快的概率? 我确实有一个具体的例子:这些测量值是我从A骑自行车到B的时间,这些人群代表我可以采取的不同路线;我正在尝试找出下一个循环的拾取路线A的速度比拾取路线B更快的概率。当我实际执行该循环时,我为我的样品组设置了另一个数据点:)。 我知道这是尝试解决此问题的一种极其简单的方法,尤其是因为在任何一天,风比其他任何时间都更可能影响我的时间,所以请告诉我您是否认为我在问错误的问题...


3
β随机变量的反正态CDF遵循什么分布?
假设您定义: X∼Beta(α,β)X∼Beta(α,β)X\sim\mbox{Beta}(\alpha,\beta) Y∼Φ−1(X)Y∼Φ−1(X)Y\sim \Phi^{-1}(X) 其中Φ−1Φ−1\Phi^{-1}是的逆标准正态分布的CDF。 我的问题是:Y是否遵循简单分布,或者可以近似于Y?YYYYYY我问,因为我有一个基于模拟结果强烈怀疑(如下图所示),其YYY收敛为正态分布时,αα\alpha和ββ\beta都很高,但我不知道为什么它会数学。(当然,当α=1;β=1α=1;β=1\alpha=1;\beta=1,XXX将是均匀的,而YYY将是标准法线,但是为什么对于更高的值会成立呢?) 如果确实收敛到法线,那么就αα\alpha和而言,该法线的参数是什么ββ\beta?(我预计平均将Φ−1(αα+β)Φ−1(αα+β)\Phi^{-1}(\frac{\alpha}{\alpha+\beta})因为那是模式的变换,但我不知道标准差)。 (换句话说,这可能会问“ 对于μ和σ的某个方向,Φ(Norm(μ,σ))Φ(Norm(μ,σ))\Phi(\mbox{Norm}(\mu, \sigma))收敛到beta分布吗?”我不确定这是否更容易回答)。μμ\muσσ\sigma 仿真结果 在这里,我展示了为什么我怀疑结果是正常的(因为我无法用数学来支持它)。可以使用和在R中完成模拟。例如,选择较高的参数α = 3000和β = 7000:YYYqnormrnormα=3000α=3000\alpha=3000β=7000β=7000\beta=7000 hist(qnorm(rbeta(5000, 3000, 7000))) 这看起来很正常,qqnorm与夏皮罗-威尔克测试(其中正常是零假设),建议左右为好: qqnorm(qnorm(rbeta(5000, 3000, 7000))) shapiro.test(qnorm(rbeta(5000, 3000, 7000))) #> #> Shapiro-Wilk normality test #> #> data: qnorm(rbeta(5000, 3000, 7000)) #> W = 0.99954, p-value = 0.2838 为了更深入地探讨正态性,我执行了2,000次仿真,每次都模拟 5,000个值,然后执行测试以将其与正常值进行比较。(我选择5K值是因为这是可以处理的最大值,并且可以最大程度地检测出偏离规范的能力)。YYYshapiro.test 如果分布确实是正态分布,我们将期望p值是均匀的(因为null为true)。它们确实接近均匀,表明分布非常接近正态: hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 3000, …

3
证明使用高斯混合的合理依据
高斯混合模型(GMM)之所以吸引人,是因为它们在分析和实践中都易于使用,并且能够建模某些奇特的分布而不会过于复杂。我们应该保留一些分析属性,这些属性通常并不明确。尤其是: SnSnS_nnnnPPPnnnPPPlimn→∞infP^∈SnD(P||P^)=0?limn→∞infP^∈SnD(P||P^)=0?\lim_{n\rightarrow \infty}\inf_{\hat{P}\in S_n} D(P||\hat{P})=0? 假设我们有一个连续分布PPP,我们发现了一个NNN分量高斯混合P^P^\hat{P},它的总变化量接近PPP:δ(P,P^)&lt;εδ(P,P^)&lt;ε\delta(P,\hat{P})<\varepsilon。我们可以用\ epsilon约束D(P || \ hat {P})吗?D(P||P^)D(P||P^)D(P||\hat{P})ϵϵ\epsilon 如果我们想通过独立的加性噪声Y \ sim P_Y(真实的,连续的)观察X \ sim P_X,并且我们有GMM \ hat {X} \ sim Q_X,\ hat {Y} \ sim Q_N其中\ delta(P ,Q)&lt;\ epsilon,则此值较小:\ left | \ mathsf {mmse}(X | X + Y)-\ mathsf {mmse}(\ hat {X} | \ hat {X} + …

2
转换数据:所有变量还是非常规变量?
在Andy Field的《使用SPSS发现统计信息》中,他指出必须对所有变量进行转换。 但是,在出版物:“使用地理加权回归研究土地利用与水质之间的空间变化关系I:模型设计和评估”中,他们特别指出,只有非正态变量才被转换。 这种分析具体吗?例如,在均值比较中,将日志与原始数据进行比较显然会产生显着差异,而当使用类似回归的方法来调查变量之间的关系时,它就变得不那么重要了。 编辑:这是“数据转换”部分中的全文页面: 这是论文的链接:http : //www.sciencedirect.com/science/article/pii/S0048969708009121

1
均值相同,方差不同
假设您有八位跑步者参加比赛;他们各自的运行时间的分布是正常的,每个平均有秒。流道的标准偏差是最小的,第二个是第二个,第三个是最小,依此类推,八个最大。有两个问题使我感到困惑:(1)第一个击败最后一个的概率是多少;(2)谁最有可能赢得比赛?111111 我的答案分别是和。由于它们的均值相同,因此的概率仅为,不是吗?我该如何严格地证明第二部分,以及可以计算出获胜的确切概率?提前致谢。1/21/21/2888x¯1−x¯8&lt;0x¯1−x¯8&lt;0\bar x_1-\bar x_8\lt 01/21/21/2

2
正方变量和卡方变量平方的卷积分布?
最近在分析数据时出现了以下问题。如果随机变量X遵循正态分布且Y遵循χ2nχn2\chi^2_n分布(其中n自由度),如何是Z=X2+Y2Z=X2+Y2Z = X^2 + Y^2分布?到现在为止我想出的PDF Y2Y2Y^2: ψ2n(x)====∂F(x−−√)∂x(∫x√0tn/2−1⋅e−t/22n/2Γ(n/2)dt)′x12n/2Γ(n/2)⋅(x−−√)n/2−1⋅e−x√/2⋅(x−−√)′x12n/2−1Γ(n/2)⋅xn/4−1⋅e−x√/2ψn2(x)=∂F(x)∂x=(∫0xtn/2−1⋅e−t/22n/2Γ(n/2)dt)x′=12n/2Γ(n/2)⋅(x)n/2−1⋅e−x/2⋅(x)x′=12n/2−1Γ(n/2)⋅xn/4−1⋅e−x/2\begin{eqnarray} \psi^2_n(x) &=& \frac{\partial F(\sqrt{x})}{\partial x} \\ &=& \left( \int_0^{\sqrt{x}} \frac{t^{n/2-1}\cdot e^{-t/2}}{2^{n/2}\Gamma(n/2)} \mathrm{d}t \right)^\prime_x \\ &=& \frac{1}{2^{n/2}\Gamma(n/2)} \cdot \left( \sqrt{x} \right)^{n/2-1} \cdot e^{-\sqrt{x}/2} \cdot \left( \sqrt{x} \right)^\prime_x \\ &=& \frac{1}{2^{n/2-1}\Gamma(n/2)} \cdot x^{n/4-1} \cdot e^{-\sqrt{x}/2} \end{eqnarray} 以及一些简化的卷积积分(具有PDF χ 2 米,其中m自由度):X2X2X^2χ2mχm2\chi^2_m Kmn(t):===(χ2m∗ψ2n)(t)∫t0χ2m(x)⋅ψ2n(t−x)dx(2(n+m)2+1Γ(m2)Γ(n2))−1⋅∫t0(t−x)n4−1⋅xm2−1⋅exp(−(t−x−−−−√+x)/2)dxKmn(t):=(χm2∗ψn2)(t)=∫0tχm2(x)⋅ψn2(t−x)dx=(2(n+m)2+1Γ(m2)Γ(n2))−1⋅∫0t(t−x)n4−1⋅xm2−1⋅exp⁡(−(t−x+x)/2)dx\begin{eqnarray} K_{mn}(t) &:=& ( \chi^2_m …

3
我可以根据样本大小以及最小值和最大值重建正态分布吗?我可以使用中点来代表均值
从统计上讲,我知道这可能有些困难,但这是我的问题。 我有很多范围数据,即变量的最小,最大和样本大小。对于其中一些数据,我也有一个平均值,但并不多。我想将这些范围相互比较,以量化每个范围的变异性,并比较均值。我有充分的理由假设分布在均值周围是对称的,并且数据将具有高斯分布。因此,我想我可以证明在没有均值时使用分布的中点作为均值的代理。 我想做的是为每个范围重建一个分布,然后使用该分布为该分布提供标准偏差或标准误差。我仅有的信息是从样本中观察到的最大值和最小值,以及将中点作为平均值的代表。 这样,我希望能够基于我拥有的范围数据和我的假设(对称分布和正态分布)来计算每组的加权均值,并计算出每组的变异系数。 我打算使用R来做到这一点,因此任何代码帮助也将不胜感激。


2
标准差的三角运算
正常随机变量的加法,减法,乘法和除法得到了很好的定义,但是三角运算又如何呢? 例如,让我们假设我正在尝试找到两个楔形的角度(建模为直角三角形),两个导管的尺寸分别为d1d1d_1和d2d2d_2,均被描述为正态分布。 直觉和模拟都告诉我,结果分布是正态的,平均。但是,有一种方法可以计算出角度的分布吗?我在哪里找到答案的参考?arctan(mean(d1)mean(d2))arctan⁡(mean(d1)mean(d2))\arctan\left(\frac{\text{mean}(d_1)}{\text{mean}(d_2)}\right) (在某种程度上,我正在研究机械零件的统计公差。我的第一个冲动是简单地模拟整个过程,检查最终结果是否合理正常,然后计算标准偏差。但是我想知道如果可以使用更整洁的分析方法。)

3
考试成绩真的遵循正态分布吗?
我一直在尝试了解要在GLM中使用哪些发行版,而在何时使用正态发行版时我有些糊涂。在我的教科书的一部分中,它说正态分布可能对建模考试成绩很有利。在下一部分中,它询问对汽车保险索赔进行建模的哪种分布是合适的。这次,它说适当的分布将是Gamma或反高斯分布,因为它们仅以正值连续。好吧,我相信考试成绩也只会是正数,而是连续的,那为什么我们要在那使用正态分布呢?正态分布是否允许负值?

1
插入符glmnet与cv.glmnet
在glmnet内部caret使用搜索最佳lambda和cv.glmnet执行相同任务的比较中似乎有很多困惑。 提出了许多问题,例如: 分类模型train.glmnet与cv.glmnet? 在插入符号中使用glmnet的正确方法是什么? 使用`caret`交叉验证`glmnet` 但是没有给出答案,这可能是由于问题的可重复性。在第一个问题之后,我给出了一个非常相似的示例,但确实存在相同的问题:为什么估计的lambda如此不同? library(caret) library(glmnet) set.seed(849) training &lt;- twoClassSim(50, linearVars = 2) set.seed(849) testing &lt;- twoClassSim(500, linearVars = 2) trainX &lt;- training[, -ncol(training)] testX &lt;- testing[, -ncol(testing)] trainY &lt;- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = 0.001),standardize=FALSE) …

2
一堆正态分布的随机变量中最大的是哪个?
我有随机变量。 具有正态分布,均值且方差。的 RVS通常与平均分布和方差。一切都是相互独立的。X0,X1,…,XnX0,X1,…,XnX_0,X_1,\dots,X_nX0X0X_0μ&gt;0μ&gt;0\mu>0111X1,…,XnX1,…,XnX_1,\dots,X_n000111 令表示是其中最大的事件,即。我想计算或估计\ Pr [E]。我正在寻找\ Pr [E]的表达式,作为\ mu,n的函数,或者是\ Pr [E]的合理估计或近似值。EEEX0X0X_0X0&gt;max(X1,…,Xn)X0&gt;max(X1,…,Xn)X_0 > \max(X_1,\dots,X_n)Pr[E]Pr[E]\Pr[E]Pr[E]Pr[E]\Pr[E]μ,nμ,n\mu,nPr[E]Pr[E]\Pr[E] 在我的应用程序中,nnn是固定的(n=61n=61n=61),我想找到使\ Pr [E] \ ge 0.99的\ mu的最小值,但我也对一般问题感到好奇。μμ\muPr[E]≥0.99Pr[E]≥0.99\Pr[E] \ge 0.99

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.