Questions tagged «normal-distribution»

正态分布或高斯分布的密度函数为对称的钟形曲线。它是统计中最重要的分布之一。使用[normality]标签询问有关正常性测试的信息。

6
我怎么能发现正态分布?
什么是正态分布的第一个推导,您能否重现该推导并在其历史背景下进行解释? 我的意思是,如果人类忘记了正态分布,那么我最有可能重新发现它的方式是什么,最可能的推导是什么?我猜想最初的推导一定是作为尝试寻找快速方法来计算基本离散概率分布(例如二项式)的副产品而来的。那是对的吗?



4
给定样本平均值,样本中位数的期望值
让ÿYY表示中值,并让ˉ XX¯\bar{X}表示平均值,大小的随机样本的Ñ = 2 ķ + 1n=2k+1n=2k+1从分发即Ñ (μ ,σ 2)N(μ,σ2)N(\mu,\sigma^2)。我该如何计算ê (Ÿ | ˉ X = ˉ X)E(Y|X¯=x¯)E(Y|\bar{X}=\bar{x})? 直观地说,因为态假设的,是有意义的要求是Ë (Ÿ | ˉ X = ˉ X)= ˉ XE(Y|X¯=x¯)=x¯E(Y|\bar{X}=\bar{x})=\bar{x}的确是正确的答案。可以严格显示吗? 我最初的想法是使用条件正态分布来解决此问题,这通常是已知的结果。那里的问题是,由于我不知道期望值,因此也不知道中位数的方差,因此我将不得不使用k + 1k+1k+1阶统计量来计算那些值。但这非常复杂,除非绝对必要,否则我不愿去那里。

3
从多元正态分布中提取样本的Cholesky与本征分解
我想绘制样品X〜Ñ(0,Σ)X〜ñ(0,Σ)\mathbf{x} \sim N\left(\mathbf{0}, \mathbf{\Sigma} \right)。维基百科建议任一使用的Cholesky或特征分解,即 Σ = D1个dŤ1个Σ=d1个d1个Ť \mathbf{\Sigma} = \mathbf{D}_1\mathbf{D}_1^T 或 Σ = Q Λ QŤΣ=问Λ问Ť \mathbf{\Sigma} = \mathbf{Q}\mathbf{\Lambda}\mathbf{Q}^T 因此,样品可通过得出: x = D1个vX=d1个v \mathbf{x} = \mathbf{D}_1 \mathbf{v} 或 X = Q Λ--√vX=问Λv \mathbf{x} = \mathbf{Q}\sqrt{\mathbf{\Lambda}} \mathbf{v} 其中 v〜Ñ(0,I)v∼N(0,I) \mathbf{v} \sim N\left(\mathbf{0}, \mathbf{I} \right) 维基百科建议它们在生成样本方面都同样出色,但是Cholesky方法具有更快的计算时间。这是真的?尤其是在使用蒙特卡洛方法时,在数值上,沿对角线的方差可能相差几个数量级?是否有对此问题的正式分析?

1
如何从高斯copula模拟?
假设我有两个单变量边际分布,即FFF和GGG,可以从中进行模拟。现在,使用表示为C (F ,G ; Σ )的高斯copula构造它们的联合分布。所有参数都是已知的。C(F,G;Σ)C(F,G;Σ)C(F,G;\Sigma) 是否有非MCMC方法可以从此系动中模拟出来?

1
对两个正态分布随机变量之和的贡献的直观解释
如果我有两个正态分布的独立随机变量和,均值和,标准差为和并且发现,则条件分布(假设我没有犯任何错误)给定的和正态分布也以均值 和标准差 XXXYYYμXμX\mu_XμYμY\mu_YσXσX\sigma_XσYσY\sigma_YX+Y=cX+Y=cX+Y=cXXXYYYcccμX|c=μX+(c−μX−μY)σ2Xσ2X+σ2YμX|c=μX+(c−μX−μY)σX2σX2+σY2\mu_{X|c} = \mu_X + (c - \mu_X - \mu_Y)\frac{ \sigma_X^2}{\sigma_X^2+\sigma_Y^2} σX| Ç=σÿ| c=√μY|c=μY+(c−μX−μY)σ2Yσ2X+σ2YμY|c=μY+(c−μX−μY)σY2σX2+σY2\mu_{Y|c} = \mu_Y + (c - \mu_X - \mu_Y)\frac{ \sigma_Y^2}{\sigma_X^2+\sigma_Y^2}σX|c=σY|c=σ2Xσ2Yσ2X+σ2Y−−−−−−−−√.σX|c=σY|c=σX2σY2σX2+σY2.\sigma_{X|c} = \sigma_{Y|c} = \sqrt{ \frac{\sigma_X^2 \sigma_Y^2}{\sigma_X^2 + \sigma_Y^2}}. 条件标准偏差与给定相同是不足为奇的,如果一个上升,另一个必须下降相同的量。有趣的是,条件标准偏差不取决于。çcccccc 我无法确定的是条件均值,即它们按照与原始方差成比例而不是与原始标准差成比例的方式来分配超出部分(c-\ mu_X-\ mu_Y)(c−μX−μY)(c−μX−μY)(c - \mu_X - \mu_Y)。 例如,如果它们的均值为零,μX=μY=0μX=μY=0\mu_X=\mu_Y=0,并且标准差σX=3σX=3\sigma_X =3和\ sigma_Y = 1,则以c = 4为σY=1σY=1\sigma_Y=1条件,我们将得到E [X | c …

5
比较配对观测值的方差
我有成对的观测值(,),它们来自一个共同的未知分布,该分布具有有限的第一和第二矩,并且围绕均值对称。X i Y iNNNXiXiX_iYiYiY_i 令为的标准偏差(对无条件),对于为。我想检验一下假设 X ÿ σ ÿσXσX\sigma_XXXXYYYσYσY\sigma_Y H0H0H_0:σX=σYσX=σY\sigma_X = \sigma_Y H1H1H_1:σX≠σYσX≠σY\sigma_X \neq \sigma_Y 有人知道这样的测试吗?我可以在第一分析中假定分布是正态的,尽管一般情况更有趣。我正在寻找一种封闭形式的解决方案。Bootstrap永远是不得已的手段。

5
样本均值的抽样分布如何近似于总体均值?
我尝试学习统计信息是因为我发现它是如此普遍,以至于如果我对它的理解不正确,它就会禁止我学习一些东西。我很难理解样本均值的抽样分布这一概念。我不明白某些书籍和网站对它的解释方式。我想我有一个了解,但不确定它是否正确。以下是我试图理解它的尝试。 当我们谈论某种呈正态分布的现象时,通常(并非总是)涉及人口。 我们希望使用推论统计来预测有关某些人口的某些信息,但是并没有所有的数据。我们使用随机抽样,大小为n的每个样本被选择的可能性均等。 因此,我们抽取大量样本,假设为100,然后根据中心极限定理,这些样本的均值分布将近似为正态。样本均值的平均值将近似于总体均值。 现在我不明白的是,很多时候您会看到“一个100个人的样本……”我们是否需要10个或100个100个人的样本来近似均值人口?还是我们可以抽取一个足够大的样本(比如说1000),然后说均值将近似于总体均值?还是我们从1000人中抽取了1000个人,然后从100个人中随机抽取了100个人中的100个人,然后将其用作近似值? 是否采取足够大的样本来近似(几乎)均值始终有效?人口甚至需要正常工作才能正常工作吗?


5
对于平均置信区间的近似误差时
令是一族iid随机变量,其值在,具有均值和方差{Xi}ni=1{Xi}i=1n\{X_i\}_{i=1}^n[0,1][0,1][0,1]μμ\muσ2σ2\sigma^2。给出均值的简单置信区间,只要知道就 使用σσ\sigmaP(| X¯−μ|>ε)≤σ2nε2≤1nε2(1).P(|X¯−μ|>ε)≤σ2nε2≤1nε2(1). P( | \bar X - \mu| > \varepsilon) \le \frac{\sigma^2}{n\varepsilon^2} \le\frac{1}{n \varepsilon^2} \qquad (1). 同样,由于渐近分布为标准正态随机变量,因此有时使用正态分布来“构造”近似置信区间。X¯−μσ/n√X¯−μσ/n\frac{\bar X- \mu}{\sigma/\sqrt{n}} 在多项选择题答案统计考试中,我不得不使用这种近似代替(1)(1)(1)每当时。我一直对此感到非常不舒服(超出您的想象),因为无法量化近似误差。n≥30n≥30n \geq 30 为什么使用法线逼近而不是?(1)(1)(1) 我不想再盲目地应用规则。是否有好的参考文献可以支持我拒绝这样做并提供适当的替代方法?((1)是我认为合适的替代方法的示例。)n≥30n≥30n \geq 30(1)(1)(1) 在这里,虽然σσ\sigma和E[|X|3]E[|X|3]E[ |X|^3]未知,但它们很容易被限制。 请注意,我的问题是一个参考请求,尤其是有关置信区间的请求,因此与此处建议作为部分重复的问题的区别有所不同和此处。那里没有答案。

1
Box-Muller与逆CDF方法相比在模拟正态分布方面的优势?
为了从一组均匀变量中模拟正态分布,有几种技术: Box-Muller算法,其中一个对上的两个独立均匀变量进行采样,然后通过以下方法将它们转换为两个独立的标准正态分布: Ž 0 = √(0,1)(0,1)(0,1)Z0=−2lnU1−−−−−−√cos(2πU0)Z1=−2lnU1−−−−−−√sin(2πU0)Z0=−2lnU1cos(2πU0)Z1=−2lnU1sin(2πU0) Z_0 = \sqrt{-2\text{ln}U_1}\text{cos}(2\pi U_0)\\ Z_1 = \sqrt{-2\text{ln}U_1}\text{sin}(2\pi U_0) CDF方法,其中可以将普通cdf等同于一个统一变量: 并得出 F (Z )= U Z = F − 1(U )(F(Z))(F(ž))(F(Z))F(Z)= UF(ž)=ü F(Z) = U ž= F− 1(U)ž=F-1(ü)Z = F^{-1}(U) 我的问题是:哪个计算效率更高?我认为这是后者的方法-但是我阅读的大多数论文都使用Box-Muller-为什么? 附加信息: 正常CDF的逆是已知的,并给出: F− 1(Z)=2–√埃尔夫− 1(2Z−1),Z∈(0,1).F−1(Z)=2erf−1⁡(2Z−1),Z∈(0,1).F^{-1}(Z)\; =\; \sqrt2\;\operatorname{erf}^{-1}(2Z - 1), \quad Z\in(0,1). 因此: Z=F−1(U)=2–√erf−1(2U−1),U∈(0,1).Z=F−1(U)=2erf−1⁡(2U−1),U∈(0,1). Z …

2
使用正态分布的图形模拟均匀分布的图形
我最近购买了一个数据科学面试资源,其中一个概率问题如下: 给定具有已知参数的正态分布的绘图,如何模拟均匀分布的绘图? 我最初的想法是,对于离散随机变量,我们可以将正态分布分解为K个唯一的子部分,其中每个子部分在正态曲线下的面积均相等。然后,我们可以通过识别变量最终落入法线曲线的哪个区域来确定该变量取K个值。 但这仅适用于离散随机变量。我研究了如何对连续随机变量执行相同的操作,但是不幸的是,我只能找到诸如逆变换采样之类的技术,这些技术将使用统一随机变量作为输入,并且可以从其他分布中输出随机变量。我在想,也许我们可以反向进行此过程以获得统一的随机变量? 我还考虑过可能使用Normal随机变量作为线性同余生成器的输入,但是我不确定这是否可行。 关于如何处理这个问题有任何想法吗?


1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.