Questions tagged «normality-assumption»

许多统计方法都假定数据是正态分布的。使用此标签可对有关正常性假设和检验或关于正常性作为“属性”的疑问。对于正态分布本身的问题,请使用[正态分布]。

1
自然界中分布的任何过程是否完全正常?
关于自然中的正态分布的重要性已有很多论述。许多测量值,例如身高或体重,大致呈正态分布。但是据我了解,它们都不是完全正常的。 考虑到正态分布是最大熵分布之一,自然应该“喜欢它”似乎是合理的。但是经过一番思考,我无法提出任何“真正的”正常随机变量的例子。 我的问题是那里有什么很好的例子来说明正态分布的随机变量?

1
关于t检验的正态假设的问题
对于t检验,根据大多数文献,假设人口数据呈正态分布。我不知道为什么。t检验不是只要求样本均值的抽样分布是正态分布,而不是总体吗? 如果情况是t检验最终只要求样本分布具有正态性,那么总体可以看起来像任何分布,对吗?只要样本数量合理即可。那不是中央极限定理所陈述的吗? (我在这里指的是一个样本或独立样本的t检验)

2
尽管具有正态性假设,为什么等级的皮尔逊相关性仍然有效?
我目前正在阅读有关Pearson相关性的假设。随后的t检验的一个重要假设似乎是两个变量都来自正态分布。如果他们不这样做,则提倡使用替代措施,例如Spearman rho。Spearman相关性的计算就像Pearson相关性一样,仅使用X和Y的等级而不是X和Y本身,对吗? 我的问题是:如果需要将输入到Pearson相关中的变量进行正态分布,那么即使输入变量是等级,为什么Spearman相关性的计算仍然有效?我的排名肯定不是来自正态分布... 到目前为止,我唯一得出的解释是,对rho的重要性的检验可能与Pearson相关t检验的检验有所不同(以不需要正态性的方式),但是到目前为止,我还没有找到公式。但是,当我运行一些示例时,除最后几位数字外,等级的Phoson相关性的rho和t检验的p值始终匹配。对我来说,这看起来不像是一个突破性的过程。 您可能会有任何解释和想法!

3
评估正态性检验的功效(用R表示)
我想评估R中不同样本量的正态性检验的准确性(我意识到正态性检验可能会产生误导)。例如,要查看Shapiro-Wilk检验,我正在进行以下模拟(以及绘制结果),并希望随着样本数量的增加,拒绝null的可能性降低: n <- 1000 pvalue_mat <- matrix(NA, ncol = 1, nrow = n) for(i in 10:n){ x1 <- rnorm(i, mean = 0, sd = 1) pvalue_mat[i,] <- shapiro.test(x1)$p.value } plot(pvalue_mat) 我的想法是,随着样本数量的增加,拒绝率应该会降低,但是看起来相当一致。我想我对此有误解-任何想法都欢迎。

2
计算数据的ROC曲线
因此,我进行了16次试验,试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下,只有试验1为“真阳性”: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是,我真的不确定如何根据此数据制作ROC曲线(FPR与TPR或FAR与FRR)。哪一个都不重要,但是我只是对如何进行计算感到困惑。任何帮助,将不胜感激。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

7
正态分布和单调变换
我听说自然界中发生的许多数量都是正态分布的。通常使用中心极限定理证明这一点是正确的,该定理表示,当对大量iid随机变量求平均时,将获得正态分布。因此,例如,由大量基因的加和效应决定的性状可能近似正态分布,因为基因值的行为可能大致类似于同义随机变量。 现在,令我困惑的是,在单调变换下,正态分布的特性显然不是不变的。因此,如果有两种方法可以测量与单调变换相关的事物,则它们不可能都呈正态分布(除非单调变换是线性的)。例如,我们可以通过直径,表面积或体积来测量雨滴的大小。假设所有雨滴的形状相似,则表面积与直径的平方成正比,而体积与直径的立方成正比。因此,所有这些测量方法均不能正态分布。 因此,我的问题是,分布确实变为正态的特定缩放方式(即,单调变换的特定选择)是否必须具有物理意义。例如,高度是应该正态分布还是高度的平方,或者高度的对数,或者高度的平方根?有没有一种方法可以通过理解影响身高的过程来回答这个问题?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.