Questions tagged «normal-distribution»

正态分布或高斯分布的密度函数为对称的钟形曲线。它是统计中最重要的分布之一。使用[normality]标签询问有关正常性测试的信息。


1
查找统计信息的分布
学习考试。无法回答这个问题。 令是iid随机变量。限定X1,i,X2,i,X3,i,i=1,…,nX1,i,X2,i,X3,i,i=1,…,nX_{1,i},X_{2,i},X_{3,i}, i=1,\ldots,nN(0,1)N(0,1)\mathcal{N}(0,1) Wi=(X1,i+X2,iX3,i)/1+X23,i−−−−−−−√,i=1,…,nWi=(X1,i+X2,iX3,i)/1+X3,i2,i=1,…,nW_i = (X_{1,i} + X_{2,i}X_{3,i})/\sqrt{1 + X_{3,i}^2}, i = 1, \ldots, n, 和,W¯¯¯¯¯n=n−1∑ni=1WiW¯n=n−1∑i=1nWi\overline{W}_n = n^{-1}\sum_{i=1}^nW_i S2n=(n−1)−1∑ni=1(Wi−W¯¯¯¯¯n)2,n≥2.Sn2=(n−1)−1∑i=1n(Wi−W¯n)2,n≥2.S_n^2 = (n-1)^{-1}\sum_{i=1}^n(W_i - \overline{W}_n)^2, n \ge 2. ,的分布是什么?W¯¯¯¯¯nW¯n\overline{W}_nS2nSn2S_n^2 当出现这样的问题时,如何获得最佳方法的想法?

1
“以来
简短的问题:为什么如此? 长问题: 很简单,我试图找出第一个方程式的理由。我正在阅读的书的作者(如果需要,请在此处提供,但不是必需的)声称以下内容: 由于存在近似高斯的假设,我们可以这样写: p0(ξ)= Aϕ (ξ)e x p (一个n + 1ξ+ (一个n + 2+1个2)ξ2+∑我= 1ñ一个一世G一世(ξ))p0(ξ)=Aϕ(ξ)exp(an+1ξ+(an+2+12)ξ2+∑i=1naiGi(ξ)) p_0(\xi) = A \; \phi(\xi) \; exp( a_{n+1}\xi + (a_{n+2} + \frac{1}{2})\xi^2 + \sum_{i=1}^{n} a_i G_i(\xi)) 其中是具有最大熵的观测数据的PDF,假设您仅观测到一系列期望(简单数),其中和是标准化高斯变量的PDF,即0个均值和单位方差。p0(ξ)p0(ξ)p_0(\xi)C一世,我= 1 。。。ñci,i=1...nc_i, i = 1 ... nC一世= E {G一世(ξ)}ci=E{Gi(ξ)}c_i = \mathbb{E}\{G_i(\xi)\}ϕ (ξ)ϕ(ξ)\phi(\xi) 所有这些都是他将上述方程式作为简化PDF的出发点,我知道他是怎么做的,但我没有得到他如何证明上述方程式的正当性,即,起点。p0(ξ)p0(ξ)p_0(\xi) 我试图保持简短,以免混淆任何人,但是如果您需要其他详细信息,请在评论中让我知道。谢谢!

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
iid(均匀或正态)数据的特征值估计分布
假设我有一个数据集 ddd 尺寸(例如 d= 20d=20d=20),以便每个维度都是iid X一世〜ü[ 0 ; 1 ]Xi∼U[0;1]X_i \sim U[0;1] (或者,每个维度 Xi∼N[0;1]Xi∼N[0;1]X_i \sim \mathcal N[0;1]),并且彼此独立。 现在,我从该数据集中绘制一个随机对象,并采用 k=3⋅dk=3⋅dk=3\cdot d最近的邻居,并在此集合上计算PCA。与人们可能期望的相反,特征值并不完全相同。在20个尺寸统一的情况下,典型结果如下所示: 0.11952316626613427, 0.1151758808663646, 0.11170020254046743, 0.1019390988585198, 0.0924502502204256, 0.08716272453538032, 0.0782945015348525, 0.06965903935713605, 0.06346159593226684, 0.054527131148532824, 0.05346303562884964, 0.04348400728546128, 0.042304834600062985, 0.03229641081461124, 0.031532033468325706, 0.0266801529298156, 0.020332085835946957, 0.01825531821510237, 0.01483790669963606, 0.0068195084468626625 对于正态分布数据,结果似乎非常相似,至少在将它们重新缩放为总和为 111 ( N[0;1]dN[0;1]d\mathcal N[0;1]^d 分布显然首先具有较高的方差)。 我想知道是否有任何结果可以预测这种行为?我正在寻找测试该特征值序列是否一定规律,多少特征值符合预期以及哪些特征值与预期值明显不同的方法。 对于给定的(小)样本量 kkk,如果两个变量的相关系数显着,是否有结果?即使是iid变量,有时偶尔也会得到非0的结果kkk。


1
如何基于RMSE计算精度度量?我的大型数据集是否呈正态分布?
我有几千个点的数据集。每个数据集中的值是X,Y,Z,表示空间中的坐标。Z值表示坐标对(x,y)处的高程差。 通常在我的GIS领域,通过将地面真点减去一个测量点(LiDAR数据点)在RMSE中引用高程误差。通常至少使用20个地面检查点。使用此RMSE值,根据NDEP(国家数字高程指南)和FEMA指南,可以计算出准确度:准确度= 1.96 * RMSE。 该精度表示为:“基本垂直精度是可以对数据集之间的垂直精度进行公平评估和比较的值。基本精度是在95%置信水平下计算的,是垂直RMSE的函数。” 我了解正态分布曲线下的面积的95%位于1.96 * std.deviation之内,但这与RMSE不相关。 通常,我会问这样一个问题:使用从2个数据集计算出的RMSE,我如何将RMSE与某种精度相关(即我的数据点的95%在+/- X cm内)?另外,如何使用适用于如此大数据集的测试确定我的数据集是否正态分布?什么是正态分布的“足够好”?所有测试的p <0.05还是应该与正态分布的形状匹配? 我在以下论文中找到了关于此主题的一些很好的信息: http://paulzandbergen.com/PUBLICATIONS_files/Zandbergen_TGIS_2008.pdf


4
如何在2 X 3桌子上进行多个事后卡方检验?
我的数据集包括近海,中海道和近海三种地点类型的生物的总死亡率或生存率。下表中的数字表示站点数。 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 我想知道根据地点​​类型,发生100%死亡率的地点数量是否显着。如果我运行2 x 3卡方,则会得到显着的结果。我是否可以进行事后成对比较,或者实际上应该使用对数方差分析或二项分布的回归?谢谢!


2
将一组数字强制为高斯钟形曲线
(这与我有关堆栈溢出的编程问题有关:贝尔曲线高斯算法(Python和/或C#)。) 在Answers.com上,我找到了以下简单示例: 求算术平均值(平均值)=>集合中所有值的总和,除以集合中元素的数量 查找集合中所有值的平方和 将(2)的输出除以集合中元素的数量 从(3)的输出中减去均值(1)的平方 取(4)的结果的平方根 示例:设置A = {1,3,4,5,7} (1 + 3 + 4 + 5 + 7)/ 5 = 4 (1 * 1 + 3 * 3 + 4 * 4 + 5 * 5 + 7 * 7)= 1 + 9 + 16 + 25 + 49 …

2
计算数据的ROC曲线
因此,我进行了16次试验,试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下,只有试验1为“真阳性”: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是,我真的不确定如何根据此数据制作ROC曲线(FPR与TPR或FAR与FRR)。哪一个都不重要,但是我只是对如何进行计算感到困惑。任何帮助,将不胜感激。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

5
计算正态分布的百分位数
参见此维基百科页面: http://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval#Agresti-Coull_Interval 要获得Agresti-Coull间隔,需要计算正态分布的百分位数,称为 žzz。如何计算百分位数?Wolfram Mathematica和/或Python / NumPy / SciPy中是否有现成的函数可以执行此操作?

3
正态分布
不幸的是,有一个统计问题,我不知道从哪里开始(我正在独自学习,所以如果我听不懂的话,没有人可以问。 问题是 iid N (a ,b 2); a = 0 ; b 2 = 6 ; v a r (X 2 + Y 2)= ?X,YX,YX,Yñ(a ,b2); a = 0 ; b2= 6 ; v 一个[R (X2+ Y2)= ?N(a,b2);a=0;b2=6;var(X2+Y2)=?N(a,b^2); a=0; b^2=6; var(X^2+Y^2)=?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.