统计和大数据 normal-distribution

2

我主要有计算机科学背景，但是现在我想教自己一些基本数据。我有一些我认为具有泊松分布的数据我有两个问题：这是泊松分布吗？其次，是否可以将其转换为正态分布？任何帮助，将不胜感激。非常感谢

10 normal-distribution data-transformation poisson-distribution

4

我的问题如下：我从某个点一次在地面上几米处投下40个球。球滚动，停下来。使用计算机视觉，我计算了XY平面中的质心。我只对从质心到每个球的距离感兴趣，这是使用简单几何图形计算的。现在，我想知道与中心的单侧标准偏差。因此，我将能够知道一定数量的球在一个std半径内，更多球在2 * std半径内，依此类推。如何计算单面标准偏差？正常方法将声明一半球位于0均值的“负侧”。在这个实验中，这当然是没有意义的。我是否必须确保滚珠符合标准分布？感谢您的任何帮助。

10 normal-distribution standard-deviation

4

R中的离散时间事件历史（生存）模型

我正在尝试在R中拟合离散时间模型，但不确定如何执行。我读过您可以将因变量组织在不同的行中，每个时间观察行一个，并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲，我有三列：ID，Event（在每个时间范围内为1或0）和Time Elapsed（自观察开始以来）以及其他协变量。如何编写适合模型的代码？哪个因变量？我想我可以将其Event用作因变量，并将其包括Time Elapsed在协变量中。但是，会发生什么ID呢？我需要吗？谢谢。

10 r survival pca sas matlab neural-networks r logistic spatial spatial-interaction-model r time-series econometrics var statistical-significance t-test cross-validation sample-size r regression optimization least-squares constrained-regression nonparametric ordinal-data wilcoxon-signed-rank references neural-networks jags bugs hierarchical-bayesian gaussian-mixture r regression svm predictive-models libsvm scikit-learn probability self-study stata sample-size spss wilcoxon-mann-whitney survey ordinal-data likert group-differences r regression anova mathematical-statistics normal-distribution random-generation truncation repeated-measures variance variability distributions random-generation uniform regression r generalized-linear-model goodness-of-fit data-visualization r time-series arima autoregressive confidence-interval r time-series arima autocorrelation seasonality hypothesis-testing bayesian frequentist uninformative-prior correlation matlab cross-correlation

1

R线性回归分类变量“隐藏”值

这只是我多次遇到的示例，因此我没有任何示例数据。在R中运行线性回归模型： a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的，具有三个值，例如“低”，“中”和“高”。但是，R给出的输出将类似于： summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素（x2是一个因素）上引入了某种虚拟编码。我只是想知道，如何解释x2“高”值？例如，x2在此处给出的示例中，“ High” 对响应变量有什么影响？我在其他地方（例如这里）已经看到了这样的示例，但是还没有找到我能理解的解释。

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

1

高斯效率是什么意思？

如果有可靠的估计量，高斯效率意味着什么？例如，高斯效率为82％，击穿点为50％。问ñ问ñQ_{_n} 参考文献是：Rousseeuw PJ和Croux，C.（1993）。“中位数绝对偏差的替代方法。” J. American Statistics Assoc。，88，1273-1283

10 normal-distribution scales robust

1

0删减的多元法线的均值和方差是多少？

设在。的均值和协方差矩阵是什么（最大逐元素计算）？Z∼N(μ,Σ)Z∼N(μ,Σ)Z \sim \mathcal N(\mu, \Sigma)RdRd\mathbb R^dZ+=max(0,Z)Z+=max(0,Z)Z_+ = \max(0, Z) 例如，这是因为，如果我们在深层网络中使用ReLU激活功能，并通过CLT假定给定层的输入近似正常，则这就是输出的分布。（我确信很多人以前都已经计算过了，但是我找不到以合理可读的方式列出的结果。）

9 probability distributions normal-distribution moments censoring

1

什么是CDF逆正态分布公式

有谁知道正态分布的逆累积分布函数是什么？它有一个封闭的形式表达吗？使用Google找不到任何好的答案。

9 normal-distribution inverse-cdf

1

法线的二次形式的分布

我试图找出这里 Ž 我〜Ñ（0 ，1 ），IID我知道，单独服用各条款， Ñ Σ我= 1 ž 2 我〜χ 2（Ñ ）和 1(n−1)∑i=1nZ2i−(∑i=1nZi)2(∗)(n−1)∑i=1nZi2−(∑i=1nZi)2(∗) (n-1) \sum_{i=1}^n Z_i^2 - \left( \sum_{i=1}^n Z_i \right)^2 \qquad (*) Zi∼N(0,1)Zi∼N(0,1)Z_i \sim \mathcal{N}(0,1)∑i=1nZ2i∼χ2(n)∑i=1nZi2∼χ2(n) \sum_{i=1}^n Z_i^2 \sim \chi^2(n) 但是我不确定（*）的分布1n(∑i=1nZi)2∼χ2(1).1n(∑i=1nZi)2∼χ2(1). \frac{1}{n}\left( \sum_{i=1}^n Z_i \right)^2 \sim \chi^2(1).

9 probability distributions normal-distribution

1

什么时候可以写出“我们假设经验分布为正态分布”？

在医学等应用学科的教学中，根深蒂固的是，人群中生物医学数量的测量遵循正常的“钟形曲线”。Google对字符串“我们假定为正态分布”的搜索返回结果！听起来，“在气候变化研究中，“鉴于极少的极端数据点，我们假设温度异常呈正态分布”。或在企鹅的争议较小的文件上“假设雏鸡的孵化日期呈正态分布”；或 “我们假设GDP增长冲击呈正态分布”，23,90023,900\small 23,900， ... 和其他东西）。最近，我发现自己质疑计数数据由于其严格的正性而被视为正态分布。当然，计数数据是离散的，这使得它们的正常性更加人为。但是，即使撇开后面的观点，为什么应该将连续的经验性测量（例如，体重，身高或血糖浓度）（通常被认为是“连续的”）视为正常的呢？他们所拥有的负面已实现的观察结果绝不会超过计数！我了解到，当标准偏差明显低于平均值时，表明负值很少（“ 95％范围检查”），这可能是一个实际的假设，并且频率直方图也可以支持该偏差。但是问题似乎并不简单，快速搜索便产生了有趣的东西。在《自然》杂志上，我们可以在DF Heath的一封信中找到以下陈述：“我想指出的是，对于某些类型的数据的统计分析，假设数据是从正常人群中提取的，通常是错误的。对数正态分布的假设更好。这种选择已被统计学家，经济学家和物理学家广泛使用，但由于某些原因，其他学科的科学家常常忽略了这一点。” Limpert指出，“对数正态模型可能在许多科学家认为正态为有效近似的意义上可以作为近似值”，同时指出正态拟合优度检验的功效较低，并且选择困难处理小样本时，凭经验得出正确的分布。因此，问题是，“在没有进一步支持证据的情况下，何时可以接受应用科学中经验度量的正态分布？” 而且，为什么其他选择（例如对数正态）没有，甚至可能不会被采用？

9 normal-distribution assumptions normality-assumption lognormal

2

服从二次正态分布的多元正态分布样本

我想有效地绘制样品x∈Rdx∈Rdx \in \mathbb{R}^d从N(μ,Σ)N(μ,Σ)\mathcal{N}(\mu, \Sigma)受约束||x||2=1||x||2=1||x||_2 = 1。

9 distributions normal-distribution sampling multivariate-normal importance-sampling

1

自然界中分布的任何过程是否完全正常？

关于自然中的正态分布的重要性已有很多论述。许多测量值，例如身高或体重，大致呈正态分布。但是据我了解，它们都不是完全正常的。考虑到正态分布是最大熵分布之一，自然应该“喜欢它”似乎是合理的。但是经过一番思考，我无法提出任何“真正的”正常随机变量的例子。我的问题是那里有什么很好的例子来说明正态分布的随机变量？

9 normal-distribution normality-assumption

1

X，Y是从N（0,1）开始的id。X> 2Y的概率是多少

我在想，因为来自并且它们是独立的，所以X,YX,YX, YN(0,1)N(0,1)N(0,1) X−2YX−2YX - 2Y具有）的分布。那么概率为。N(0,5)N(0,5)N(0, 5)X−2Y>0X−2Y>0X-2Y > 01/21/21/2 以上对我来说似乎是正确的，尽管看起来概率为。好像有点不对劲。我有做错什么吗？X>nYX>nYX>nY1/21/21/2

9 probability normal-distribution

1

对正态分布的高阶产品的期望

我有两个正态分布的变量和，均值零，协方差矩阵。我有兴趣尝试根据的条目来计算的值。X1X1X_1X2X2X_2ΣΣ\SigmaE[X21X22]E[X12X22]E[X_1^2 X_2^2]ΣΣ\Sigma 我用总概率定律得到但我不确定内部期望会降低到什么。这里还有其他方法吗？E[X21X22]=E[X21E[X22|X1]]E[X12X22]=E[X12E[X22|X1]]E[X_1^2 X_2^2] = E[X_1^2 E[X_2^2 | X_1]] 谢谢。编辑：变量也是多元正态分布。

9 normal-distribution conditional-expectation

1

最大似然估计如何具有近似正态分布？

我一直在阅读有关MLE的信息，这是一种生成拟合分布的方法。我碰到一条声明，说最大似然估计“具有近似正态分布”。这是否意味着如果我对数据和我尝试适应的分布族重复应用MLE多次，我得到的模型将是正态分布的吗？分布序列如何精确地具有分布？

9 normal-distribution estimation maximum-likelihood

1

正常样本的最小订单统计量的期望值

2014年1月25日更新：错误已得到纠正。请忽略上载图像中的“期望值”的计算值-它们是错误的-我不会删除图像，因为它已经生成了该问题的答案。 2014年1月10日更新：发现了错误-所使用的一种来源中存在数学错字。正在准备更正... 从集合的最低次序统计的密度 IID连续随机变量与CDF和pdf是 ñnnFX（x ）FX(x)F_X(x)FX（x ）fX(x)f_X(x)FX（1 ）（X（1 ））= nFX（X（1 ））[ 1 -FX（X（1 ））]n − 1[ 1 ]fX(1)(x(1))=nfX(x(1))[1−FX(x(1))]n−1[1]f_{X_{(1)}}(x_{(1)}) = nf_X(x_{(1)})\left[1-F_X(x_{(1)})\right]^{n-1} \qquad [1] 如果这些随机变量是标准正态的，则 FX（1 ）（X（1 ））= n ϕ （X（1 ））[ 1 - Φ （X（1 ））]n − 1= n ϕ （X（1 ））[ Φ （-X（1 ））]n − 1[ 2 ]fX(1)(x(1))=nϕ(x(1))[1−Φ(x(1))]n−1=nϕ(x(1))[Φ(−x(1))]n−1[2]f_{X_{(1)}}(x_{(1)}) …

9 normal-distribution expected-value order-statistics minimum

Questions tagged «normal-distribution»