Questions tagged «normal-distribution»

正态分布或高斯分布的密度函数为对称的钟形曲线。它是统计中最重要的分布之一。使用[normality]标签询问有关正常性测试的信息。

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

3
如何将瘦态分布转变为正态分布?
假设我有一个变数变量,我想将其转换为正态分布。哪些转换可以完成此任务?我很清楚,转换数据可能并不总是理想的,但是作为一项学术追求,假设我想将数据“锤击”到正常状态。此外,从图中可以看出,所有值均严格为正。 我已经尝试了各种转换(我以前见过的几乎所有转换,包括等),但是它们都不能很好地工作。是否有使Leptokurtic分布更正常的众所周知的转换?1X,X−−√,asinh(X)1X,X,asinh(X)\frac 1 X,\sqrt X,\text{asinh}(X) 请参见下面的示例普通QQ图:

4
回归残差分布假设
为什么有必要将分布假设置于误差上,即 ,具有 ε 我〜Ñ(0 ,σ 2)。ÿ一世= Xβ+ ϵ一世yi=Xβ+ϵiy_i = X\beta + \epsilon_{i}ϵ一世〜ñ(0 ,σ2)ϵi∼N(0,σ2)\epsilon_{i} \sim \mathcal{N}(0,\sigma^{2}) 为什么不写 ,与 ÿ 我〜Ñ(X β,σ 2),ÿ一世= Xβ+ ϵ一世yi=Xβ+ϵiy_i = X\beta + \epsilon_{i}ÿ一世〜ñ(Xβ^,σ2)yi∼N(Xβ^,σ2)y_i \sim \mathcal{N}(X\hat{\beta},\sigma^{2}) 其中在任一情况下。 我已经看到它强调指出分布假设是基于错误而不是数据,但没有解释。 ϵ一世= y一世- ÿ^ϵi=yi−y^\epsilon_i = y_i - \hat{y} 我不太了解这两种说法之间的区别。在某些地方,我看到分布假设被放置在数据上(贝叶斯照明。它似乎主要是),但是大多数情况下,假设被放置在错误上。 在建模时,为什么/应该选择一个假设还是另一个假设开始?

1
为什么高斯线性模型中的F检验功能最强大?
对于高斯线性模型,其中μ,假定为位于某些向量空间W ^和ģ对标准正态分布ř Ñ,所述的统计˚F -test为ħ 0:{ μ ∈ ù }其中ü ⊂ w ^是一个向量空间,是的增加一到一个功能偏差统计: ˚F = φ ( 2 日志SUP μ ∈ w ^ÿ= μ + σGY=μ+σGY=\mu+\sigma Gμμ\muw ^WWGGG[RñRn\mathbb{R}^nFFFH0:{ μ ∈ û}H0:{μ∈U}H_0\colon\{\mu \in U\}ü⊂ w ^U⊂WU \subset W 我们怎么知道这个统计数据为H0提供了最有力的检验(也许在丢弃了异常情况之后)?因为这个定理断言,似然比测试是最有力的对点的假设这并不奈曼皮尔森定理干ħ0:{μ=μ0,σ=σ0}和ħ1:{F= ϕ ( 2 对数SUPμ ∈ w ^,σ> 0L (μ ,σ| ÿ)SUPμ ∈ û,σ> …

2
t分布密度函数的直觉
我正在研究学生的t分布,我开始怀疑,如何得出t分布密度函数(来自Wikipedia,http://en.wikipedia.org/wiki/Student%27s_t-distribution): F(t )= Γ (v + 12)v π--√Γ (v2)( 1 + 吨2v)− v + 12f(t)=Γ(v+12)vπΓ(v2)(1+t2v)−v+12f(t) = \frac{\Gamma(\frac{v+1}{2})}{\sqrt{v\pi}\:\Gamma(\frac{v}{2})}\left(1+\frac{t^2}{v} \right)^{-\frac{v+1}{2}} 其中是自由度,Γ是伽马函数。这个功能的直觉是什么?我的意思是,如果我查看二项式分布的概率质量函数,这对我来说很有意义。但是t分布密度函数对我完全没有意义...乍一看根本不直观。还是直觉认为它具有钟形曲线并满足我们的需求?vvvΓΓ\Gamma Thnx寻求任何帮助:)

2
当数据具有高斯分布时,将表征多少个样本?
在一维中分布的高斯数据需要两个参数来表征(均值,方差),并且有传言说,大约30个随机选择的样本通常足以以合理的高置信度估计这些参数。但是随着尺寸数量的增加会发生什么? 在二维(例如身高,体重)中,需要5个参数来指定“最佳拟合”椭圆。在三个维度上,这增加了9个参数来描述一个椭球,而在4-D中则增加了14个参数。我想知道估计这些参数所需的样本数量是否也以可比的速度,以较慢的速度或(请!)以较高的速度增加。更好的是,如果有一条被广泛接受的经验法则,建议在给定数量的维度上需要多少个样本来表征高斯分布,那将是一个很好的认识。 更精确地说,假设我们要定义一个以“平均点”为中心的对称“最佳拟合”边界,我们可以确信其中有95%的样本将掉落。我想知道以适当的高置信度(> 95%)查找参数以近似此边界(一维的间隔,二维的椭圆等)可能需要多少个样本,以及该数量如何随置信度的变化而变化。尺寸数量增加。


2
有限的高斯混合与高斯之间的距离是多少?
假设我混合了有限数量的具有已知权重,均值和标准差的高斯。手段不平等。当然,由于力矩是组分力矩的加权平均值,因此可以计算出混合物的平均值和标准偏差。混合不是正态分布,但是离正态有多远? 上图显示了高斯混合物的概率密度,其中高斯混合物的均值由标准差(各组分的标准差)隔开,而一个高斯混合物的均值和方差相同。222 111 动机:我不同意一些懒惰的人关于他们尚未测量的一些实际分布,他们认为这些分布接近正常值,因为那样很好。我也很懒 我也不想测量分布。我想能够说出他们的假设是不一致的,因为他们说的是,高斯与不同均值的有限混合是不正确的高斯。我不仅要说尾巴的渐近形状是错误的,因为这些只是近似值,仅应在均值的几个标准偏差内合理地准确。我想说的是,如果这些分量被正态分布很好地近似,那么混合就不是,并且我想能够对此进行量化。 L1L1L^12221/41/41/4

2
虚假相关的期望值
我们独立于正态分布绘制NNN样本,每个样本的大小为。(μ ,σ 2)nnn(μ,σ2)(μ,σ2)(\mu,\sigma^2) 然后,从样本中选择彼此具有最高(绝对)Pearson相关性的2个样本。NNN 这种相关性的期望值是多少? 谢谢[PS这不是作业]

1
适用于高斯混合模型(GMM)的Python软件包
在Python中使用高斯混合模型(GMM)似乎有几种选择。乍看之下至少有: PyMix- http: //www.pymix.org/pymix/index.php 混合物建模工具 PyEM- http://www.ar.media.kyoto-u.ac.jp/members/david/softwares/em/,它是Scipy工具箱的一部分,似乎专注于GMM 更新:现在称为sklearn.mixture 。 PyPR- http: //pypr.sourceforge.net/ 模式识别和相关工具,包括GMM ...甚至其他人。它们似乎都提供了GMM的最基本需求,包括创建和采样,参数估计,聚类等。 它们之间有什么区别,应该如何确定最适合特定需求的呢? 参考:http : //www.scipy.org/Topical_Software




3
Jeffreys Prior用于均值和方差未知的正态分布
我正在阅读先验分布,并为均值和方差未知的正态分布随机变量的样本计算了Jeffreys Prior。根据我的计算,以下适用于现有杰弗里: p (μ ,σ2)= dË Ť (我)-----√= de t (1 / σ2001 /(2 σ4))------------------√= 12个σ6----√∝ 1σ3。p(μ,σ2)=dËŤ(一世)=dËŤ(1个/σ2001个/(2σ4))=1个2σ6∝1个σ3。 p(\mu,\sigma^2)=\sqrt{det(I)}=\sqrt{det\begin{pmatrix}1/\sigma^2 & 0 \\ 0 & 1/(2\sigma^4)\end{pmatrix}}=\sqrt{\frac{1}{2\sigma^6}}\propto\frac{1}{\sigma^3}. 在这里,一世一世I是费舍尔的信息矩阵。 但是,我还阅读了以下出版物和文件: p (μ ,σ2)∝ 1 / σ2p(μ,σ2)∝1个/σ2p(\mu,\sigma^2)\propto 1/\sigma^2见第2.2节中卡斯和瓦塞尔曼(1996)。 参见第25页中羊和Berger(1998)p (μ ,σ2)∝ 1 / σ4p(μ,σ2)∝1个/σ4p(\mu,\sigma^2)\propto 1/\sigma^4 如Jeffreys Prior那样,均值和方差未知的正态分布。杰弗里斯先验的“实际”是什么?

2
正弦波的概率分布
当存在一些测量误差时,我希望从一个振荡函数来分析计算采样点的概率分布。我已经计算了“无噪声”部分的概率分布(我将在结尾处进行介绍),但是我不知道如何包括“噪声”。 数值估算 更清楚地说,假设有一个函数,您可以在一个周期内随机选择点;如果您将直方图上的点归类,您将获得与分布有关的信息。ÿ(x )= 罪(x )ÿ(X)=罪⁡(X)y(x) = \sin(x) 无噪音 例如,这里是和相应的直方图š 我Ñ (X )s一世ñ(X)sin(x) 有噪音 现在,如果存在一些测量误差,那么它将改变直方图的形状(因此,我认为是基本分布)。例如 解析计算 因此,希望我已经说服了两者之间存在一些差异,现在我将写出如何计算“无噪音”情况: 无噪音 ÿ(x )= 罪(x )ÿ(X)=罪⁡(X) y(x) = \sin(x) 然后,如果我们采样的时间是均匀分布的,则的概率分布必须满足:ÿÿy P(y)dÿ= dX2个πP(ÿ)dÿ=dX2π P(y) dy = \frac{dx}{2\pi} 然后因为 dXdÿ= ddÿ(反正弦(y)) = 11 − y2-----√dXdÿ=ddÿ(反正弦⁡(ÿ))=1个1个-ÿ2\frac{dx}{dy} = \frac{d}{dy}\left(\arcsin(y)\right) = \frac{1}{\sqrt{1 - y^{2}}} 所以 P(y)= 12个π1 − y2-----√P(ÿ)=1个2π1个-ÿ2 …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.