Questions tagged «normal-distribution»

正态分布或高斯分布的密度函数为对称的钟形曲线。它是统计中最重要的分布之一。使用[normality]标签询问有关正常性测试的信息。

1
有一个定理说
令为具有定义的均值μ和标准偏差σ的任何分布。中心极限定理说 √XXXμμ\muσσ\sigma 收敛于标准正态分布。如果用样本标准差S代替σ,则有一个定理表明 √n−−√X¯−μσnX¯−μσ \sqrt{n}\frac{\bar{X} - \mu}{\sigma} σσ\sigmaSSS 收敛到t分布吗?由于对于较大的n,t分布接近正态,因此如果存在该定理,则该定理可以声明该极限为标准正态分布。因此,在我看来t分布不是​​很有用-仅当X大致为正态时才有用。是这样吗 n−−√X¯−μSnX¯−μS \sqrt{n}\frac{\bar{X} - \mu}{S} nnnXXX 如果可能的话,当被S替换时,您是否会指出包含该CLT证明的引用?这样的参考可以优选地使用度量理论概念。但是在这一点上,任何事情对我来说都是很棒的。σσ\sigmaSSS

1
为什么(对进行审查)
在一个问题集中,我证明了这个“引理”,其结果对我而言并不直观。是审查模型中的标准正态分布。ZZZ 形式上, 和。然后, 因此,截断域上的期望公式与截断点处的密度之间存在某种联系。谁能解释这背后的直觉?Z∗∼Norm(0,σ2)Z∗∼Norm(0,σ2)Z^* \sim Norm(0, \sigma^2)Z=max(Z∗,c)Z=max(Z∗,c)Z = max(Z^*, c)E[Z|Z>c]=∫∞cziϕ(zi)dzi=12π−−√∫∞cziexp(−12z2i)dzi=12π−−√exp(−12c2) (Integration by substitution)=ϕ(c)E[Z|Z>c]=∫c∞ziϕ(zi)dzi=12π∫c∞ziexp(−12zi2)dzi=12πexp(−12c2) (Integration by substitution)=ϕ(c)\begin{align} E[Z|Z>c] &= \int_c^\infty z_i \phi({z_i})\mathrm{d}z_i \\ &= \frac{1}{\sqrt{2\pi}}\int_c^\infty z_i \exp\!\bigg(\frac{-1}{2}z_i^2\bigg)\mathrm{d}z_i \\ &= \frac{1}{\sqrt{2\pi}} \exp\!\bigg(\frac{-1}{2}c^2\bigg) \quad\quad\quad\quad\text{ (Integration by substitution)}\\ &= \phi(c) \end{align}(c)(c)(c)

1
我对转换后的因变量进行日志记录,可以将GLM正态分布与LOG链接功能一起使用吗?
我有一个关于广义线性模型(GLM)的问题。我的因变量(DV)是连续的并且不正常。因此,我对其进行了日志转换(仍然不正常,但对其进行了改进)。 我想将DV与两个类别变量和一个连续协变量相关联。为此,我想进行GLM(我正在使用SPSS),但是我不确定如何决定要选择的分布和功能。 我已经进行了Levene的非参数检验,并且我具有方差均匀性,因此我倾向于使用正态分布。我已经读过,对于线性回归,数据不需要是正态的,残差也可以。因此,我从每个GLM分别打印了标准化的Pearson残差和线性预测变量的预测值(GLM正常标识函数和正常对数函数)。我已经进行了正态性检验(直方图和Shapiro-Wilk),并分别针对两个预测值绘制了残差与预测值(以检查随机性和方差)。来自身份函数的残差不正常,但来自对数函数的残差正常。我倾向于选择具有对数链接功能的正态,因为Pearson残差呈正态分布。 所以我的问题是: 可以对已经进行日志转换的DV使用GLM正态分布和LOG链接功能吗? 方差同质性检验是否足以证明使用正态分布是合理的? 残差检查程序是否正确以证明选择链接功能模型是正确的? 左侧是DV分布图,右侧是对数链接功能,是GLM法线的残差。

2
用逻辑函数转换的高斯随机变量的期望值
逻辑函数和标准差通常都表示为。我将使用和作为标准偏差。σσ\sigmaσ(x)=1/(1+exp(−x))σ(x)=1/(1+exp⁡(−x))\sigma(x) = 1/(1+\exp(-x))sss 我有一个逻辑输入随机输入的逻辑神经元,其均值和标准差我所知。我希望可以通过一些高斯噪声很好地估计出与平均值的差。因此,略微使用符号,假定它产生。的期望值是多少?与或相比,标准偏差可能大或小。理想值的良好闭合形式近似值几乎与闭合形式解决方案一样好。μμ\musssσ(μ+N(0,s2))=σ(N(μ,s2))σ(μ+N(0,s2))=σ(N(μ,s2))\sigma(\mu + N(0,s^2))=\sigma(N(\mu,s^2))σ(N(μ,s2))σ(N(μ,s2))\sigma(N(\mu,s^2))sssμμ\mu111 我认为不存在封闭形式的解决方案。这可以看作是卷积,并且逻辑密度的特征函数是已知的(),但是我不确定有什么帮助。该逆符号计算器无法识别密度物流配送的密度的卷积和标准正态分布,这说明,但并不能证明没有简单的基本积分。更多的间接证据:在一些将高斯输入噪声添加到具有逻辑神经元的神经网络的论文中,这些论文也未给出封闭形式的表达式。πt csch πtπt csch πt\pi t ~\text{csch} ~\pi t000 这个问题产生于试图了解玻尔兹曼机中平均场近似的误差。

2
当变量表现出完美的同时依赖时,多元中心极限定理(CLT)是否成立?
标题总结了我的问题,但为清楚起见,请考虑以下简单示例。令,i = 1,...,n。定义: \ begin {equation} S_n = \ frac {1} {n} \ sum_ {i = 1} ^ n X_i \ end {equation} 和 \ begin {equation} T_n = \ frac {1} {n} \ sum_ {i = 1} ^ n(X_i ^ 2-1-1)\ end {equation} 我的问题:即使当n = 1时S_n和T_n完全相关,\ sqrt {n} S_n和\ …

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
高阶矩的高斯似分布
对于均值和方差未知的高斯分布,标准指数族形式的充分统计量为。我的分布具有,其中N有点像设计参数。这种足够的统计向量是否有相应的已知分布?我需要此分布中的样本,因此从分布中获取准确的样本对我来说至关重要。非常感谢。ţ (X )= (X ,X 2,。。。,X 2 Ñ)Ť(x )= (x ,x2)T(x)=(x,x2)T(x)=(x,x^2)Ť(x )= (x ,x2,。。。,X2 N)T(x)=(x,x2,...,x2N)T(x)=(x,x^2,...,x^{2N})


1
逆协方差矩阵的假设检验
假设我观察到iid ,并希望测试 vech for a整合矩阵和向量。在这个问题上有已知的工作吗?xi∼N(μ,Σ)xi∼N(μ,Σ)x_i \sim \mathcal{N}\left(\mu,\Sigma\right)H0:A H0:A H_0: A\ (Σ−1)=a(Σ−1)=a\left(\Sigma^{-1}\right) = aAAAaaa (对我而言)显而易见的尝试是通过似然比测试,但是似乎要在受到约束的情况下最大化似然率将需要SDP求解器,并且可能非常麻烦。H0H0H_0

2
二分和连续变量之间的相关性
我试图找到二分和连续变量之间的相关性。 从我对此的基础工作中,我发现我必须使用独立的t检验,其前提是变量的分布必须是正态的。 我进行了Kolmogorov-Smirnov检验以测试正态性,发现连续变量是非正态变量并且存在偏斜(针对约4,000个数据点)。 我对变量的整个范围进行了Kolmogorov-Smirnov检验。我应该将它们分组并进行测试吗?就是说,如果我有risk level(0=没有危险,1=有危险)和胆固醇水平,那么我应该: 将它们分为两组,例如 Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS 一起带他们参加考试吗?(我仅对整个数据集执行了此操作。) 之后,如果仍然不正常,该怎么办? 编辑: 上面的情况只是我试图提供我的问题的描述。我有一个数据集,其中包含1000多个变量和大约4000个样本。它们本质上是连续的或绝对的。我的任务是根据这些变量预测一个二分变量(也许想出一个逻辑回归模型)。因此,我认为最初的调查将涉及发现二分法和连续变量之间的相关性。 我试图查看变量的分布情况,因此尝试进行t检验。在这里,我发现正常性是一个问题。在大多数这些变量中,Kolmogorov-Smirnov检验的显着性值为0.00。 我应该在这里假设正常吗?这些变量的偏斜度和峰度还表明,几乎在所有情况下数据都偏斜(> 0)。 根据下面给出的注释,我将进一步研究点-二元相关性。但是关于变量的分布,我仍然不确定。

3
如何正式测试正态分布(或其他分布)中的“断裂”
在社会科学中经常会出现这样的情况:应该以某种方式分布的变量(通常说来)最终在某些点周围的分布不连续。 例如,如果存在特定的临界值,例如“通过/失败”,并且如果这些措施容易出错,那么此时可能会出现中断。 一个突出的例子(以下引用)是学生标准化考试成绩通常基本上分布在所有地方,除了60%的人(50-60%的质量很少)和60-65%的质量过多。这在教师为自己的学生考试评分的情况下发生。作者调查了教师是否真的在帮助学生通过考试。 毫无疑问,最令人信服的证据来自显示钟形曲线图,该钟形图在针对不同测试的不同截止点附近具有较大的不连续性。但是,您将如何进行统计检验?他们尝试了插值法,然后比较了高于或低于该分数的分数,还对了高于或低于该临界值的5个分数进行了t检验。虽然明智,但这些都是临时的。谁能想到更好的办法? 链接: 学生和学校评估中的规则和自由裁量权:以纽约州摄政官考试为例 http://www.econ.berkeley.edu/~jmccrary/nys_regents_djmr_feb_23_2011.pdf

3
随机跟踪技术
我在M. Seeger(加利福尼亚大学伯克利分校,Cholesky分解的低秩更新)中遇到了以下随机跟踪技术。Rep,2007年。 tr(A)=E[xTAx]tr⁡(A)=E[xTAx]\operatorname{tr}(\mathbf{A}) = {E[\mathbf{x}^T \mathbf{A} \mathbf{x}]} 其中x∼N(0,I)x∼N(0,I)\mathbf{x} \sim N(\mathbf{0},\mathbf{I})。 作为一个没有深厚的数学背景的人,我想知道如何实现这种平等。此外,我们如何例如以几何方式解释xTAxxTAx\mathbf{x}^T \mathbf{A} \mathbf{x}?为了理解向量的内积及其范围值的含义,应该看哪儿?为什么平均值等于特征值之和?除理论性质外,它的实际意义是什么? 我已经编写了一个MATLAB代码片段以查看它是否有效 #% tr(A) == E[x'Ax], x ~ N(0,I) N = 100000; n = 3; x = randn([n N]); % samples A = magic(n); % any n by n matrix A y = zeros(1, N); for i = …



6
如何在符号
的表示法如何读取?是否服从正态分布?还是是正态分布?也许大约是正常的。X X XX∼N(μ,σ2)X∼N(μ,σ2)X\sim N(\mu,\sigma^2)XXX XXX XXX 如果有几个变量遵循(或不管用什么词)同一分布,该怎么办?怎么写的?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.