Questions tagged «variance»

随机变量与其均值的期望平方偏差;或有关其均值的数据的平均平方偏差。

2
毕达哥拉斯定理的总方差定律
假设XXX和YYY具有有限的第二矩。在具有第二个有限矩的随机变量的希尔伯特空间(具有内积T1,T2T1,T2T_1,T_2由E(T1T2)E(T1T2)E(T_1T_2),||T||2=E(T2)||T||2=E(T2)||T||^2=E(T^2)),我们可以解释E(Y|X)E(Y|X)E(Y|X)作为YYY在函数空间上的投影XXX。 我们也知道,总方差定律为 Var(Y)=E(Var(Y|X))+Var(E(Y|X))Var(Y)=E(Var(Y|X))+Var(E(Y|X))Var(Y)=E(Var(Y|X)) + Var(E(Y|X)) 有没有一种方法可以根据上面的几何图形来解释该定律?有人告诉我定律与边为的直角三角形的勾股定理相同Y,E(Y|X),Y−E(Y|X)Y,E(Y|X),Y−E(Y|X)Y, E(Y|X), Y-E(Y|X)。我理解为什么三角形是直角的,但不了解勾股定理是如何捕捉总方差定律的。

1
为什么我们要稳定方差?
在阅读Kaggle Essay Eval方法时,我遇到了方差稳定化转换。他们使用方差稳定化变换对kappa值进行变换,然后取平均值,然后将其变换回去。即使阅读了我无法理解的关于方差稳定化变换的Wiki,为什么我们实际上仍能稳定方差呢?我们从中获得什么好处?


2
留一法交叉验证的高方差
我一遍又一遍地读到,由于训练折叠的大量重叠,“留一法”交叉验证具有很大的差异。但是,我不明白为什么这样:正是因为训练集几乎相同,交叉验证的性能不应该非常稳定(方差低)吗?还是我对“方差”的概念有完全错误的理解? 我也不太了解LOO如何保持公正,但差异很大?如果LOO估计值等于期望的真实估计值-那么它怎么会有高方差? 注意:我知道这里有一个类似的问题: 为什么关于误差的平均估计的留一法交叉验证(LOOCV)方差很高?但是,回答该问题的人稍后在评论中说,尽管提出了反对,但他已经意识到他的回答是错误的。

1
PCA是否需要任何数量的方差以进行以后的分析?
我有一个包含11个变量的数据集,并进行了PCA(正交)处理以减少数据量。根据我对主题和碎石图的了解,确定要保留的组成部分数量对我来说很明显,两个主要组成部分(PC)足以解释数据,而其余组成部分仅提供较少的信息。 具有并行分析的Scree图:观察到的特征值(绿色)和基于100次仿真的模拟特征值(红色)。Scree图建议使用3台PC,而并行测试仅建议使用前两台PC。 如您所见,前两台PC只能捕获到48%的方差。 由前两台PC在第一平面上绘制的观测结果显示,使用分层聚类聚类(HAC)和K均值聚类,得到了三个不同的聚类。事实证明这3个类别与所讨论的问题非常相关,并且也与其他发现一致。因此,除了仅捕获了48%的方差这一事实以外,其他一切都很好。 我的两位审稿人中的一位说:一位不能太依赖于这些发现,因为只能解释48%的方差,而且这个方差小于要求。 问 是否有任何需要多大的变化应该由PCA捕捉到有效的价值?它不依赖于所使用的领域知识和方法吗?有人可以仅根据所解释的方差的值来判断整个分析的优点吗? 笔记 数据是通过一种称为实时定量聚合酶链反应(RT-qPCR)的分子生物学中非常敏感的方法测量的11个基因变量。 使用R进行分析。 数据分析人员基于他们在微阵列分析,化学计量学,光谱分析等领域中解决现实生活问题的个人经验,给出了很多答案。 请考虑为您的回答提供尽可能多的参考。
15 variance  pca 

1
如何从曲线拟合中解释协方差矩阵?
我不太擅长统计,因此很抱歉,这是一个简单的问题。我以曲线拟合的一些数据,有时候我的数据最适合的形式负指数,有时配合是更接近于一个* é (- b * X 2) + c。但是,有时两者都失败了,我想回到线性拟合中。我的问题是,如何根据从模型返回的结果方差-协方差矩阵确定哪种模型最适合特定数据集一个* ê(- b * X )+ c一种∗Ë(-b∗X)+Ca * e^{(-b * x)} + c一个* ê(- b * X2)+ c一种∗Ë(-b∗X2)+Ca * e^{(-b * x^2)} + cscipy.optimize.curve_fit()函数?我相信方差在此矩阵的对角线之一上,但我不确定如何解释。 更新:基于类似的问题,我希望方差-协方差矩阵可以告诉我我正在尝试的三个模型中的哪个最适合数据(我正在尝试将许多数据集适合这三个模型之一)。 对于给定的示例,结果矩阵如下所示: pcov_lin [[ 2.02186921e-05 -2.02186920e-04] [ -2.02186920e-04 2.76322124e-03]] pcov_exp [[ 9.05390292e+00 -7.76201283e-02 -9.20475334e+00] [ -7.76201283e-02 6.69727245e-04 7.90218415e-02] …


2
如何计算变量分区的方差
我正在运行一个实验,在该实验中我将并行收集(独立)样本,我计算了每组样本的方差,现在我想将所有样本合并起来以找到所有样本的总方差。 由于不确定术语,我很难找到这个的派生词。我认为它是一个RV的分区。 所以,我想找到V一个- [R (X)V一种[R(X)Var(X)从V一个[R (X1)Var(X1个)Var(X_1),V一个- [R (X2)V一种[R(X2)Var(X_2),...,和V一个- [R (Xñ)V一种[R(Xñ)Var(X_n),其中XXX = [ X1个,X2,… ,Xñ][X1个,X2,…,Xñ][X_1, X_2, \dots, X_n]。 编辑:分区不是相同的大小/基数,但是分区大小的总和等于整个样本集中的样本数。 编辑2:这里有一个用于并行计算的公式,但是它仅涉及将分区分为两组而不是ññn组的情况。
15 variance 

1
“ Heywood Case”的确切定义是什么?
我一直在非正式地使用术语“ Heywood Case”来指代由于数值精度问题在线,有限响应迭代更新的方差估计变为负数的情况。(我使用的是Welford方法的一种变体来添加数据并删除较旧的数据。)我的印象是,它适用于因数值误差或建模误差而使方差估计值变为负数的任何情况,但同事我对这个术语的用法感到困惑。除了在因子分析中使用的Google搜索之外,它的搜索量很少,并且似乎是指负方差估计的结果。确切的定义是什么?最初的海伍德是谁?

2
对于什么模型,MLE的偏差下降快于方差?
θ^\hat\thetaθ∗\theta^*nn‖ˆθ−θ∗‖∥θ^−θ∗∥\lVert\hat\theta-\theta^*\rVertO(1/√n)O(1/n−−√)O(1/\sqrt n)‖Eˆθ−θ∗‖∥Eθ^−θ∗∥\lVert \mathbb E\hat\theta - \theta^*\rVert‖Eˆθ−ˆθ‖∥Eθ^−θ^∥\lVert \mathbb E\hat\theta - \hat\theta\rVertO(1/√n)O(1/n−−√)O(1/\sqrt{n}) 我对具有比更快地收缩的偏差的模型感兴趣,但是其中的误差不会以这种更快的速率收缩,因为偏差仍以收缩。特别是,我想知道足够的条件来使模型的偏差以的速率收缩。O(1/√n)O(1/n−−√)O(1/\sqrt n)O(1/√n)O(1/n−−√)O(1/\sqrt n)O(1/n)O(1/n)O(1/n)

5
有没有衡量传播“均匀性”的方法?
我在网上查找,但找不到任何有用的信息。 我基本上是在寻找一种衡量值的“平均”分配方式的方法。例如,X的“均匀”分布分布: 均值和标准差大致相同的“不均匀”分布Y: 但是,是否有任何均匀性度量m使得m(X)> m(Y)?如果没有,那么创建这种度量的最佳方法是什么? (图片来自可汗学院的屏幕截图)

1
如何使用lmer估计具有随机效应的模型的方差成分并将其与lme结果进行比较
我进行了一项实验,从两个不同的来源人群中抚养了不同的家庭。每个家庭被分配两种治疗方法之一。实验结束后,我测量了每个人的几个特征。为了测试治疗或来源的效果以及它们之间的相互作用,我使用了以家庭为随机因素的线性混合效应模型,即 lme(fixed=Trait~Treatment*Source,random=~1|Family,method="ML") 到目前为止,到目前为止,我现在必须计算相对方差分量,即通过处理或源以及交互作用来解释的变化百分比。 没有随机效应,我可以轻松地使用平方和(SS)来计算每个因素所解释的方差。但是对于混合模型(带有ML估计),没有SS,因此我认为我也可以使用Treatment和Source作为随机效应来估计方差,即 lme(fixed=Trait~1,random=~(Treatment*Source)|Family, method="REML") 但是,在某些情况下,lme无法收敛,因此我使用了lme4软件包中的lmer: lmer(Trait~1+(Treatment*Source|Family),data=DATA) 在哪里使用摘要功能从模型中提取方差: model<-lmer(Trait~1+(Treatment*Source|Family),data=regrexpdat) results<-VarCorr(model) variances<-results[,3] 我得到与VarCorr函数相同的值。然后,我使用这些值以总和作为总变化量来计算实际的变化百分比。 我在努力挣扎的是对初始lme模型(以治疗和来源为固定效应)和随机模型以估计方差成分(以治疗和来源为随机效应)的结果的解释。我发现在大多数情况下,由每个因素解释的方差百分比与固定效应的重要性不符。 例如,对于性状HD,最初的lme暗示了相互作用的趋势以及对治疗的重要性。使用后退程序,我发现“治疗”有接近明显的趋势。但是,在估计方差成分时,我发现Source具有最高的方差,占总方差的26.7%。 LME: anova(lme(fixed=HD~as.factor(Treatment)*as.factor(Source),random=~1|as.factor(Family),method="ML",data=test),type="m") numDF denDF F-value p-value (Intercept) 1 426 0.044523 0.8330 as.factor(Treatment) 1 426 5.935189 0.0153 as.factor(Source) 1 11 0.042662 0.8401 as.factor(Treatment):as.factor(Source) 1 426 3.754112 0.0533 和lmer: summary(lmer(HD~1+(as.factor(Treatment)*as.factor(Source)|Family),data=regrexpdat)) Linear mixed model fit by REML Formula: …
14 r  anova  variance  lme4-nlme 

3
如何在R中使用Levene测试功能?
我是统计学和R的新手,使用Levene函数时遇到了麻烦(我想检查两个样本的方差是否相等)。文档说我应该运行: levene.test(y,组) 但是我不知道我应该作为y和group放置什么?我有两个不同的样本,我想检查方差是否相等。我是否应该将样本值之一作为y,将第二个值作为组参数? 有什么提示吗?

1
插入符glmnet与cv.glmnet
在glmnet内部caret使用搜索最佳lambda和cv.glmnet执行相同任务的比较中似乎有很多困惑。 提出了许多问题,例如: 分类模型train.glmnet与cv.glmnet? 在插入符号中使用glmnet的正确方法是什么? 使用`caret`交叉验证`glmnet` 但是没有给出答案,这可能是由于问题的可重复性。在第一个问题之后,我给出了一个非常相似的示例,但确实存在相同的问题:为什么估计的lambda如此不同? library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = 0.001),standardize=FALSE) …

2
为什么通过Bartlett检验诊断的球形度表示PCA不适当?
我了解Bartlett检验与确定您的样本是否来自方差相等的总体有关。 如果样本来自方差相等的总体,则我们无法拒绝检验的原假设,因此,主成分分析是不合适的。 我不确定这种情况(具有同方差数据集)的问题在哪里。拥有所有数据的基础分布都相同的数据集会出现什么问题?如果存在这种情况,我只是没什么大不了的。为什么这会使PCA不合适? 我似乎无法在网上找到任何好的信息。有人解释这一测试为何与PCA有关的经验吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.