Questions tagged «variance»

随机变量与其均值的期望平方偏差;或有关其均值的数据的平均平方偏差。

10
您将如何向仅理解均值的人解释协方差?
……假设我能够以一种直观的方式(直观地理解“方差”)或说:他们是数据值与“均值”的平均距离,并且方差是平方单位,我们取平方根以保持单位不变,这称为标准偏差。 让我们假设这是“接收者”明确表达和(希望)理解的。现在什么是协方差?如何在不使用任何数学术语/公式的情况下用简单的英语解释它?(即,直观的解释。;) 请注意:我确实知道该概念背后的公式和数学公式。我希望能够以一种易于理解的方式“解释”相同的内容,而无需包括数学运算。即“协方差”到底是什么意思?


7
留一法与K折交叉验证的偏差和方差
在模型方差和偏差方面,不同的交叉验证方法如何比较? 我的问题部分源于此线程:折交叉验证中的最佳折叠数:留一法CV始终是最佳选择吗?ķKK ķ。那里的答案表明,通过留一法交叉验证学习的模型具有比通过常规倍交叉验证法学习的模型更高的方差,这使得留一法CV成为较差的选择。ķKK 但是,我的直觉告诉我,在留一式CV中,模型之间的方差应该比折CV 中的方差小,因为我们仅跨折移动一个数据点,因此折之间的训练集实质上重叠。ķKK 或朝另一个方向发展,如果折CV 中的较低,则训练集的折折将完全不同,并且所得的模型更有可能不同(因此方差更高)。 ķķKKķKK 如果上述论点是正确的,为什么用留一法CV学习的模型会有更高的方差?

10
直观地理解“差异”
解释某人方差概念的最干净,最简单的方法是什么?直觉上是什么意思?如果要向他们的孩子解释这一点,那该怎么办? 这是我很难阐明的概念,尤其是在将差异与风险相关时。我在数学上理解它,也可以用这种方式解释它。但是,在解释现实世界现象时,可以这么说,您如何理解方差及其在“现实世界”中的适用性。 假设我们正在使用随机数来模拟对股票的投资(滚动骰子或使用Excel表格都没关系)。通过将随机变量的每个实例与回报中的“某些变化”相关联,我们可以获得“投资回报”。例如。: 滚动1意味着0.8%的变化$ 1的投入,5 1.1%的变化$ 1等。 现在,如果此模拟运行大约50次(或20或100),我们将获得一些价值和最终投资价值。那么,“方差”实际上告诉我们是否要根据上述数据集进行计算?一个“看到”的是什么-如果方差变成1.7654或0.88765或5.2342,这甚至意味着什么?我对这项投资有何看法?我可以得出一些结论-用外行的话来说。 请也随意增加标准偏差的问题!尽管我觉得理解起来“更容易”,但是将有助于使它也“直观地”变得清晰起来,这一点将不胜感激!

3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

8
生成与现有变量具有定义的相关性的随机变量
对于模拟研究,我必须生成随机变量,这些变量显示与现有变量的预定义(填充)相关性。ÿYY 我研究了这些R软件包copula,CDVine它们可以生成具有给定依赖关系结构的随机多变量分布。但是,不可能将结果变量之一固定为现有变量。 任何想法和现有功能的链接表示赞赏! 结论: 提出了两个有效的答案,有不同的解决方案: 一个R 脚本由卡拉卡尔,其计算与一个随机变量精确(样品)的相关性,以一个预定义的变量 我发现了一个R 函数,该函数计算与预定义变量具有定义的总体相关性的随机变量 [@ttnphns的补充:我可以自由地将问题标题从单个固定变量的情况扩展到任意数量的固定变量;即如何生成具有预定义正确性和一些固定的现有变量的变量]

5
在没有模拟的情况下,统计学家究竟如何同意使用(n-1)作为总体方差的无偏估计量?
分母的计算公式的分母为:(n − 1 )(n−1)(n-1) s2= ∑ñ我= 1(x一世− x¯)2n − 1s2=∑i=1N(xi−x¯)2n−1s^2 = \frac{\sum_{i=1}^N (x_i - \bar{x})^2}{n-1} 我一直想知道为什么。但是,阅读和观看一些有关“为什么”的优质视频似乎是人口方差的良好无偏估计。而n低估了(n - 2 )高估了总体方差。(n − 1 )(n−1)(n-1)ñnn(n − 2 )(n−2)(n-2) 我想知道的是,在没有计算机的时代,这种选择是如何做出的?是否有实际的数学证明来证明这一点?或者,这纯粹是经验和统计学家亲自进行了大量的计算,以得出当时的“最佳解释”? 在19世纪初期,统计学家是如何借助计算机提出这个公式的?手册还是比看得见的更多?


5
N和N-1在计算总体方差方面有什么区别?
在计算总体方差时,我没有得到为什么N和为什么N-1。什么时候使用N以及何时使用N-1? 点击这里查看大图 它说,当人口很大时,N和N-1之间没有区别,但是并不能说明为什么一开始就有N-1。 编辑:请不要与n和n-1用于估计的混淆。 Edit2:我不是在谈论人口估计。



3
对数转换的预测变量和/或响应的解释
我想知道是否仅对因变量(无论是因变量还是自变量)还是仅对自变量进行了对数转换,在解释上是否有所不同。 考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长,但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

1
多个随机变量乘积的方差
我们知道两个自变量的答案: Var(XY)=E(X2Y2)−(E(XY))2=Var(X)V 一- [R (ÿ)+ V a r(X)(E(是))2+ V a r(Y)(E(X))2V一种[R(Xÿ)=Ë(X2ÿ2)-(Ë(Xÿ))2=V一种[R(X)V一种[R(ÿ)+V一种[R(X)(Ë(ÿ))2+V一种[R(ÿ)(Ë(X))2 {\rm Var}(XY) = E(X^2Y^2) − (E(XY))^2={\rm Var}(X){\rm Var}(Y)+{\rm Var}(X)(E(Y))^2+{\rm Var}(Y)(E(X))^2 但是,如果我们采用两个以上变量的乘积,就方差和每个变量的期望值而言,答案是什么?V 一- [R( X1个X2⋯ Xñ)V一种[R(X1个X2⋯Xñ){\rm Var}(X_1X_2 \cdots X_n)

1
计算科恩的Kappa方差(和标准误差)
Kappa()统计数据是由Cohen [1]在1960年引入的,用于测量两个评估者之间的一致性。然而,它的差异在相当长一段时间以来一直是矛盾的根源。κκ\kappa 我的问题是,对于大型样本,哪种方法是最佳计算方法?我倾向于相信由Fleiss [2]测试和验证的是正确的选择,但这似乎并不是唯一发表的似乎是正确的(并在相当近期的文献中使用)。 现在,我有两种具体方法来计算其渐近大样本方差: Fleiss,Cohen和Everitt发表的校正方法[2]。 增量法可以在Colgaton,2009 [4](第106页)的书中找到。 为了说明这种混淆,以下是Fleiss,Cohen和Everitt [2]的引文,重点是我的话: 在实现最终成功之前,许多人类的努力被反复失败所困扰。珠穆朗玛峰的缩放就是一个例子。西北通道的发现是第二次。推导正确的kappa标准误差是第三次。 因此,以下是发生的情况的小结: 1960年:科恩(Cohen)发表论文“名义尺度的一致性系数” [1],介绍了他的机会校正的两个评估者之间的一致性度量,称为。但是,他为方差计算发布了错误的公式。κκ\kappa 1968年:Everitt尝试更正它们,但他的公式也不正确。 1969年:Fleiss,Cohen和Everitt在论文“ Kappa和加权Kappa的大样本标准误差”中发表了正确的公式[2]。 1971年:Fleiss 用相同的名称发布了另一个统计信息(但有所不同),其方差公式不正确。κκ\kappa 1979年:Fleiss Nee和Landis出版了Fleiss的的更正公式。κκ\kappa 首先,请考虑以下符号。此表示法意味着将求和运算符应用于点所放置的维度中的所有元素: pi.=∑j=1kpij pi.=∑j=1kpij\ \ \ p_{i.} = \displaystyle\sum_{j=1}^{k} p_{ij} p.j=∑i=1kpij p.j=∑i=1kpij\ \ \ p_{.j} = \displaystyle\sum_{i=1}^{k} p_{ij} 现在,人们可以将Kappa计算为: κ^=po−pc1−pe κ^=po−pc1−pe\ \ \ \hat\kappa = \displaystyle\frac{p_o-p_c}{1-p_e} 在其中 po=∑i=1kpii po=∑i=1kpii\ \ …


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.