Questions tagged «variance»

随机变量与其均值的期望平方偏差;或有关其均值的数据的平均平方偏差。

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 


1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

2
变异与变异相同吗?
这是我在此处进行交叉验证的第一个问题,所以即使看起来很琐碎,也请帮我:-)首先,这个问题可能是语言差异的结果,或者可能是我在统计上确实有缺陷。不过,这里是: 在人口统计中,变异和方差是相同的术语吗?如果没有,两者之间有什么区别? 我知道方差是标准差的平方。我也知道这是衡量数据稀疏程度的一种方法,并且我知道如何计算数据。 但是,我一直在遵循名为“模型思维”的Coursera.org课程,并且讲师清楚地描述了差异,但始终称其为差异。那让我有些困惑。 公平地说,他总是谈论计算种群中某些特定实例的变异。 有人可以告诉我它们是否可以互换,或者我想念什么吗?

2
方差和均方误差之间有什么区别?
我很惊讶以前没有问过这个问题,但是我找不到关于stats.stackexchange的问题。 这是计算正态分布样本方差的公式: ∑(X−X¯)2n−1∑(X−X¯)2n−1\frac{\sum(X - \bar{X}) ^2}{n-1} 这是用于在简单的线性回归中计算观测值的均方误差的公式: ∑(yi−y^i)2n−2∑(yi−y^i)2n−2\frac{\sum(y_i - \hat{y}_i) ^2}{n-2} 这两个公式有什么区别?我可以看到的唯一区别是MSE使用。因此,如果这是唯一的区别,为什么不将它们都称为方差,而将其具有不同的自由度呢?n−2n−2n-2
27 variance  error 


3
给定一个观察值的方差的置信区间
这是“第七届柯尔莫哥洛夫概率论奥林匹克竞赛”中的一个问题: 给定一个来自分布的观测值XXX,且两个参数均未知,请给出的置信区间,置信度至少为99%。Normal(μ,σ2)Normal⁡(μ,σ2)\operatorname{Normal}(\mu,\sigma^2)σ2σ2\sigma^2 在我看来,这应该是不可能的。我有解决方案,但尚未阅读。有什么想法吗? 我将在几天后发布解决方案。 [后续编辑:官方解决方案发布在下面。Cardinal的解决方案更长,但提供了更好的置信区间。也感谢Max和Glen_b的投入。]

2
如果观察值重复,为什么样本方差会发生变化?
差异被认为是价差的量度。因此,我曾认为由于数字均等分布,所以方差3,5等于的方差3,3,5,5。但是情况并非如此,的方差为3,5,2而的方差3,3,5,5为1 1/3。 鉴于解释说方差应该被用来衡量价差,这令我感到困惑。 那么,在这种情况下,价差的度量是什么意思?
25 variance 

1
合并观测值的标准差
我有一个样本观测数据集,存储为范围箱内的计数。例如: min/max count 40/44 1 45/49 2 50/54 3 55/59 4 70/74 1 现在,从中找到平均值的估计非常简单。只需将每个范围区间的平均值(或中位数)用作观察值,并将计数作为权重即可找到加权平均值: x¯∗=1∑Ni=1wi∑i=1Nwixix¯∗=1∑i=1Nwi∑i=1Nwixi\bar{x}^* = \frac{1}{\sum_{i=1}^N w_i} \sum_{i=1}^N w_ix_i 对于我的测试用例,这给了我53.82。 现在我的问题是,找到标准偏差(或方差)的正确方法是什么? 通过搜索,我找到了几个答案,但不确定哪一个实际上适合我的数据集。在这里的另一个问题和随机的NIST文档中,我都能找到以下公式。 s2∗=∑Ni=1wi(xi−x¯∗)2(M−1)M∑Ni=1wis2∗=∑i=1Nwi(xi−x¯∗)2(M−1)M∑i=1Nwis^{2*} = \frac{ \sum_{i=1}^N w_i (x_i - \bar{x}^*)^2 }{ \frac{(M-1)}{M} \sum_{i=1}^N w_i } 对于我的测试用例,其标准偏差为8.35。但是,维基百科有关加权均值的文章给出了两个公式: s2∗=∑Ni=1wi(∑Ni=1wi)2−∑Ni=1w2i∑i=1Nwi(xi−x¯∗)2s2∗=∑i=1Nwi(∑i=1Nwi)2−∑i=1Nwi2∑i=1Nwi(xi−x¯∗)2s^{2*} = \frac{ \sum_{i=1}^N w_i}{(\sum_{i=1}^N w_i)^2 - \sum_{i=1}^N w_i^2} \sum_{i=1}^N w_i(x_i-\bar{x}^*)^2 和 s2∗=1(∑Ni=1wi)−1∑i=1Nwi(xi−x¯∗)2s2∗=1(∑i=1Nwi)−1∑i=1Nwi(xi−x¯∗)2s^{2*} …


2
加权方差的偏差校正
对于未加权方差 存在的偏置校正的样本方差,当平均是从相同的数据估计: Var(X):=1Var(X):=1n∑i(xi−μ)2Var(X):=1n∑i(xi−μ)2\text{Var}(X):=\frac{1}{n}\sum_i(x_i - \mu)^2Var(X):=1n−1∑i(xi−E[X])2Var(X):=1n−1∑i(xi−E[X])2\text{Var}(X):=\frac{1}{n-1}\sum_i(x_i - E[X])^2 我正在研究加权均值和方差,并想知道加权方差的适当偏差校正是什么。使用: mean(X):=1∑iωi∑iωiximean(X):=1∑iωi∑iωixi\text{mean}(X):=\frac{1}{\sum_i \omega_i}\sum_i \omega_i x_i 我正在使用的“天真”,未经校正的方差是: Var(X):=1∑iωi∑iωi(xi−mean(X))2Var(X):=1∑iωi∑iωi(xi−mean(X))2\text{Var}(X):=\frac{1}{\sum_i \omega_i}\sum_i\omega_i(x_i - \text{mean}(X))^2 所以我想知道纠正偏见的正确方法是 A) Var(X):=1∑iωi−1∑iωi(xi−mean(X))2Var(X):=1∑iωi−1∑iωi(xi−mean(X))2\text{Var}(X):=\frac{1}{\sum_i \omega_i - 1}\sum_i\omega_i(x_i - \text{mean}(X))^2 或B) Var(X):=nn−11∑iωi∑iωi(xi−mean(X))2Var(X):=nn−11∑iωi∑iωi(xi−mean(X))2\text{Var}(X):=\frac{n}{n-1}\frac{1}{\sum_i \omega_i}\sum_i\omega_i(x_i - \text{mean}(X))^2 或C) Var(X):=∑iωi(∑iωi)2−∑iω2i∑iωi(xi−mean(X))2Var(X):=∑iωi(∑iωi)2−∑iωi2∑iωi(xi−mean(X))2\text{Var}(X):=\frac{\sum_i \omega_i}{(\sum_i \omega_i)^2-\sum_i \omega_i^ 2}\sum_i\omega_i(x_i - \text{mean}(X))^2 A)当权重较小时对我来说没有意义。归一化值可以是0甚至是负数。但是B)(是观察次数)-这是正确的方法吗?您是否有参考资料可以证明这一点?我相信“更新均值和方差估计:一种改进的方法”,DHD West,1979年使用了这种方法。第三,C)是我对这个问题的答案的解释:https : //mathoverflow.net/questions/22203/unbiased-estimate-of-the-variance-of-an-unnormalized-weighted-meannnn 对于C),我刚刚意识到分母看起来很像。这里有一些一般的联系吗?我认为这并不完全一致;显然我们正在尝试计算方差...Var(Ω)Var(Ω)\text{Var}(\Omega) 他们三个似乎都“生存”设置所有的健全性检查。那么我应该在哪个前提下使用哪个呢?“更新:” whuber建议也使用和所有其余的进行完整性检查。这似乎排除了A和B。ωi=1ωi=1\omega_i=1ω1=ω2=.5ω1=ω2=.5\omega_1=\omega_2=.5ωi=ϵωi=ϵ\omega_i=\epsilon


1
表明对5个主题进行100次测量比对100个主题进行5次测量提供的信息少得多
在一次会议上,我无意中听到以下声明: 5个主题的100次测量所提供的信息比100个主题的5次测量要少得多。 显然这是对的,但是我想知道如何用数学方式证明这一点……我认为可以使用线性混合模型。但是,我对用于估算它们的数学知识不甚了解(我只lmer4为LMM和bmrsGLMM 运行:)您能给我展示一个真实的例子吗?与R中的某些代码相比,我更希望提供一些公式的答案。请随意假设一个简单的设置,例如具有正态分布的随机截距和斜率的线性混合模型。 PS不涉及LMM的基于数学的答案也是可以的。我之所以想到LMM,是因为它们在我看来是一种自然的工具,可以解释为什么来自更多学科的较少量度要比来自少数学科的更多量度更好,但是我很可能错了。

2
如何用循环数据检验方差相等
我对比较8个不同样本(每个样本均来自不同人群)中的变异量感兴趣。我知道这可以通过几种使用比率数据的方法来完成:F检验方差相等,Levene检验等。 但是,我的数据是圆形/方向性的(即表现出周期性的数据,例如风向和一般的角度数据或一天中的时间)。我进行了一些研究,并在R的“ CircStats”包中找到了一个测试-“沃森同质性测试”。缺点是该测试仅比较两个样本,这意味着我将不得不对8个样本进行多次比较(然后使用Bonferonni校正)。 这是我的问题: 1)我可以使用更好的测试吗? 2)如果不是,那么沃森检验的假设是什么?它是参数性/非参数性的吗? 3)我可以通过什么算法执行此测试?我的数据在Matlab中,我希望不必将其传输到R中即可运行测试。我宁愿只写自己的函数。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.