Questions tagged «variance»

随机变量与其均值的期望平方偏差;或有关其均值的数据的平均平方偏差。


1
科恩统计量的方差
Cohen是我们测量效果大小的最常见方法之一(请参阅Wikipedia)。它仅根据合并的标准偏差来测量两个均值之间的距离。我们如何推导Cohen的方差估计的数学公式? dddddd 2015年12月编辑:与该问题相关的是计算附近的置信区间的想法。本文指出ddd σ2d=n+n×+d22n+σd2=n+n×+d22n+\sigma_{d}^2 = \dfrac{n_{+}}{n_{\times}} + \dfrac{d^2}{2n_{+}} 其中是两个样本大小的总和,是两个样本大小的乘积。n+n+n_{+}n×n×n_{\times} 该公式如何得出?

1
Fisher信息的决定因素
(我在math.se上发布了类似的问题。) 在信息几何中,Fisher信息矩阵的行列式是统计流形上的自然体积形式,因此它具有很好的几何解释。例如,它出现在Jeffreys先验的定义中的事实与其在重新参数化下的不变性相关,这是(imho)几何性质。 但是统计中的决定因素是什么?它衡量任何有意义的东西吗?(例如,我想说的是如果它为零,那么参数不是独立的。这会进一步吗?) 此外,至少在某些“简单”情况下,是否有任何封闭的形式可以计算出来?

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 


3
二项式Fisher信息与成反比的直观原因
它使二项式的方差与成正比,这使我感到困惑/不高兴。等效地,Fisher信息与成正比。这是什么原因呢?为什么在将Fisher信息最小化?也就是说,为什么在推理最困难?1p (1 − p )p(1−p)p(1-p) p=0.5p=0.51个p (1 − p )1p(1−p)\frac{1}{p(1-p)}p = 0.5p=0.5p=0.5p = 0.5p=0.5p=0.5 内容: 我正在使用样本量计算器,并且的公式(所需的样本量)是的增加因子,这是推导中方差估计的结果。p (1 − p )ñNNp (1 − p )p(1−p)p(1-p)

2
如何在多个插补数据集中合并自举的p值?
我担心的问题是,我想从乘归(MI)数据中引导p值来估计,但是我不清楚如何在MI集合中组合p值。θθ\theta 对于MI数据集,获得估计总方差的标准方法使用Rubin规则。有关合并MI数据集的评论,请参见此处。总方差的平方根用作的标准误差估计。但是,对于某些估计量,总方差没有已知的闭合形式,或者采样分布不正常。然后,统计量可能不是t分布的,甚至不是渐近的。θ / 小号ë (θ )θθ\thetaθ / 塞e (θ )θ/se(θ){\theta}/{se(\theta)} 因此,在完整数据的情况下,即使采样分布不是正态且其闭合形式未知,一种替代方法是引导统计信息以找到方差,p值和置信区间。在MI的情况下,有两个选择: 跨MI数据集合并自举差异 跨MI数据集合并p值或置信范围 然后,第一种选择将再次使用鲁宾规则。但是,如果具有非正态采样分布,则我认为这是有问题的。在这种情况下(或更一般而言,在所有情况下),可以直接使用自举p值。但是,在MI的情况下,这将导致多个p值或置信区间,需要将其跨MI数据集合并。θθ\theta 所以我的问题是:如何在多个估算数据集之间合并多个自举p值(或置信区间)? 我欢迎任何有关如何进行的建议,谢谢。


1
PROC Mixed和LME / LMER在R自由度上的区别
注意:这个问题是一个转贴,因为我的上一个问题出于法律原因不得不删除。 在比较SAS的PROC MIXED与R中lme的nlme软件包的功能时,我偶然发现了一些相当混乱的差异。更具体地说,不同测试的自由度在PROC MIXED和之间有所不同lme,我想知道为什么。 从以下数据集(以下给出的R代码)开始: ind:指示进行测量的个人的因子 fac:进行测量的器官 trt:表示治疗的因素 y:一些连续响应变量 这个想法是建立以下简单模型: y ~ trt + (ind):ind作为随机因子 y ~ trt + (fac(ind)):fac嵌套在ind作为随机因子 需要注意的是最后一个模型应引起奇异性,因为只有1的值y对每一个组合ind和fac。 第一模型 在SAS中,我建立以下模型: PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; 根据教程,R中使用的相同模型nlme应为: > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 两种模型对系数及其SE均给出相同的估计,但是在对F的影响进行F检验时trt,它们使用的自由度不同: SAS : Type …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
计数数据方差的参数化建模
我正在为某些数据建模,但是我不确定我可以使用哪种类型的模型。我有计数数据,我想要一个模型,该模型将给出数据均值和方差的参数估计。也就是说,我有各种预测因素,我想确定是否有任何因素会影响方差(而不仅仅是组均值)。 我知道泊松回归将不起作用,因为方差等于均值。这个假设对我而言无效,因此我知道存在过度分散的情况。但是,负二项式模型只会生成一个过分散参数,而不会作为模型中预测变量的函数。什么模型可以做到这一点? 另外,将赞赏对讨论模型的书或论文的参考和/或实现模型的R包。

2
如何参数化两个正态分布变量的比率或一个的倒数?
问题: 我正在参数化分布,以用作贝叶斯元分析中的先验和数据。数据在文献中以摘要统计的形式提供,几乎专门假定为正态分布(尽管所有变量均不能小于0,某些变量是比率,某些变量是质量,等等)。 我遇到了两种情况,但我没有解决方案。有时感兴趣的参数是数据的倒数或两个变量的比率。 例子: 两个正态分布变量的比率: 数据:氮和碳百分比的平均值和标准偏差 参数:碳氮比。 正态分布变量的倒数: 数据:质量/面积 参数:面积/质量 我当前的方法是使用仿真: 例如,对于一组碳和氮百分比数据,均值:xbar.n,c,方差:se.n,c,样本大小:nn,nc: set.seed(1) per.c <- rnorm(100000, xbar.c, se.c*n.c) # percent C per.n <- rnorm(100000, xbar.n, se.n*n.n) # percent N 我想参数化ratio.cn = perc.c / perc.n # parameter of interest ratio.cn <- perc.c / perc.n 然后为我的先前选择范围为的最佳拟合分布0 → ∞0→∞0 \rightarrow \infty library(MASS) dist.fig …

2
偏差方差方程的数学直觉
我最近问了一个问题,要求在与样品均值和方差有关的基本方程式后面寻求数学解释/直觉:E[X2]=Var(X)+(E[X])2E[X2]=Var(X)+(E[X])2 E[X^2] = Var(X) +(E[X])^2,是几何的还是其他的。 但是现在,我对表面上相似的偏差-方差折衷方程式感到好奇。 MSE(θ^)=E[(θ^−θ)2]==E[(θ^−E[θ^])2]+(E[θ^]−θ)2Var(θ^)+Bias(θ^,θ)2MSE(θ^)=E[(θ^−θ)2]=E[(θ^−E[θ^])2]+(E[θ^]−θ)2=Var(θ^)+Bias(θ^,θ)2 \begin{eqnarray} \text{MSE}(\hat{\theta}) = E [(\hat{\theta}-\theta)^2 ] &=& E[(\hat{\theta} - E[\hat\theta])^2] + (E[\hat\theta] - \theta)^2\\ &=& \text{Var}(\hat\theta) + \text{Bias}(\hat\theta,\theta)^2 \\ \end{eqnarray} (选自式维基百科) 对我来说,与偏差-方差折衷方程的回归有一个表面上的相似之处:三个具有平方的项,两个相加。非常毕达哥拉斯的外观。是否所有这些项目都有相似的矢量关系,包括正交性?还是有其他适用的数学解释? 我正在寻找与其他一些可能会有所启发的数学对象的数学类比。我不是在找精确精度的类比,这里已经介绍了很多。但是,如果人们可以在偏差方差折衷与更基本的均值方差关系之间给出非技术类比,那也将是巨大的。
12 variance  bias 


3
线性回归中误差的方差-协方差矩阵
实际上,统计分析软件包如何计算var / cov误差矩阵? 从理论上我很清楚这个想法。但实际上没有。我的意思是,如果我有一个随机变量向量,我知道方差/协方差矩阵将得到均值偏差向量的外部乘积:。ΣX =( X1个,X2,… ,Xñ)⊤X=(X1,X2,…,Xn)⊤\textbf{X}=(X_{1}, X_{2}, \ldots, X_{n})^\topΣΣ\SigmaΣ = E [(X - E(X))(X - E(X))⊤]Σ=E[(X−E(X))(X−E(X))⊤]\Sigma=\mathrm{E}\left[(\textbf{X}-\mathrm{E}(\textbf{X}))(\textbf{X}-\mathrm{E}(\textbf{X}))^\top\right] 但是当我有一个样本时,我观察到的误差不是随机变量。甚至更好,但只有在我从相同人群中抽取了多个相同样本的情况下才可以。否则,他们被给予。因此,我的问题再次是:一个统计软件包如何从研究人员提供的观察结果列表(即样本)开始生成var / cov矩阵?

1
如何找到多维点之间的方差?
假设我有一个矩阵X,它的n乘p,即它有n个观测值,每个观测值都在p维空间中。 如何找到这n个观测值的方差? 在p = 1的情况下,我只需要使用正则方差公式。如果p> 1。
12 variance 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.