Questions tagged «variance»

随机变量与其均值的期望平方偏差;或有关其均值的数据的平均平方偏差。

3
中心极限定理和帕累托分布
有人可以提供有关帕累托分布和中心极限定理之间关系的简单解释(例如,适用吗?为什么/为什么不呢?)?我试图理解以下陈述: “中心极限定理不适用于所有分布。这是由于一个偷偷摸摸的事实-样本均值聚集在基础分布的均值周围(如果存在的话)。但是分布如何没有均值呢?帕累托分布没有任何意义。如果您尝试使用通常的方法进行计算,则它会发散到无穷大。”

1
使用中位数计算方差
我有一个一维随机变量,它非常偏斜。为了规范化此分布,我想使用中位数而不是均值。我的问题是:我可以使用公式中的中位数而不是均值来计算分布的方差吗? 即我可以更换 Var(X)=∑[(Xi−mean(X))2]/nVar(X)=∑[(Xi−mean(X))2]/n \mathrm{Var}(X) = \sum[(X_i - \mathrm{mean}(X))^2]/n 与 Var(X)=∑[(Xi−median(X))2]/nVar(X)=∑[(Xi−median(X))2]/n \mathrm{Var}(X) = \sum[(X_i - \mathrm{median}(X))^2]/n 我这样做的理由是,由于方差是衡量分布的趋势,而分布是集中分布的主要趋势,所以这不应该成为问题,但我正在寻找验证这种逻辑的方法。
10 variance  mean  median 

4
R中的离散时间事件历史(生存)模型
我正在尝试在R中拟合离散时间模型,但不确定如何执行。 我读过您可以将因变量组织在不同的行中,每个时间观察行一个,并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲,我有三列:ID,Event(在每个时间范围内为1或0)和Time Elapsed(自观察开始以来)以及其他协变量。 如何编写适合模型的代码?哪个因变量?我想我可以将其Event用作因变量,并将其包括Time Elapsed在协变量中。但是,会发生什么ID呢?我需要吗? 谢谢。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
什么是逐点方差?
在阅读《统计学习的要素》时,我多次遇到术语“逐点方差”。虽然我对它可能意味着什么有一个模糊的想法,但我很高兴知道 如何定义? 它是如何衍生的?
10 variance 

4
并联电阻的变化
假设您有一组电阻R,所有电阻均以均值μ和方差σ分布。 考虑具有以下布局的电路的一部分:(r)|| (r + r)|| (r + r + r)。每个部分的等效电阻分别为r,2r和3r。然后每个部分的方差是σ2σ2σ^2,2σ22σ22σ^2,3σ23σ23σ^2。 整个电路的电阻变化是多少? 在对数百万个点进行采样之后,我们发现方差约为.10286σ2.10286σ2.10286\sigma^2。 我们将如何分析得出这个结论? 编辑:假设电阻值是正态分布的,具有一些平均电阻r和方差σ2σ2σ^2。

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
方差和标准偏差的最佳解决方案是什么问题或博弈?
对于给定的随机变量(或总体或随机过程),数学期望是一个问题的答案。。同样,它也是游戏的最佳解决方案,猜猜下一个随机变量的实现(或从总体中吸取新抽奖),如果您对线性不实用,我将用值与猜测之间的平方距离来惩罚您的惩罚。中位数是绝对损失下相应问题的答案,模式是“全有或全无”损失下的答案。 问题:方差和标准偏差是否回答任何类似的问题?这些是什么? 这个问题的动机来自于教授集中趋势和传播的基本方法。尽管集中趋势的度量可以由上述决策理论问题引起,但我想知道人们如何能够激发传播的度量。

2
偏差方差分解:期望平方预测误差的项减去不可约误差
Hastie等。“统计学习的要素”(2009年)考虑了数据生成过程 其中和。È(ε )= 0 无功(ε )= σ 2 εÿ= f(X)+ εY=f(X)+ε Y = f(X) + \varepsilon E(ε)=0E(ε)=0\mathbb{E}(\varepsilon)=0Var(ε)=σ2εVar(ε)=σε2\text{Var}(\varepsilon)=\sigma^2_{\varepsilon} 他们对点(第223页,公式7.9)处的期望平方预测误差进行了以下偏差方差分解: 在我的自己的工作我没有指定而是取一个任意的预测(如果相关)。问题:我正在寻找 或更确切地说 的术语 错误(x 0)x0x0x_0˚F(⋅) ÿErr(x0)=E([y−f^(x0)]2|X=x0)=…=σ2ε+Bias2(f^(x0))+Var(f^(x0))=Irreducible error+Bias2+Variance.Err(x0)=E([y−f^(x0)]2|X=x0)=…=σε2+Bias2(f^(x0))+Var(f^(x0))=Irreducible error+Bias2+Variance.\begin{aligned} \text{Err}(x_0) &= \mathbb{E}\left( [ y - \hat f(x_0) ]^2 | X = x_0 \right) \\ &= \dots \\ &= \sigma^2_{\varepsilon} + \text{Bias}^2(\hat f(x_0)) + …

3
旋转PCA组件以均衡每个组件中的方差
我试图通过对数据集执行PCA并丢弃最后几台PC来降低数据集的维数和噪声。之后,我想在其余PC上使用一些机器学习算法,因此我想通过均衡PC的方差来标准化数据,以使算法更好地工作。 一种简单的方法是简单地将方差标准化为单位值。但是,第一台PC与原始数据集相比,包含的原始方差更多,而我仍然希望为其赋予更多的“权重”。因此,我想知道:是否有一种简单的方法可以拆分方差并与方差较小的PC共享? 另一种方法是将PC映射回原始特征空间,但是在那种情况下,维数也会增加到原始值。 我想最好使结果列保持正交,但这时没有必要。


2
自举样本的样本均值方差
令为不同的观察值(无联系)。令表示引导程序样本(来自经验CDF的样本),并令。找到E(\ bar {X} _ {n} ^ {*})和\ mathrm {Var}(\ bar {X} _ {n} ^ {*})。X1,...,XnX1,...,XnX_{1},...,X_{n}X∗1,...,X∗nX1∗,...,Xn∗X_{1}^{*},...,X_{n}^{*}X¯∗n=1n∑ni=1X∗iX¯n∗=1n∑i=1nXi∗\bar{X}_{n}^{*}=\frac{1}{n}\sum_{i=1}^{n}X_{i}^{*}E(X¯∗n)E(X¯n∗)E(\bar{X}_{n}^{*})Var(X¯∗n)Var(X¯n∗)\mathrm{Var}(\bar{X}_{n}^{*}) 到目前为止,我得到的是X∗iXi∗X_{i}^{*}是X1个,。。。,XñX1,...,XnX_{1},...,X_{n}每个概率为1个ñ1n\frac{1}{n}所以 Ë(X∗一世)=1个ñË(X1个)+ 。。。+1个ñË(Xñ)=ñ μñ= μË(X一世∗)=1个ñË(X1个)+。。。+1个ñË(Xñ)=ñμñ=μ E(X_{i}^{*})=\frac{1}{n}E(X_{1})+...+\frac{1}{n}E(X_{n})=\frac{n\mu}{n}=\mu 和 Ë(X* 2一世)=1个ñË(X21个)+ 。。。+1个ñË(X2ñ)=n (μ2+σ2)ñ=μ2+σ2,Ë(X一世∗2)=1个ñË(X1个2)+。。。+1个ñË(Xñ2)=ñ(μ2+σ2)ñ=μ2+σ2,E(X_{i}^{*2})=\frac{1}{n}E(X_{1}^{2})+...+\frac{1}{n}E(X_{n}^{2})=\frac{n(\mu^{2}+\sigma^{2})}{n}=\mu^{2}+\sigma^{2}\>, 给出 V 一[R (X∗一世)= E(X* 2一世)- (E(X∗一世))2=μ2+σ2-μ2=σ2。V一个[R(X一世∗)=Ë(X一世∗2)-(Ë(X一世∗))2=μ2+σ2-μ2=σ2。 \mathrm{Var}(X_{i}^{*})=E(X_{i}^{*2})-(E(X_{i}^{*}))^{2}=\mu^{2}+\sigma^{2}-\mu^{2}=\sigma^{2} \>. 然后, Ë(X¯∗ñ)= E(1个ñ∑我= 1ñX∗一世)=1个ñ∑我= 1ñË(X∗一世)=ñ μñ= μË(X¯ñ∗)=Ë(1个ñ∑一世=1个ñX一世∗)=1个ñ∑一世=1个ñË(X一世∗)=ñμñ=μE(\bar{X}_{n}^{*})=E(\frac{1}{n}\sum_{i=1}^{n}X_{i}^{*})=\frac{1}{n}\sum_{i=1}^{n}E(X_{i}^{*})=\frac{n\mu}{n}=\mu 和 V 一[R (X¯∗ñ)= V a r(1个ñ∑我= 1ñX∗一世)=1个ñ2∑我= …

2
找到估计值的方差以求泊松分布的最大似然
如果是参数为 iid泊松分布,则我得出最大似然估计值为用于数据。因此,我们可以定义相应的估计量 我的问题是,您将如何计算此估计量的方差?ķ1个,… ,ķñK1,…,KnK_1, \dots, K_nββ\betaβ^(ķ1个,… ,ķñ)=1个ñ∑我= 1ñķ一世β^(k1,…,kn)=1n∑i=1nki\hat\beta (k_1, \dots, k_n) = \frac{1}{n} \sum_{i=1}^n k_iķ1个,… ,ķñk1,…,knk_1, \dots, k_nŤ=1个ñ∑我= 1ñķ一世。T=1n∑i=1nKi.T = \frac{1}{n} \sum_{i=1}^n K_i . 特别是,当每个遵循参数的泊松分布时,根据泊松的属性,我知道分布将遵循参数的泊松分布,但是是的分布?ķ一世KiK_iββ\beta∑ni=1Ki∑i=1nKi\sum_{i=1}^n K_inβnβn \betaTTT

2
不等方差条件下的Mann-Whitney零假设
我只是对Mann-Whitney U检验的零假设感到好奇。我经常看到它指出零假设是两个总体具有相等的分布。但是我在想-如果我有两个均值相同但方差极不相等的正常群体,则Mann-Whitney检验可能不会检测到这种差异。 我还看到它表明曼·惠特尼检验的原假设是或一个总体(X)的观察结果超过第二总体(Y)的观察结果的概率(在排除并列)等于0.5。这似乎更有意义,但似乎不等同于我陈述的第一个零假设。Pr(X>Y)=0.5Pr(X>Y)=0.5\Pr(X>Y)=0.5XXXYYY 我希望能对此有所帮助。谢谢!

4
Box Cox转换以进行回归
我正在尝试仅使用一个预测变量(例如(x,y))将线性模型拟合到某些数据上。数据使得对于较小的x值,y值与直线紧密匹配,但是,随着x值的增加,y值变得更加不稳定。这是此类数据(R代码)的示例 y = c(3.2,3.4,3.5,3.8,4.2,5.5,4.5,6.8,7.4,5.9) x = seq(1,10,1) 我很想知道是否存在任何幂变换(也许是Box cox?),这使我比简单地进行线性拟合(如下所示)更适合数据。 fit = lm(y ~ x)

2
混合模型的参数,半参数和非参数引导
接下来的嫁接摘自本文。我是新手,要引导并尝试为带有R boot包的线性混合模型实现参数,半参数和非参数自举。 R代码 这是我的R代码: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out 问题 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.