Questions tagged «mean»

随机变量的期望值;或样品的位置测量。

1
指数族分布是否均存在均值和方差?
假设标量随机变量属于具有pdf的矢量参数指数族XXX FX(x | θ )= h (x )exp(∑我= 1sη一世(θ)T一世(X )- 甲(θ))fX(x|θ)=h(x)exp⁡(∑i=1sηi(θ)Ti(x)−A(θ)) f_X(x|\boldsymbol \theta) = h(x) \exp\left(\sum_{i=1}^s \eta_i({\boldsymbol \theta}) T_i(x) - A({\boldsymbol \theta}) \right) 其中θ =(θ1个,θ2,⋯ ,θs)Ťθ=(θ1,θ2,⋯,θs)T{\boldsymbol \theta} = \left(\theta_1, \theta_2, \cdots, \theta_s \right )^T是参数向量,T(x)=(T1个(X ),Ť2(x ),⋯ ,Ts(x ))ŤT(x)=(T1(x),T2(x),⋯,Ts(x))T\mathbf{T}(x)= \left(T_1(x), T_2(x), \cdots,T_s(x) \right)^T是联合充分统计量。 可以证明存在每个T_i(x)的均值和方差Ť一世(x )Ti(x)T_i(x)。但是,X的均值和方差XXX(即Ë(X)E(X)E(X)和V一个- [R (X)Var(X)Var(X))是否也总是存在吗?如果不是,是否存在这种形式的指数族分布实例,其均值和变量不存在? 谢谢。

5
如果不是泊松,那么这是什么分布?
我有一个数据集,其中包含个人在7天内执行的操作数。具体操作与该问题无关。下面是该数据集的一些描述性统计: RangeMeanVarianceNumber of observations0−77218.22791696Range0−772Mean18.2Variance2791Number of observations696 \begin{array}{|c|c|} \hline \text{Range} & 0 - 772 \\ \hline \text{Mean} & 18.2 \\ \hline \text{Variance} & 2791 \\ \hline \text{Number of observations} & 696 \\ \hline \end{array} 这是数据的直方图: 从数据的来源来看,我认为它适合泊松分布。但是,均值≠方差,并且直方图在左侧的权重很高。另外,我goodfit在R中运行测试并得到: > gf <- goodfit(actions,type="poisson", method = "MinChisq") <br> > summary(gf) <br> Goodness-of-fit test for poisson …

3
平均数
我正在处理高度偏斜的数据,因此我使用中位数而不是均值来概括中心趋势。我想测量分散度虽然我经常看到人们报告平均值标准偏差±±\pm或中值四分位数±±\pm以总结中心趋势,但报告中值中值绝对分散度(MAD)±±\pm 是否可以?这种方法是否存在潜在问题? 与报告上下四分位数相比,我会发现这种方法更加紧凑和直观,尤其是在充满数字的大表中。

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
逆指数分布的均值
给定一个随机变量,G = 1的均值和方差是多少ÿ= EX p (λ )Y=Exp(λ)Y = Exp(\lambda)?G = 1ÿG=1YG=\dfrac{1}{Y} 我看了逆伽玛分布,但均值和方差仅分别针对和α > 2进行了定义...α > 1α>1\alpha>1α > 2α>2\alpha>2


2
均值差异与均值差异
在研究两个独立样本均值时,我们被告知我们正在研究“两种均值的差异”。这意味着我们从人口1(平均y¯1y¯1\bar y_1),并从它减去人口2(平均)。所以,我们的“两种方式的区别”是( -)。y¯2y¯2\bar y_2y¯1y¯1\bar y_1y¯2y¯2\bar y_2 在研究配对样本均值时,我们被告知正在查看“均值差”。通过计算每对之间的差异,然后取所有这些差异的平均值来计算。d¯d¯\bar d 我的问题是:我们是否得到相同的( -)与它的,如果我们从两列数据计算出它们,并在第一时间认为这是两个独立的样本,而第二时间考虑它配对数据?我玩了两列数据,看起来值是一样的!在那种情况下,可以说只是出于非量化的原因使用了不同的名称吗? ˉ ý 2 ˉ dy¯1y¯1\bar y_1y¯2y¯2\bar y_2d¯d¯\bar d


5
用Layman的术语解释均值,中位数,众数
您将如何解释数字列表的均值,中位数和众数的概念,以及为什么它们对仅具有基本算术技能的人很重要?更不用说偏度,CLT,集中趋势,其统计属性等了。 我已经向某人解释说,这只是“汇总”数字列表的一种快速而肮脏的方法。但是回头看,这很难说明。 有什么想法或现实世界的例子吗?

1
IID随机变量的期望值
我碰到这种推导,我不明白:如果X1,X2,...,XnX1,X2,...,XnX_1, X_2, ..., X_n是大小的随机样本n的平均值的人口采取μμ\mu和方差σ2σ2\sigma^2,那么 X¯=(X1+X2+...+Xn)/nX¯=(X1+X2+...+Xn)/n\bar{X} = (X_1 + X_2 + ... + X_n)/n E(X¯)=E(X1+X2+...+Xn)/n=(1/n)(E(X1)+E(X2)+...+E(Xn))E(X¯)=E(X1+X2+...+Xn)/n=(1/n)(E(X1)+E(X2)+...+E(Xn))E(\bar{X}) = E(X_1 + X_2 + ... + X_n)/n = (1/n)(E(X_1) + E(X_2) + ... + E(X_n)) E(X¯)=(1/n)(μ+μ+...n times)=μE(X¯)=(1/n)(μ+μ+...n times)=μE(\bar{X}) = (1/n)(\mu + \mu + ...n ~\text{times}) = \mu 这是我迷路的地方。使用的自变量为E(Xi)=μE(Xi)=μE(X_i) = \mu因为它们的分布相同。实际上这不是事实。假设我有一个样品,S={1,2,3,4,5,6}S={1,2,3,4,5,6}S=\{1,2,3,4,5,6\},然后,如果随机地选择2号与替换,并重复此过程10次,然后我得到10个样品:(5,4)(2 ,5)(1,2)(4,1)(4,6)(2,4)(6,1)(2,4)(3,1)(5,1)。这是2个随机变量样子X1,X2X1,X2X_1, X_2。现在,如果我将期望值X1X1X_1我明白了 E(X1)=1.(1/10)+2.(3/10)+3.(1/10)+4.(2/10)+5.(2/10)+6.(1/10)=34/10=3.4E(X1)=1.(1/10)+2.(3/10)+3.(1/10)+4.(2/10)+5.(2/10)+6.(1/10)=34/10=3.4E(X_1) = 1.(1/10) …

1
中位数是“度量”属性还是“拓扑”属性?
对于术语的轻微滥用,我深表歉意。我希望我下面的意思会清楚。 考虑随机变量。均值和中位数都可以用最优性标准来表征:均值是使最小的数字,而中位数是使。从这个角度来看,平均值和中位数之间的差异是用于评估偏差,平方或绝对值的“度量”的选择。XXXμμ\muE((X- μ )2)Ë((X-μ)2)\mathrm E((X - \mu)^2)E( | X−μ|)E(|X−μ|)\mathrm E(|X - \mu|) 另一方面,中位数是(假定绝对连续性)的数字,即该定义仅取决于对值进行排序的能力,并且与它们有多少不同。这样的结果是,对于每个严格增加的函数,,这意味着它是“拓扑”的在“类似橡胶”的变换下保持不变。Pr(X≤ μ)=12Pr(X≤μ)=1个2\mathrm{Pr}(X \leq \mu) = \frac12XXXF(x)F(X)f(x)米Ë ð 我一个Ñ(f(X)) =f(米Ë ð 我一个Ñ(X))米Ëd一世一个ñ(F(X))=F(米Ëd一世一个ñ(X))\mathrm{median}(f(X)) = f(\mathrm{median}(X)) 现在,我已经完成了数学运算,并且我知道从最佳准则开始,我可以得出 -quantile,因此两者都描述相同的事物。但是我仍然感到困惑,因为我的直觉告诉我,依赖于“度量”的某些事物不能导致“拓扑”属性。1个21个2\frac12 有人可以为我解决这个难题吗?
10 mean  median 


1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
均值平方的无偏正估计
假设我们有真正的(不明)从分布获得独立同分布的样本均值和方差,我们要估计μ 2。μ,σ2μ,σ2\mu, \sigma^2μ2μ2\mu^2 我们如何构造一个无偏的,始终为正的估计量? 以样本均值的平方被偏置,并且将高估的数量,电除尘器。如果μ接近于0和σ 2是大的。μ~2μ~2\tilde{\mu}^2μμ\muσ2σ2\sigma^2 这可能是一个琐碎的问题,但我的Google技术让我失望,因为estimator of mean-squared只有回报mean-squarred-error estimators 如果使事情变得容易,则可以将基础分布假定为高斯分布。 解: 有可能构造的无偏估计 ; 参见克努姆西的答案μ2μ2\mu^2 这是不可能构建的无偏,总是正的估计,因为这些要求是冲突的,当真正的平均值是0; 见眨眼的答案μ2μ2\mu^2


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.