Questions tagged «standard-deviation»

标准差是随机变量,其估计量或一批数据的散布的类似度量的方差的平方根。

22
为什么要对差值求平方而不是取标准偏差的绝对值?
在标准差的定义中,为什么我们必须对均值之差取平方才能得到均值(E),并在最后取平方根?我们难道不能只是简单地获取差的绝对值,而获得这些差的期望值(均值),这也不能显示数据的变化吗?该数字将与平方方法不同(绝对值方法将更小),但仍应显示数据的传播。有人知道为什么我们将这种方形方法作为标准吗? 标准偏差的定义: σ=E[(X−μ)2]−−−−−−−−−−−√.σ=E[(X−μ)2].\sigma = \sqrt{E\left[\left(X - \mu\right)^2\right]}. 我们不能只是取绝对值而仍然是一个好的度量吗? σ=E[|X−μ|]σ=E[|X−μ|]\sigma = E\left[|X - \mu|\right]



10
直观地理解“差异”
解释某人方差概念的最干净,最简单的方法是什么?直觉上是什么意思?如果要向他们的孩子解释这一点,那该怎么办? 这是我很难阐明的概念,尤其是在将差异与风险相关时。我在数学上理解它,也可以用这种方式解释它。但是,在解释现实世界现象时,可以这么说,您如何理解方差及其在“现实世界”中的适用性。 假设我们正在使用随机数来模拟对股票的投资(滚动骰子或使用Excel表格都没关系)。通过将随机变量的每个实例与回报中的“某些变化”相关联,我们可以获得“投资回报”。例如。: 滚动1意味着0.8%的变化$ 1的投入,5 1.1%的变化$ 1等。 现在,如果此模拟运行大约50次(或20或100),我们将获得一些价值和最终投资价值。那么,“方差”实际上告诉我们是否要根据上述数据集进行计算?一个“看到”的是什么-如果方差变成1.7654或0.88765或5.2342,这甚至意味着什么?我对这项投资有何看法?我可以得出一些结论-用外行的话来说。 请也随意增加标准偏差的问题!尽管我觉得理解起来“更容易”,但是将有助于使它也“直观地”变得清晰起来,这一点将不胜感激!

4
如何“求和”标准偏差?
我有一个值的每月平均值,以及与该平均值相对应的标准偏差。我现在将年度平均值计算为每月平均值的总和,如何表示总平均值的标准偏差? 例如,考虑风电场的输出: Month MWh StdDev January 927 333 February 1234 250 March 1032 301 April 876 204 May 865 165 June 750 263 July 780 280 August 690 98 September 730 76 October 821 240 November 803 178 December 850 250 可以说,风电场平均每年生产10,358 MWh,但是与该数字相对应的标准偏差是多少?

3
为什么样本标准差是有偏估计量?
根据维基百科有关标准偏差的无偏估计的文章,样本SD s=1n−1∑i=1n(xi−x¯¯¯)2−−−−−−−−−−−−−−−√s=1n−1∑i=1n(xi−x¯)2s = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \overline{x})^2} 是总体SD的有偏估计。它指出。E(s2−−√)≠E(s2)−−−−−√E(s2)≠E(s2)E(\sqrt{s^2}) \neq \sqrt{E(s^2)} 注意 随机变量是独立的,每个xi∼N(μ,σ2)xi∼N(μ,σ2)x_{i} \sim N(\mu,\sigma^{2}) 我的问题有两个: 有偏见的证据是什么? 如何计算样本标准偏差的期望值 我的数学/统计知识只是中级。


3
对数转换的预测变量和/或响应的解释
我想知道是否仅对因变量(无论是因变量还是自变量)还是仅对自变量进行了对数转换,在解释上是否有所不同。 考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长,但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 



11
平均绝对偏差与标准偏差
在Greer(1983)的教科书“ O水平的新综合数学”中,我看到了计算出的平均偏差,如下所示: 总结单个值与平均值之间的绝对差。然后得到其平均值。在本章中,使用术语“ 平均偏差”。 但是我最近看到了一些使用术语标准差的引用,这就是它们的作用: 计算单个值与平均值之间的差的平方。然后得到他们的平均值,最后得到答案的根源。 我对一组通用数据尝试了这两种方法,它们的答案也不同。我不是统计学家。试图教我的孩子们偏差时,我感到困惑。 简而言之,术语“ 标准差”和“ 平均差 ”是否相同?还是我的旧教科书错误?

3
是否可以找到组合的标准偏差?
假设我有2套: 设置A:项目数,,n=10n=10n= 10μ=2.4μ=2.4\mu = 2.4σ=0.8σ=0.8\sigma = 0.8 集合B:项目数,,n=5n=5n= 5μ=2μ=2\mu = 2σ=1.2σ=1.2\sigma = 1.2 我可以轻松找到组合平均值(),但是应该如何找到组合标准偏差?μμ\mu

6
用于估计大致正态分布规模的鲁棒贝叶斯模型将是什么?
存在许多健壮的规模估计器。一个明显的例子是与标准偏差相关的中位数绝对偏差,即。在贝叶斯框架中,存在多种方法来可靠地估计大致正态分布的位置(例如,被异常值污染的正态),例如,可以假设数据的分布与分布或拉普拉斯分布相同。现在我的问题是:σ=MAD⋅1.4826σ=MAD⋅1.4826\sigma = \mathrm{MAD}\cdot1.4826 以鲁棒方式测量大致正态分布规模的贝叶斯模型在与MAD或类似鲁棒估计量相同的意义上是鲁棒的吗? 与MAD的情况一样,如果数据的分布实际上是正态分布的,那么贝叶斯模型可以逼近正态分布的SD,那将是很巧妙的。 编辑1: 一个模型的一个典型的例子假设数据时即防止污染/离群健壮是大致正常的使用是在状分布:yiyiy_i yi∼t(m,s,ν)yi∼t(m,s,ν)y_i \sim \mathrm{t}(m, s,\nu) 其中是平均值,是小数,是自由度。如果在和上具有适当的先验,则将是均值的估计值,它将对异常值具有鲁棒性。但是,由于s取决于\ nu,因此并不是y_i SD的一致估计。例如,如果\ nu将固定为4.0,并且上面的模型将适合\ mathrm {Norm}(\ mu = 0,\ sigma = 1)分布中的大量样本,则s小号ν 米,小号ν 米ÿ 我小号ÿ 我小号ν ν Ñ ø ř 米(μ = 0 ,σ = 1 )小号mmmsssνν\num,sm,sm, sνν\nummmyiyiy_isssyiyiy_isssνν\nuνν\nuNorm(μ=0,σ=1)Norm(μ=0,σ=1)\mathrm{Norm}(\mu=0,\sigma=1)sss大约是0.82 我要寻找的是一个健壮的模型,就像t模型一样,但是要使用SD代替平均值(或除平均值外)。 编辑2: 以下是R和JAGS中的一个编码示例,上面提到的t模型相对于均值如何更健壮。 # generating some contaminated data y <- c( …

4
Winsorizing与Triming数据的相对优点是什么?
Winsorizing数据意味着用两端的某个百分位值替换数据集的极值,而Trimming或截断涉及删除这些极值。 我总是将讨论的两种方法视为在计算诸如均值或标准差之类的统计数据时减轻异常值影响的可行选择,但我还没有看到为什么一个人可能会选择另一个。 使用Winsorizing或Trimming有什么相对优点或缺点?在某些情况下,最好使用一种方法吗?在实践中是否经常使用一种或它们基本上可以互换?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.