Questions tagged «standard-deviation»

标准差是随机变量,其估计量或一批数据的散布的类似度量的方差的平方根。

1
将数据转换为期望的均值和标准偏差
我正在寻找一种将数据集从当前均值和标准差转换为目标均值和目标标准差的方法。基本上,我想缩小/扩展离散度并将所有数字缩放为均值。 进行两个单独的线性转换是不起作用的,一个用于标准偏差,然后一个用于均值。我应该使用哪种方法? 当我将数据集的平均值调整为0.5且SD调整为0.1667时,是否可以将该解决方案应用于一个示例,该示例将SD.4的数据集中的点1.02和平均值0.88转换?该点的新价值是什么?

2
回归到“思考,快速和慢速”中的均值
丹尼尔·卡尼曼(Daniel Kahneman)在《快与慢的思考》中提出了以下假设问题: (第186页)朱莉目前在州立大学任教。她四岁时能流利阅读。她的平均成绩(GPA)是多少? 他的目的是说明在做出有关某些统计数据的预测时,我们通常如何无法解释均值的回归。在随后的讨论中,他建议: (第190页)回想一下,在当前案例中,阅读年龄和GPA两项测量之间的相关性等于决定因素中共享因素的比例。您对该比例的最佳猜测是什么?我最乐观的猜测是大约30%。假定此估计,我们将需要产生一个无偏预测。以下是通过四个简单步骤到达那里的说明: 首先估算平均GPA。 确定符合您对证据印象的GPA。 估计阅读早熟与GPA之间的相关性。 如果相关系数是0.30,则将平均值的30%距离移到匹配的GPA。 我对他的建议的解释如下: 使用“她四岁时能流利阅读”为朱莉的阅读早熟建立标准分数。 确定具有相应标准分数的GPA。(如果 GPA和阅读早熟之间的相关性是完美的,则可以预测的合理GPA将与此标准分数相对应。) 估计GPA差异的百分比可以通过阅读早熟的差异来解释。(在这种情况下,我假设他指的是“相关”的确定系数?) 由于朱莉的阅读早熟标准分数的只有30%可以由解释她的GPA标准分数的因素来解释,因此我们仅有理由预测朱莉的GPA标准分数将是该分数的30%在完全相关的情况下。 我对卡尼曼程序的解释正确吗?如果是这样,他的程序是否有更正式的数学证明,尤其是步骤4?通常,两个变量之间的相关性与其标准分数的变化/差异之间是什么关系?

5
有没有衡量传播“均匀性”的方法?
我在网上查找,但找不到任何有用的信息。 我基本上是在寻找一种衡量值的“平均”分配方式的方法。例如,X的“均匀”分布分布: 均值和标准差大致相同的“不均匀”分布Y: 但是,是否有任何均匀性度量m使得m(X)> m(Y)?如果没有,那么创建这种度量的最佳方法是什么? (图片来自可汗学院的屏幕截图)


3
为什么这个摘录说标准偏差的无偏估计通常不相关?
我正在阅读标准偏差的无偏估计的计算方法以及我所阅读的资料 (...)除非在某些重要情况下,否则该任务与统计的应用几乎没有关系,因为通过标准程序(例如,使用显着性检验和置信区间或使用贝叶斯分析)可以避免执行此任务。 我想知道是否有人可以阐明该语句背后的原因,例如,置信区间不是将标准差用作计算的一部分吗?因此,置信区间不会受到标准偏差的影响吗? 编辑: 到目前为止,谢谢您的回答,但是我不确定我是否遵循它们的某些推理,因此我将添加一个非常简单的示例。关键是,如果源是正确的,那么从我的结论到示例,都出了点问题,我希望有人指出p值如何不依赖于标准偏差。 假设研究人员希望测试他或她所在城市的五年级学生的平均分数是否与全国平均值76分(显着性水平为0.05)不同。研究人员随机抽取了20名学生的分数。样本平均值为80.85,样本标准偏差为8.87。这意味着:t =(80.85-76)/(8.87 / sqrt(20))= 2.44。然后使用t表计算以19 df在2.44时的2尾概率值为0.025。这低于我们的显着性水平0.05,因此我们拒绝零假设。 因此,在此示例中,p值(也许还有您的结论)是否会根据您估计样本标准偏差的方式而改变?


3
不确定性的几种测量的标准偏差
我有两个2个小时的GPS数据,采样率为1 Hz(7200次测量)。中的数据形式给出,其中Ñ σ是测量不确定性。(X,Xσ,Y,Yσ,Z,Zσ)(X,Xσ,Y,Yσ,Z,Zσ)(X, X_\sigma, Y, Y_\sigma, Z, Z_\sigma)ñσNσN_\sigma 当我取所有测量值的平均值(例如,这两个小时的平均Z值)时,其标准偏差是多少?我当然可以从Z值计算出标准偏差,但是后来我忽略了已知的测量不确定性这一事实... 编辑:数据全部来自同一测站,并且每秒重新测量所有坐标。由于卫星星座等原因,每次测量都具有不同的不确定性。我的分析目的是找出由于外部事件(例如地震)引起的位移。我想取地震前7200次测量的平均值(2h),取地震后2h的另一个平均值,然后计算所得的差值(例如,高度)。为了指定此差异的标准偏差,我需要知道两种方法的标准偏差。


3
对均方根误差和均值偏差的概念理解
我想对“均方根误差(RMSE)”和“均值偏差(MBD)”有一个概念上的理解。在为我自己的数据比较计算了这些度量之后,我常常感到困惑,发现RMSE高(例如100千克),而MBD低(例如小于1%)。 更具体地说,我正在寻找参考(而非在线参考),其中列出并讨论了这些度量的数学原理。计算这两种度量的通常可接受的方法是什么,我应该如何在期刊论文中报告它们? 在这篇文章的背景下,拥有一个“玩具”数据集可以用来描述这两种量度的计算是非常有帮助的。 例如,假设我要查找装配线生产的200个小部件的质量(以千克为单位)。我也有一个数学模型,它将尝试预测这些小部件的质量。该模型不必是经验模型,也可以基于物理模型。我在实际测量值和模型之间计算了RMSE和MBD,发现RMSE为100千克,MBD为1%。这在概念上意味着什么,我将如何解释这一结果? 现在假设我从该实验的结果中发现,RMSE为10千克,MBD为80%。这是什么意思,关于这个实验我能说些什么? 这些措施的含义是什么,两者(合起来)意味着什么?与RMSE一起考虑时,MBD还提供哪些其他信息?

1
套索的LARS与坐标下降
使用LARS [1]与使用坐标下降来拟合L1正则化线性回归有什么优缺点? 我主要对性能方面感兴趣(我的问题往往有N成千上万且p小于20。)但是,任何其他见解也将受到赞赏。 编辑:自从我发布问题以来,chl亲切地指出了Friedman等人的论文[2],其中坐标下降比其他方法快得多。如果是这样,作为执业医生,我是否应该忘掉LARS来支持协调下降? [1]埃弗隆·布拉德利;海蒂·特雷弗;约翰·斯通,伊恩和蒂布希拉尼·罗伯特(2004)。“最小角度回归”。统计年鉴32(2):第407-499页。 [2] Jerome H. Friedman,Trevor Hastie,Rob Tibshirani,“通过坐标下降的广义线性模型的正则化路径”,《统计软件》,第1卷。33,第1期,2010年2月。

3
添加系数以获得交互作用-SE怎么办?
我有一个多元回归,其中包括相互作用。例如,要估算最差的五分位数的治疗效果,我需要将来自治疗回归指标的系数与来自交互变量(与治疗和五分位数1相互作用)的系数相加。通过回归将两个系数相加时,如何获得标准误差?是否可以将两个系数的标准误差相加?那t统计呢?是否可以添加这些?我猜不是,但是我找不到任何指导。 提前非常感谢您的帮助!

11
标准偏差完全错误吗?如何计算高度,计数等(正数)的std?
假设我正在计算高度(以厘米为单位),并且数字必须大于零。 这是示例列表: 0.77132064 0.02075195 0.63364823 0.74880388 0.49850701 0.22479665 0.19806286 0.76053071 0.16911084 0.08833981 Mean: 0.41138725956196015 Std: 0.2860541519582141 在此示例中,根据正态分布,值的99.7%必须在平均值的标准偏差的±3倍之间。但是,即使两次标准偏差也变为负值: -2 x std calculation = 0.41138725956196015 - 0.2860541519582141 x 2 = -0,160721044354468 但是,我的数字必须为正。因此它们必须大于0。我可以忽略负数,但是我怀疑这是使用标准差计算概率的正确方法。 有人可以帮助我了解我是否以正确的方式使用它吗?还是我需要选择其他方法? 老实说,数学就是数学。是否为正态分布都没有关系。如果它适用于无符号数字,那么它也应适用于正数!我错了吗? 编辑1:添加直方图 更清楚地说,我添加了我的真实数据的直方图 EDIT2:一些值 Mean: 0.007041500928135767 Percentile 50: 0.0052000000000000934 Percentile 90: 0.015500000000000047 Std: 0.0063790857035425025 Var: 4.06873389299246e-05

4
增加标准偏差的值
我对以下陈述感到困惑: “为了增加一组数字的标准偏差,必须添加一个比平均值多一个标准偏差的值” 这是什么证明?我当然知道我们如何定义标准偏差,但是我似乎以某种方式错过了那部分。任何意见?

6
健壮的(非参数)度量,例如变异系数— IQR /中位数,还是替代方法?
对于给定的一组数据,通常将扩散作为标准偏差或IQR(四分位数间距)进行计算。 尽管a standard deviation是归一化的(z得分等),因此可以用来比较两个不同总体的传播,但IQR情况并非如此,因为来自两个不同总体的样本可能具有两个完全不同的尺度值, e.g. Pop A: 100, 67, 89, 75, 120, ... Pop B: 19, 22, 43, 8, 12, ... 我需要的是一种可靠的(非参数)度量,可以用来比较不同总体中的差异。 选择1: IQR / Median-类似于变异系数,即。σμσμ \frac{\sigma}{\mu} 选择2: Range / IQR 问题:比较人群之间的差异,哪种方法更有意义?如果选择1是选择2是否对任何事情都有意义/有意义,还是从根本上存在缺陷的措施?

1
PROC Mixed和LME / LMER在R自由度上的区别
注意:这个问题是一个转贴,因为我的上一个问题出于法律原因不得不删除。 在比较SAS的PROC MIXED与R中lme的nlme软件包的功能时,我偶然发现了一些相当混乱的差异。更具体地说,不同测试的自由度在PROC MIXED和之间有所不同lme,我想知道为什么。 从以下数据集(以下给出的R代码)开始: ind:指示进行测量的个人的因子 fac:进行测量的器官 trt:表示治疗的因素 y:一些连续响应变量 这个想法是建立以下简单模型: y ~ trt + (ind):ind作为随机因子 y ~ trt + (fac(ind)):fac嵌套在ind作为随机因子 需要注意的是最后一个模型应引起奇异性,因为只有1的值y对每一个组合ind和fac。 第一模型 在SAS中,我建立以下模型: PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; 根据教程,R中使用的相同模型nlme应为: > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 两种模型对系数及其SE均给出相同的估计,但是在对F的影响进行F检验时trt,它们使用的自由度不同: SAS : Type …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.