Questions tagged «standard-deviation»

标准差是随机变量,其估计量或一批数据的散布的类似度量的方差的平方根。


4
如何计算2D标准偏差(平均值为0,以界限为边界)
我的问题如下:我从某个点一次在地面上几米处投下40个球。球滚动,停下来。使用计算机视觉,我计算了XY平面中的质心。我只对从质心到每个球的距离感兴趣,这是使用简单几何图形计算的。现在,我想知道与中心的单侧标准偏差。因此,我将能够知道一定数量的球在一个std半径内,更多球在2 * std半径内,依此类推。如何计算单面标准偏差?正常方法将声明一半球位于0均值的“负侧”。在这个实验中,这当然是没有意义的。我是否必须确保滚珠符合标准分布?感谢您的任何帮助。

2
平均绝对偏差是否小于标准偏差?
我想用这种定义将一般情况下的平均绝对偏差与标准偏差进行比较: MAD=1n−1∑1n|xi−μ|,SD=∑n1(xi−μ)2n−1−−−−−−−−−−−√MAD=1n−1∑1n|xi−μ|,SD=∑1n(xi−μ)2n−1MAD = \frac{1}{n-1}\sum_1^n|x_i - \mu|, \qquad SD = \sqrt{\frac{\sum_1^n(x_i-\mu)^2}{n-1}} 其中。μ=1n∑n1xiμ=1n∑1nxi\mu =\frac{1}{n}\sum_1^n x_i 每个是否正确?MAD≤SDMAD≤SDMAD \le SD{xi}n1{xi}1n\{x_i\}^n_1 它的虚假为,becouse,对于每个。n=2n=2n=2x+y≥x2+y2−−−−−−√x+y≥x2+y2x+y \ge \sqrt{x^2+y^2}x,y≥0x,y≥0x, y \ge 0 很容易证明: MAD≤nn−1−−−−−√×SDMAD≤nn−1×SDMAD \le \sqrt{\frac{n}{n-1}} \times SD

1
方差和标准偏差的最佳解决方案是什么问题或博弈?
对于给定的随机变量(或总体或随机过程),数学期望是一个问题的答案。。同样,它也是游戏的最佳解决方案,猜猜下一个随机变量的实现(或从总体中吸取新抽奖),如果您对线性不实用,我将用值与猜测之间的平方距离来惩罚您的惩罚。中位数是绝对损失下相应问题的答案,模式是“全有或全无”损失下的答案。 问题:方差和标准偏差是否回答任何类似的问题?这些是什么? 这个问题的动机来自于教授集中趋势和传播的基本方法。尽管集中趋势的度量可以由上述决策理论问题引起,但我想知道人们如何能够激发传播的度量。

2
使用SVM时,为什么需要缩放功能?
根据scikit-learn中StandardScaler对象的文档: 例如,学习算法的目标函数中使用的许多元素(例如支持向量机的RBF内核或线性模型的L1和L2正则化器)都假定所有特征都围绕0居中并且具有相同顺序的方差。如果某个特征的方差比其他特征大几个数量级,则它可能会支配目标函数,并使估计器无法按预期从其他特征中正确学习。 分类前应先缩放特征。有什么简单的方法可以说明为什么我应该这样做?引用科学文章会更好。我已经找到了,但可能还有很多。

2
SD大于平均值,非负比例
我收到了一篇报道我的研究非常类似于我实验室希望进行的研究的文章。但是,我注意到,对于感兴趣的变量“持续时间”,SD大于平均值...因为这是以分钟为单位的持续时间,所以它永远不会为负,这对我来说似乎很奇怪。据报道有2项研究发生了这种情况,以下是其中一项。 除此之外,这是一个混合设计。对照v处理(组之间)和时间1,时间2,时间3(重复测量)。这是平均值(SD),N> 200 Time1 Time2 Time3 Control 15.1 (14.6) 14.4 (14.8) 13.3 (15.7) Treatment 14.8 (13.2) 10.0 (12.2) 8.2 (9.9) ...他们进行了方差分析,报告p <.001。 我被要求以此为基础进行功效分析,以确定我们研究的样本量。我很确定这表明数据不正常或有异常值,因此我不愿意根据此来确定样本量。我离基地不远吗?

4
为什么在标准差公式中对样本计数“ N”取平方根?
我正在尝试了解标准差的一个非常基本的概念。 根据公式σ=∑i=1n(xi−μ)2N−−−−−−−−−−⎷σ=∑i=1n(xi−μ)2N\sigma= \sqrt{ \dfrac{ \sum\limits_{i=1}^n (x_i-\mu)^2} N } 我不明白为什么我们要将人口“ N”减半,即为什么当我们不做{N ^ 2}时为什么要取\ sqrt {N }呢?这是否会使我们正在考虑的人口倾斜?N−−√N\sqrt{N}N2N2{N^2} 公式不应是σ=∑i=1n(xi−μ)2−−−−−−−−−√Nσ=∑i=1n(xi−μ)2N\sigma= \dfrac{ \sqrt{ \sum\limits_{i=1}^n (x_i-\mu)^2} } {N}

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
如何公平地确定区域科学博览会的获奖者?
我需要帮助,以找出正确的方法来计算我们的Science Fair获奖者。我不希望我对统计和数学的无知会妨碍孩子获得获胜的机会。(大量的奖学金和晋升福利at可危)。在此先感谢您的帮助。 首先介绍一下我们如何进行设置: 我们的博览会通常有大约600个学生项目。这些项目由单个学生或一组学生完成并介绍。一个团队可以包含2个或3个孩子。 学生分为两个部分:小学(6-8年级)和中学(9-12年级)。每个部门都有不同的类别:小学项目9个类别,中学项目17个类别。 每个部门的每个类别分别获得第一,第二和第三名的奖项。超过第三名的位置也会获得荣誉奖。 对于每个项目,我们分配4至6名法官。我们根据法官的资格,他们的类别偏好和他们过去的评审经验来进行分配。(经验丰富的人员被分配到高级部门的项目中)。 评委如何为项目评分: 对于每个项目,都有5个分配了点的标准。每个标准可以在1到20分之间奖励。一般标准是: 总体目标+假设+资源使用(1..20) 设计+程序(1..20) 数据收集+结果(1..20) 讨论+结论(1..20) 面试(1..20) 对于团队项目,第六个标准被评估为“团队扣除”,在该标准中,法官可以为未参加或未出席的队友扣分(最多15分)。 团队扣除(0 ..- 15) 因此,法官可以为每个项目打5至100分。如果该项目是团队项目,则得分可以降低15分。 原始数据: 在几个小时的过程中,我们从法官那里收集了3600个分数。这些分数被输入到数据库中,我可以在其中进行各种排序,平均,标准差计算等。我只是不知道该如何处理这些原始分数。现在,我正在为每个项目做一个简单的平均,但是我担心我没有针对法官的偏见,团队扣除或其他我没有考虑的其他因素进行调整。 所需结果: 最后,我想对分数进行处理,以便可以为每个类别分别授予第一,第二和第三名,然后为随后的各个地方授予荣誉奖。我想相信位置计算正确,获胜的孩子应该得到认可(和奖金)。 非常感谢您阅读我的冗长问题并为您解决这个问题提供了帮助。我很乐意回答您可能遇到的任何后续问题。

2
标准差分布
这个问题涉及正态分布,但我想知道从任意分布中得出的大小为n的样本的标准偏差的分布情况如何。特别是标准偏差的标准偏差是多少? 对于正态分布,sd的sd为。对于的任意分布,这近似正确吗?σ2n√σ2n\sigma \over{\sqrt{2n}}n→∞n→∞n \rightarrow \infty

2
计算数据的ROC曲线
因此,我进行了16次试验,试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下,只有试验1为“真阳性”: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是,我真的不确定如何根据此数据制作ROC曲线(FPR与TPR或FAR与FRR)。哪一个都不重要,但是我只是对如何进行计算感到困惑。任何帮助,将不胜感激。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.