Questions tagged «standard-deviation»

标准差是随机变量,其估计量或一批数据的散布的类似度量的方差的平方根。

5
如何计算加权标准偏差?在Excel中?
所以,我有一个像这样的百分比数据集: 100 / 10000 = 1% (0.01) 2 / 5 = 40% (0.4) 4 / 3 = 133% (1.3) 1000 / 2000 = 50% (0.5) 我想找到百分比的标准偏差,但要为其数据量加权。即,第一个和最后一个数据点应主导计算。 我怎么做?有没有一种简单的方法可以在Excel中完成呢?

3
R:尽管数据集中没有NaN,随机森林仍在“外部函数调用”错误中抛出NaN / Inf [关闭]
我正在使用插入符号在数据集上运行交叉验证的随机森林。Y变量是一个因素。我的数据集中没有NaN,Inf或NA。但是,当运行随机森林时,我得到 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

4
如何进行仅包含样本数量,样本平均值和总体平均值的学生t检验?
学生的检验要求样本标准偏差。但是,我怎么计算的当只有样本量和样本平均已知?tttssssss 例如,如果样本大小为,样本平均值为,那么我将尝试创建相同样本的列表,每个样本的值均为。预期样本标准偏差为。这将在检验中产生零除问题。494949112112112494949112112112000ttt 其他数据: ACME北部工厂工人的平均收入为$200$200\$200。据报道,在ACME南部工厂随机抽取494949名工人,他们的年收入$112$112\$112。这种差异具有统计意义吗? 我是否正确地说人口平均数为$200$200\$200?



4
标准差背后的直觉
我试图更好地直观了解标准差。 据我所知,它代表着数据集中的一组观测值与该数据集的平均值之差的平均值。但是,它实际上并不等于差的平均值,因为它使平均值之外的观测值更具权重。 假设我有以下几种值-{1,3,5,7,9}{1,3,5,7,9}\{1, 3, 5, 7, 9\} 平均值是。555 如果我根据绝对值来衡量点差,我会得到 ∑5i=1|xi−μ|5=2.4∑i=15|xi−μ|5=2.4\frac{\sum_{i = 1}^5|x_i - \mu|}{5} = 2.4 如果我使用标准偏差对价差进行度量,我会得到 ∑5i=1(xi−μ)25−−−−−−−−−−−−√=2.83∑i=15(xi−μ)25=2.83\sqrt{\frac{\sum_{i = 1}^5(x_i - \mu)^2}{5}} = 2.83 如预期的那样,使用标准偏差的结果更大,因为它赋予了远离平均值的额外权重。 但是,如果仅告诉我我正在处理一个均值为且标准偏差为的总体,那么我如何推断该总体是由诸如?似乎的数字非常武断...我看不出您应该如何解释它。难道意味着该值是传播很广或者是他们都紧紧围绕均值聚类...2.83 { 1 ,3 ,5 ,7 ,9 } 2.83 2.835552.832.832.83{1,3,5,7,9}{1,3,5,7,9}\{1, 3, 5, 7, 9\}2.832.832.832.832.832.83 当您看到一个陈述,即您正在处理一个均值为且标准偏差为的总体时,这将告诉您有关总体的什么信息?2.835552.832.832.83

1
合并观测值的标准差
我有一个样本观测数据集,存储为范围箱内的计数。例如: min/max count 40/44 1 45/49 2 50/54 3 55/59 4 70/74 1 现在,从中找到平均值的估计非常简单。只需将每个范围区间的平均值(或中位数)用作观察值,并将计数作为权重即可找到加权平均值: x¯∗=1∑Ni=1wi∑i=1Nwixix¯∗=1∑i=1Nwi∑i=1Nwixi\bar{x}^* = \frac{1}{\sum_{i=1}^N w_i} \sum_{i=1}^N w_ix_i 对于我的测试用例,这给了我53.82。 现在我的问题是,找到标准偏差(或方差)的正确方法是什么? 通过搜索,我找到了几个答案,但不确定哪一个实际上适合我的数据集。在这里的另一个问题和随机的NIST文档中,我都能找到以下公式。 s2∗=∑Ni=1wi(xi−x¯∗)2(M−1)M∑Ni=1wis2∗=∑i=1Nwi(xi−x¯∗)2(M−1)M∑i=1Nwis^{2*} = \frac{ \sum_{i=1}^N w_i (x_i - \bar{x}^*)^2 }{ \frac{(M-1)}{M} \sum_{i=1}^N w_i } 对于我的测试用例,其标准偏差为8.35。但是,维基百科有关加权均值的文章给出了两个公式: s2∗=∑Ni=1wi(∑Ni=1wi)2−∑Ni=1w2i∑i=1Nwi(xi−x¯∗)2s2∗=∑i=1Nwi(∑i=1Nwi)2−∑i=1Nwi2∑i=1Nwi(xi−x¯∗)2s^{2*} = \frac{ \sum_{i=1}^N w_i}{(\sum_{i=1}^N w_i)^2 - \sum_{i=1}^N w_i^2} \sum_{i=1}^N w_i(x_i-\bar{x}^*)^2 和 s2∗=1(∑Ni=1wi)−1∑i=1Nwi(xi−x¯∗)2s2∗=1(∑i=1Nwi)−1∑i=1Nwi(xi−x¯∗)2s^{2*} …


3
如何解释均方根误差(RMSE)与标准偏差之间的关系?
假设我有一个模型,可以为我提供预测值。我计算这些值的RMSE。然后是实际值的标准偏差。 比较这两个值(方差)是否有意义?我的想法是,如果RMSE和标准偏差相似/相同,那么我模型的误差/方差与实际发生的情况相同。但是,如果比较这些值甚至没有意义,那么这个结论可能是错误的。如果我的想法是正确的,那么这是否意味着该模型就足够好了,因为它不能归因于造成差异的原因是什么?我认为最后一部分可能是错误的,或者至少需要更多信息来回答。

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

5
为什么我们对正态分布的使用有偏差和误导性的标准偏差公式?
第一次进行正态分布蒙特卡洛模拟时,我感到有些震惊,发现个样本的标准偏差的平均值(样本大小均为n = 2)要小得多比,即平均\ sqrt {\ frac {2} {\ pi}}倍,即用于生成总体的\ sigma。但是,这是众所周知的,如果很少记起,并且我确实知道,或者我不会进行模拟。这是一个模拟。100100100100100100√n = 2ñ=2n=2 σ2π--√2π \sqrt{\frac{2}{\pi }}σσ\sigma 这是一个使用100,n = 2,\ text {SD}和\ text {E}(s_ {n = 2})= \ sqrt \的估计量来预测N(0,1)的 95%置信区间的示例frac {\ pi} {2} \ text {SD}。ñ(0 ,1 )ñ(0,1个)N(0,1)n = 2ñ=2n=2标清标清\text{SD}Ë (小号n = 2)= π2--√标清Ë(sñ=2)=π2标清\text{E}(s_{n=2})=\sqrt\frac{\pi}{2}\text{SD} RAND() RAND() Calc Calc N(0,1) N(0,1) SD …


4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.