Questions tagged «mean»

随机变量的期望值;或样品的位置测量。

1
我们可以使用留一法的均值和标准差来显示离群值吗?
假设我有正态分布的数据。对于数据的每个元素,我想检查它远离均值有多少SD。数据中可能有一个异常值(可能只有一个异常值,也可能是两个或三个),但是这个异常值基本上就是我要寻找的。从均值和标准差的计算中暂时排除我当前正在查看的元素是否有意义?我的想法是,如果它接近平均值,则不会产生任何影响。如果是离群值,则可能会影响均值和SD的计算,并降低检测到均值的可能性。我不是统计学家,因此不胜感激!

3
有界数据集的变异系数最大值
在有关标准偏差是否可以超出均值的最新问题之后的讨论中,曾短暂提出一个问题,但从未完全回答。所以我在这里问。 考虑一组非负数 ,其中表示。不需要是不同的,也就是说,集合可以是多集。该集合的均值和方差定义为 ,标准偏差为。请注意,数字集不是来自总体的样本,我们也不是估算总体均值或总体方差。那么问题是:nnnxixix_i0≤xi≤c0≤xi≤c0 \leq x_i \leq c1≤i≤n1≤i≤n1 \leq i \leq nxixix_ix¯=1n∑i=1nxi, σ2x=1n∑i=1n(xi−x¯)2=(1n∑i=1nx2i)−x¯2x¯=1n∑i=1nxi, σx2=1n∑i=1n(xi−x¯)2=(1n∑i=1nxi2)−x¯2\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i, ~~ \sigma_x^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2 = \left(\frac{1}{n}\sum_{i=1}^n x_i^2\right) - \bar{x}^2σxσx\sigma_x 在间隔[0,c]中,对于x_i的所有选择,\ dfrac {\ sigma_x} {\ bar {x}}的最大值σxx¯σxx¯\dfrac{\sigma_x}{\bar{x}}(变异系数)是多少?xixix_i[0,c][0,c][0,c] 我可以找到的最大值σxx¯σxx¯\frac{\sigma_x}{\bar{x}}是n−1−−−−−√n−1\sqrt{n-1} 时,其实现了n−1n−1n-1所述的xixix_i具有值000和剩余的(离群值)xixix_i 具有值ccc,给出 x¯=cn, 1n∑x2i=c2n⇒σx=c2n−c2n2−−−−−−−√=cnn−1−−−−−√.x¯=cn, 1n∑xi2=c2n⇒σx=c2n−c2n2=cnn−1.\bar{x} = \frac{c}{n},~~ \frac{1}{n}\sum x_i^2 = \frac{c^2}{n} \Rightarrow \sigma_x …

5
单变量随机变量的均值是否始终等于其分位数函数的积分?
我只是注意到,对从p = 0到p = 1的单变量随机变量的分位数函数(逆cdf)进行积分会产生变量的平均值。我之前从未听说过这种关系,所以我想知道:是否总是这样?如果是这样,这种关系是否广为人知? 这是python中的示例: from math import sqrt from scipy.integrate import quad from scipy.special import erfinv def normalPdf(x, mu, sigma): return 1.0 / sqrt(2.0 * pi * sigma**2.0) * exp(-(x - mu)**2.0 / (2.0 * sigma**2.0)) def normalQf(p, mu, sigma): return mu + sigma * sqrt(2.0) * erfinv(2.0 …

7
中位数比平均值还公平吗?
我最近阅读了有关建议,您通常不应使用中位数来消除异常值。示例:以下文章 http://www.amazon.com/Forensic-Science-Introduction-Scientific-Investigative/product-reviews/1420064932/ 目前有16条评论: review= c(5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 4, 4, 3, 2, 1, 1) summary(review) ## "ordinary" summary Min. 1st Qu. Median Mean 3rd Qu. Max. 1.000 3.750 5.000 4.062 5.000 5.000 因为他们使用平均数,所以该文章获得4星,但是如果使用中位数,它将获得5星。 中位数不是“更公平”的法官吗? 实验表明,中位数误差始终大于平均值。中位数更糟吗? library(foreach) #the overall population of bookjudgments n<-5 p<-0.5 expected.value<-n*p …
17 mean  median  average 

2
当我们只有关于当前素食者的调查数据时,如何计算对素食主义者的平均坚持时间?
调查了随机样本。他们被问是否吃素食。如果他们回答“是”,他们还被要求说明他们吃素饮食已经连续多长时间了。我想使用此数据来计算对素食主义的平均坚持时间。换句话说,当某人成为素食主义者时,我想知道他们平均会长期保持素食。假设: 所有受访者都给出了正确准确的答复 世界是稳定的:素食主义的流行没有改变,平均遵守时间也没有改变。 到目前为止我的推理 我发现分析世界的玩具模型很有帮助,每年年初两个人成为素食主义者。每次,他们其中一名保持素食一年,另一年保持三年。显然,这个世界的平均遵守时间为(1 + 3)/ 2 = 2年。这是说明该示例的图形。每个矩形代表一个素食主义时期: 假设我们在第4年中期(红线)进行了调查。我们得到以下数据: 如果从第3年开始的任何一年进行调查,我们将获得相同的数据。 (2 * 0.5 + 1.5 + 2.5)/ 4 = 1.25 我们低估了我们的假设,因为我们假设所有人在调查后都不再是素食主义者,这显然是错误的。为了获得接近于这些参与者保持素食的真实平均时间的估计,我们可以假设他们平均报告了素食主义时期的一半时间,并且将报告的持续时间乘以2。从人群中(就像我正在分析的人群),我认为这是一个现实的假设。至少它会给出正确的期望值。但是,如果只做一倍,我们的平均值为2.5,这被高估了。这是因为人保持素食的时间越长,他在当前素食者样本中的可能性就越大。 然后,我认为当前素食者样本中某人的概率与他们的素食主义时长成正比。为了解决这种偏见,我尝试将当前素食者的人数除以他们预计的坚持时间: 但是,这也会给出错误的平均值: (2 * 1 +⅓* 3 +⅕* 5)/(2 +⅓+⅕)= 4 / 2.533333 = 1.579年 如果将素食者的人数除以他们的正确坚持时间,就会得出正确的估计: (1 +⅓*(1 + 3 + 5))/(1 +⅓* 3)= 2年 但是,如果我使用预测的坚持时间是行不通的,那是我实际拥有的全部。我不知道还能尝试什么。我读了一些有关生存分析的信息,但是我不确定在这种情况下如何应用它。理想情况下,我还希望能够计算90%的置信区间。任何提示将非常感谢。 编辑:可能上面的问题没有答案。但是还有另一项研究随机询问了人们是否是素食主义者,以及过去有多少次素食主义者。我也知道学习和其他方面每个人的年龄。也许可以将此信息与当前素食者的调查结合使用,以某种方式获得平均值。实际上,我所说的研究只是其中的一个难题,但它是非常重要的一个难题,我想从中得到更多。

5
合并方差“实际上”是什么意思?
我是统计方面的菜鸟,所以请您在这里帮助我。 我的问题如下:合并方差实际上是什么意思? 当我在互联网上寻找汇总方差的公式时,我发现很多使用以下公式的文献(例如,在这里:http : //math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html): S2p=S21(n1−1)+S22(n2−1)n1+n2−2Sp2=S12(n1−1)+S22(n2−1)n1+n2−2\begin{equation} \label{eq:stupidpooledvar} \displaystyle S^2_p = \frac{S_1^2 (n_1-1) + S_2^2 (n_2-1)}{n_1 + n_2 - 2} \end{equation} 但是它实际计算的是什么?因为当我使用此公式计算合并方差时,它给了我错误的答案。 例如,考虑以下“父样本”: 2,2,2,2,2,8,8,8,8,82,2,2,2,2,8,8,8,8,8\begin{equation} \label{eq:parentsample} 2,2,2,2,2,8,8,8,8,8 \end{equation} 该父样本的方差为,其均值为。S2p=10Sp2=10S^2_p=10x¯p=5x¯p=5\bar{x}_p=5 现在,假设我将此父样本拆分为两个子样本: 第一个子样本是2,2,2,2,2,均值和方差。x¯1=2x¯1=2\bar{x}_1=2S21=0S12=0S^2_1=0 第二个子样本为8,8,8,8,8,均值且方差。x¯2=8x¯2=8\bar{x}_2=8S22=0S22=0S^2_2=0 现在,显然,使用上面的公式来计算这两个子样本的合并/父方方差将产生零,因为和。那么,该公式实际计算的是什么?S1=0S1=0S_1=0S2=0S2=0S_2=0 另一方面,经过长时间的推导,我发现产生正确的合并/父方方差的公式为: S2p=S21(n1−1)+n1d21+S22(n2−1)+n2d22n1+n2−1Sp2=S12(n1−1)+n1d12+S22(n2−1)+n2d22n1+n2−1\begin{equation} \label{eq:smartpooledvar} \displaystyle S^2_p = \frac{S_1^2 (n_1-1) + n_1 d_1^2 + S_2^2 (n_2-1) + n_2 d_2^2} {n_1 + …
15 variance  mean  pooling 

1
我应该对高度偏斜的数据使用t检验吗?请科学证明吗?
我有一个高度偏斜的(看起来像指数分布)数据集有关用户参与的样本(例如,帖子数),样本大小不同(但不少于200个),我想比较它们的平均值。为此,我使用了两个样本的不成对t检验(以及当样本具有不同的方差时,使用带有Welch因子的t检验)。据我所知,对于非常大的样本,样本不是正态分布的都没关系。 有人回顾了我所做的事情后说,我使用的测试不适合我的数据。他们建议在使用t检验之前对样本进行对数转换。 我是一个初学者,因此使用“参与度指标的对数”回答我的研究问题确实让我感到困惑。 他们错了吗?我错了吗?如果它们是错误的,是否有我可以引用/展示的书籍或科学论文?如果我错了,应该使用哪个测试?

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

9
非负数据的标准偏差可以超过平均值吗?
我有一些三角3D网格。三角形区域的统计信息是: 最低0.000 最高2341.141 均值56.317 标准开发98.720 那么,当数字像上面那样工作时,这是否意味着对于标准偏差特别有用或表明在计算标准偏差时存在错误?这些区域肯定远非正常分布。 就像某人在以下他们的回应之一中提到的那样,令我感到非常惊讶的是,数字均值仅用一个标准差就能得出负数,从而超出了法律范围。 谢谢

3
稳健的均值估计中的速成过程
我有一堆(大约1000个)估计值,它们都应该是长期弹性的估计值。多一点的这些一半是使用方法A和使用方法B.带我读的东西,如“我认为B法估计的东西剩下的估计很不是方法的不同,因为估计是多少(50-60%)高”。我对稳健统计的了解几乎是零,所以我只计算了两个样本的样本均值和中位数...,我立即看到了差异。方法A非常集中,中位数和均值之间的差异很小,但是方法B样本变化很大。 我得出的结论是,离群值和测量误差使方法B的样本倾斜,因此我丢弃了大约50个值(约15%),这与理论非常不一致...并且突然之间,两个样本的均值(包括其CI)非常相似。密度图也是如此。 (为消除异常值,我查看了样本A的范围,并删除了样本B之外的所有样本点。)我想告诉你,我在哪里可以找到一些可靠的均值估算基础请允许我更严格地判断这种情况。并有一些参考。我不需要对各种技术有很深入的了解,而是通过对鲁棒估计方法的全面调查来阅读。 我在去除异常值后进行了t均值显着性检验,p值为0.0559(t约为1.9),对于全部样本,t stat约为4.5。但这并不是真正的重点,手段可能有所不同,但是如上所述,它们不应相差50-60%。而且我认为他们没有。

1
将数据转换为期望的均值和标准偏差
我正在寻找一种将数据集从当前均值和标准差转换为目标均值和目标标准差的方法。基本上,我想缩小/扩展离散度并将所有数字缩放为均值。 进行两个单独的线性转换是不起作用的,一个用于标准偏差,然后一个用于均值。我应该使用哪种方法? 当我将数据集的平均值调整为0.5且SD调整为0.1667时,是否可以将该解决方案应用于一个示例,该示例将SD.4的数据集中的点1.02和平均值0.88转换?该点的新价值是什么?


1
插入符glmnet与cv.glmnet
在glmnet内部caret使用搜索最佳lambda和cv.glmnet执行相同任务的比较中似乎有很多困惑。 提出了许多问题,例如: 分类模型train.glmnet与cv.glmnet? 在插入符号中使用glmnet的正确方法是什么? 使用`caret`交叉验证`glmnet` 但是没有给出答案,这可能是由于问题的可重复性。在第一个问题之后,我给出了一个非常相似的示例,但确实存在相同的问题:为什么估计的lambda如此不同? library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = 0.001),standardize=FALSE) …


4
数据倾斜时应使用均值吗?
入门级应用统计文本通常通过解释均值对样本数据和/或样本中的异常值敏感,从而将均值与中值区分开来(通常是在描述性统计的背景下,并使用均值,中值和众数来激发集中趋势的汇总)。与偏斜的人口分布有关,这可以用作断言当数据不对称时首选中位数的理由。 例如: 给定数据集中集中趋势的最佳度量通常取决于值的分布方式...。当数据不对称时,中位数通常是集中趋势的最佳度量。因为均值对极端观察敏感,所以它会向偏远的数据值的方向拉动,结果可能会导致过度膨胀或过度缩小。” —Pagano和Gauvreau,(2000年),《生物统计学原理》,第二版。 (宝洁公司就在眼前,顺便说一句,本身并没有单独列出。) 作者因此定义了“集中趋势”:“一组数据最常被研究的特征是其中心,即观察趋向于聚集的点。” 这让我感到不那么直截了当的说仅使用中位数period的方式,因为只有在数据/分布对称时才使用均值与仅在等于中位数时才使用均值是同一回事。编辑: whuber正确地指出,我正在将中央趋势的有效度量与中位数相混淆。因此,重要的是要牢记,我正在讨论算术平均值与入门级应用统计学中的中位数的特定框架(此处不考虑模式,其他动机不倾向于集中趋势)。 与其以均值偏离中位数的行为来判断均值的效用,不应该简单地将它们理解为两种不同的中心度度量方法吗?换句话说,对偏度敏感是均值的特征。同样可以有效地辩称“中位数不好,因为它对偏斜度不敏感,因此仅在等于均值时才使用它。” (该模式显然不涉及此问题。)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.