8 如果均值是如此敏感,为什么要首先使用它? 众所周知,中位数可以抵抗异常值。如果是这样,我们何时以及为什么要首先使用均值? 我能想到的一件事可能是了解离群值的存在,即,如果中位数距离均值较远,则分布偏斜,也许需要检查数据以确定对离群值要做什么。还有其他用途吗? 84 mathematical-statistics mean median
5 样本中位数的中心极限定理 如果我从相同分布中计算出足够多的观测值的中位数,那么中心极限定理是否规定中位数的分布将近似于正态分布?我的理解是,对于大量样本而言,这是正确的,但对于中位数也是如此? 如果不是,样本中位数的基本分布是什么? 54 normal-distribution mathematical-statistics sampling median central-limit-theorem
10 有什么好的算法可以估算巨大的一次读取数据集的中位数? 我正在寻找一种好的算法(意味着最小的计算量,最小的存储需求)来估计太大而无法存储的数据集的中值,这样每个值只能被读取一次(除非您明确存储该值)。可以假设的数据没有界限。 只要知道精度,就可以近似。 有指针吗? 47 algorithms median large-data
13 为什么年龄中位数比平均年龄更好? 如果您看Wolfram Alpha 或此Wikipedia页面按中位年龄划分的国家列表 显然,就年龄而言,中位数似乎是选择的统计数据。 我无法向自己解释为什么算术平均值将是更差的统计量。为什么会这样呢? 最初发布在这里是因为我不知道该网站的存在。 41 mean median
7 平面或更高阶空间上的样本中位数是否存在公认的定义? 如果是这样,该怎么办?如果没有,为什么不呢? 对于在线样品,中位数使总绝对偏差最小。将定义扩展到R2等似乎很自然,但我从未见过。但是后来,我已经离开了很久了。 33 multivariate-analysis spatial median
3 为什么基本的假设检验关注均值而不关注中位数? 在基本的本科统计课程中,通常会教学生(假设?)针对总体平均值的假设检验。 为什么重点放在均值而不是中位数?我的猜测是,由于中心极限定理,测试均值更容易,但是我很想阅读一些有根据的解释。 32 hypothesis-testing mean inference median
2 偏态分布的均值是否存在可靠的非参数置信区间? 极偏斜的分布(例如对数正态分布)不会导致准确的引导置信区间。这是一个示例,说明无论您在R中尝试哪种引导方法,左右尾部区域都离理想的0.025较远: require(boot) n <- 25 B <- 1000 nsim <- 1000 set.seed(1) which <- c('basic', 'perc', 'norm', 'bca', 'stud') mul <- 0; sdl <- 1.65 # on log scale dist <- c('normal', 'lognormal')[2] switch(dist, normal = {g <- function(x) x; mu <- mul}, lognormal = {g <- exp; mu <- … 30 confidence-interval nonparametric mean bootstrap median
2 如何构建中位数之间差异的95%置信区间? 我的问题是:平行组随机试验的主要结局分布偏右。我不想假设正常,而是使用基于法线的95%CI(即使用1.96 X SE)。 我很乐意将集中趋势的度量表示为中位数,但是我的问题是,如何构建两组之间中位数差异的95%CI。 首先想到的是引导程序(用替换进行重采样,确定两组的中位数,并从另一组中减去一个,重复1000次,并使用偏差校正的95%CI)。这是正确的方法吗?还有其他建议吗? 27 confidence-interval bootstrap median clinical-trials
4 如何判断我的数据分布是否对称? 我知道,如果中位数和均值近似相等,则意味着存在对称分布,但在这种情况下我不确定。均值和中位数非常接近(只有0.487m / all差),这使我说有一个对称分布,但从箱线图中可以看出,它似乎正偏斜(经确认,中位数比Q3靠近Q1按值)。 (如果您对此软件有任何具体建议,我正在使用Minitab。) 23 distributions mean skewness median qq-plot
4 为什么在不同样本中均值趋于比中位数更稳定? 安迪·菲尔兹(Andy Fields)等人在使用R发现统计信息的第1.7.2节中列出了均值与中位数的优点,同时指出: ...平均值在不同样本中趋于稳定。 在解释了中位数的许多优点之后,例如 ...中位数不受分布两端的极端得分的影响... 鉴于中位数相对不受极端得分的影响,我认为它在各个样本中都更加稳定。因此,我对作者的主张感到困惑。为了确认我进行了模拟,我生成了1M个随机数,并采样了100个数字1000次,计算了每个样本的均值和中位数,然后计算了这些样本均值和中位数的sd。 nums = rnorm(n = 10**6, mean = 0, sd = 1) hist(nums) length(nums) means=vector(mode = "numeric") medians=vector(mode = "numeric") for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) } sd(means) >> [1] 0.0984519 sd(medians) >> [1] 0.1266079 p1 <- hist(means, col=rgb(0, … 22 mean median
2 是否可以累积一组描述大量样本的统计信息,以便随后生成箱线图? 我必须马上我是一个执业软件开发者,而不是一个统计学家澄清,而我的大学统计类是一个很长的时间以前... 就是说,我想知道是否存在一种用于累积描述性统计信息的方法,然后可以使用该方法来生成箱线图,而这并不需要存储一堆单独的样本? 我想做的是在复杂的多队列过程中生成队列服务时间的图形摘要。过去我曾经使用过一个名为tnftools的程序包,该程序包可以累积大量样本,然后将其后处理为响应时间和异常值的图表。但是tnftools不适用于当前平台。 理想情况下,我希望能够在流程运行时“即时”累积一组描述性统计信息,然后提取数据以按需进行分析。但是我不能简单地让进程积累样本,因为这样做会涉及内存/ IO对系统性能产生无法接受的影响。 22 algorithms median quantiles
1 中位数统计量何时才是足够的统计量? 我在《化学统计学家》杂志上发表评论说,样本中位数通常可以作为获得足够统计量的一种选择,但是,除了显而易见的一两个观察值等于样本均值的情况外,我想不出另一个非平凡的方法。样本中位数足够的情况。 21 median exponential-family sufficient-statistics chemistry
4 如何将新向量投影到PCA空间上? 执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列? 21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial