Questions tagged «median»

中位数是数据或概率分布所占的一半以下的值-当样本数量为奇数时,中位数是有序样本的“中间”值。





13
为什么年龄中位数比平均年龄更好?
如果您看Wolfram Alpha 或此Wikipedia页面按中位年龄划分的国家列表 显然,就年龄而言,中位数似乎是选择的统计数据。 我无法向自己解释为什么算术平均值将是更差的统计量。为什么会这样呢? 最初发布在这里是因为我不知道该网站的存在。
41 mean  median 




2
偏态分布的均值是否存在可靠的非参数置信区间?
极偏斜的分布(例如对数正态分布)不会导致准确的引导置信区间。这是一个示例,说明无论您在R中尝试哪种引导方法,左右尾部区域都离理想的0.025较远: require(boot) n <- 25 B <- 1000 nsim <- 1000 set.seed(1) which <- c('basic', 'perc', 'norm', 'bca', 'stud') mul <- 0; sdl <- 1.65 # on log scale dist <- c('normal', 'lognormal')[2] switch(dist, normal = {g <- function(x) x; mu <- mul}, lognormal = {g <- exp; mu <- …

2
如何构建中位数之间差异的95%置信区间?
我的问题是:平行组随机试验的主要结局分布偏右。我不想假设正常,而是使用基于法线的95%CI(即使用1.96 X SE)。 我很乐意将集中趋势的度量表示为中位数,但是我的问题是,如何构建两组之间中位数差异的95%CI。 首先想到的是引导程序(用替换进行重采样,确定两组的中位数,并从另一组中减去一个,重复1000次,并使用偏差校正的95%CI)。这是正确的方法吗?还有其他建议吗?

4
如何判断我的数据分布是否对称?
我知道,如果中位数和均值近似相等,则意味着存在对称分布,但在这种情况下我不确定。均值和中位数非常接近(只有0.487m / all差),这使我说有一个对称分布,但从箱线图中可以看出,它似乎正偏斜(经确认,中位数比Q3靠近Q1按值)。 (如果您对此软件有任何具体建议,我正在使用Minitab。)

4
为什么在不同样本中均值趋于比中位数更稳定?
安迪·菲尔兹(Andy Fields)等人在使用R发现统计信息的第1.7.2节中列出了均值与中位数的优点,同时指出: ...平均值在不同样本中趋于稳定。 在解释了中位数的许多优点之后,例如 ...中位数不受分布两端的极端得分的影响... 鉴于中位数相对不受极端得分的影响,我认为它在各个样本中都更加稳定。因此,我对作者的主张感到困惑。为了确认我进行了模拟,我生成了1M个随机数,并采样了100个数字1000次,计算了每个样本的均值和中位数,然后计算了这些样本均值和中位数的sd。 nums = rnorm(n = 10**6, mean = 0, sd = 1) hist(nums) length(nums) means=vector(mode = "numeric") medians=vector(mode = "numeric") for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) } sd(means) >> [1] 0.0984519 sd(medians) >> [1] 0.1266079 p1 <- hist(means, col=rgb(0, …
22 mean  median 

2
是否可以累积一组描述大量样本的统计信息,以便随后生成箱线图?
我必须马上我是一个执业软件开发者,而不是一个统计学家澄清,而我的大学统计类是一个很长的时间以前... 就是说,我想知道是否存在一种用于累积描述性统计信息的方法,然后可以使用该方法来生成箱线图,而这并不需要存储一堆单独的样本? 我想做的是在复杂的多队列过程中生成队列服务时间的图形摘要。过去我曾经使用过一个名为tnftools的程序包,该程序包可以累积大量样本,然后将其后处理为响应时间和异常值的图表。但是tnftools不适用于当前平台。 理想情况下,我希望能够在流程运行时“即时”累积一组描述性统计信息,然后提取数据以按需进行分析。但是我不能简单地让进程积累样本,因为这样做会涉及内存/ IO对系统性能产生无法接受的影响。


4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.