Questions tagged «boxplot»

图形显示可汇总样品的分布。它显示五个数字以及(可能)一些离群值-这五个点是中位数,铰链(近似四分位数),以及不计任何标记为离群值的最大和最小值。


2
阅读箱须图:是否可以收集组之间的显着差异?
假设我们正在查看这个箱须图: 在周四和周五之间,我认为大多数人都会同意,睡眠时间似乎有很大差异。但是,这是一个统计上有效的猜想吗?由于周四和周五之间两个四分位数的范围都没有重叠,我们能否辨别出显着差异?星期四和星期五的上下晶须重叠的事实又如何呢?这会影响我们的分析吗? 通常伴随这样的图表是某种方差分析,但我很好奇,仅通过查看箱线图我们能说出多少组之间的差异。

1
什么是“行李箱图”或“双变量箱图”?
我找到了一篇介绍箱型图的多维(此处为双变量)版本的文章-风箱图。那是什么风筝呢?我可以看到一系列基于顶点的嵌套多边形,其中一个多边形被声明为风标图。嵌套多边形构建的想法是什么?风标图是哪个多边形(中心或保持平均点数)?Bagplot的边缘是否具有一些有用的属性(例如专门划分点集)?


4
在R中标记箱线图
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我需要构建一个没有任何轴的箱线图并将其添加到当前图线(ROC曲线)中,但是我需要向箱线图添加更多文本信息:最小和最大标签。当前代码行在下面(也是当前图形)。 非常感谢您的协助。 boxplot(data, horizontal = TRUE, range = 0, axes=FALSE, col = "grey", add = TRUE) 另一种解决方案是将线从0添加到1(而不是x轴),但是我希望它穿过中心线...例如,如下图所示
11 r  boxplot 

1
为什么中位数的95%CI应该是?
在各种来源中(例如参见此处),给出了以下中位数的置信区间的公式(尤其是在箱须图上画凹口的目的): 95% CImedian=Median±1.57×IQRN−−√95% CImedian=Median±1.57×IQRN 95\%\ CI_{\rm median} = {\rm Median} \pm \frac{1.57\times IQR}{\sqrt{N}} 魔法常数使我发疯,我无法弄清楚它是如何获得的。各种近似值(例如,假设我们的分布是高斯分布且大)都没有任何线索-我得到的常数值不同。1.571.571.57NNN

1
箱形图刻痕与Tukey-Kramer间隔
来自“ R”中箱形图的“缺口” 帮助文档(或原始文本)给出以下内容: 如果两个地块的凹口不重叠,这就是两个中间值不同的“有力证据”(Chambers等,1983,第62页)。有关使用的计算,请参见boxplot.stats。 并且“ boxplot.stats ”给出以下内容: 槽口(如果需要)扩展到+/- 1.58 IQR / sqrt(n)。这似乎是基于与McGill等人(1978年,第16页)中Chambers等人(1983,第62页)中1.57公式相同的计算。它们基于中位数的渐近正态性和所比较的两个中位数的大致相等的样本大小,并且据说对样本的基本分布不敏感。这个想法似乎是为两个中位数的差异给出大约95%的置信区间。 现在,我更加熟悉使用Tukey-Kramer测试的JMP版本比较列的平均值。 JMP文档提供了以下内容: 显示针对所有均值之间差异的测试。这是Tukey或Tukey-Kramer HSD(诚实的显着差异)测试。(Tukey 1953,Kramer 1956)。如果样本大小相同,则此测试为精确的alpha级测试;如果样本大小不同,则为保守测试(Hayter 1984)。 问题:两种方法之间的联系的本质是什么?有没有办法将一个变成另一个? 看起来有人正在寻找中位数的大约95%CI,然后确定是否存在重叠;另一个是“精确阿尔法测试”(我的样本大小相同),用于确定两组样本的中位数是否在彼此的合理范围内。 我参考了软件包,但是我对逻辑背后的数学感兴趣。

1
可视化许多左偏分布
我要显示一系列左偏/重尾分布。有跨越三个因素42个分布(标示为A,B和C下文)。同样,差异也在整个因数间缩小B。 我的问题是,很难在结果的范围(比例或倍数变化)上区分分布: 记录数据似乎过分强调了左偏度,并将更多样本移到尾部(创建了多个离群点): 有人对其他可视化这些数据的技术有建议吗?

2
绘制平均值,标准差,最小值和最大值的汇总统计信息?
我来自经济学背景,通常在该学科中,变量的摘要统计信息记录在表格中。但是,我希望将它们绘制出来。 我可以修改箱形图以使其显示均值,标准差,最小值和最大值,但我不希望这样做,因为箱形图传统上用于显示中位数以及Q1和Q3。 我所有的变量都有不同的标度。如果有人可以提出一种有意义的方式来汇总这些摘要统计信息,那将是很好的。我可以使用R或Stata。

1
如何在ARIMA模型的观察值48中加入创新的离群值?
我正在处理数据集。使用一些模型识别技术后,我得出了一个ARIMA(0,2,1)模型。 我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值(IO)。 如何将这个离群值合并到模型中,以便将其用于预测?我不想使用ARIMAX模型,因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗? 以下是我的价值观: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

4
为什么1个中位数低于另一个中位数的事实并不意味着第1组中的大多数都少于第2组中的大多数?
我认为下面的箱线图可以解释为“大多数男人比大多数女人快”(在此数据集中),主要是因为中位男性的时间低于中位女性的时间。但是有关R和统计知识测验的EdX课程告诉我,这是不正确的。请帮助我理解为什么我的直觉是不正确的。 这是问题: 让我们考虑一个2002年纽约马拉松比赛的完成者的随机样本。可以在UsingR包中找到此数据集。加载库,然后加载nym.2002数据集。 library(dplyr) data(nym.2002, package="UsingR") 使用箱线图和直方图比较男性和女性的完成时间。以下哪项最能描述差异? 男性和女性具有相同的分布。 大多数男性比大多数女性快。 男性和女性的偏斜分布与前者相似,向左偏移20分钟。 两种分布的正态分布均相差约30分钟。 以下是纽约市男女马拉松比赛时间,以分位数,直方图和方框图的形式: # Men's time quantile 0% 25% 50% 75% 100% 147.3333 226.1333 256.0167 290.6375 508.0833 # Women's time quantile 0% 25% 50% 75% 100% 175.5333 250.8208 277.7250 309.4625 566.7833

2
了解箱线图的晶须
我对箱线图的晶须的解释有疑问。我已阅读以下内容:“在矩形的顶部和底部,“晶须”显示的范围是0.25分位数和0.75分位数之间的距离的1.5倍”,但并不完全理解“距离”的含义。 不可能表示概率质量,因为在0.25和0.75分位数之间,我们显然总是具有相同百分比的数据。那是什么主意?

3
Boxplot有几种分布?
我需要在R中的单个图形中绘制20个分布,即使使用boxwex = 0.3,对于常规boxplot(20个框)来说,它看起来也不好(混乱)。您能否建议我如何在R中绘制20种分布的箱形图,用点表示中位数,而用线代替盒形,如下图所示。如果有任何R方法可以产生不错的箱形图,尤其是要在单个图形中显示多个分布的情况,也请提出建议。 -----0----
9 r  boxplot 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.