Questions tagged «boxplot»

图形显示可汇总样品的分布。它显示五个数字以及(可能)一些离群值-这五个点是中位数,铰链(近似四分位数),以及不计任何标记为离群值的最大和最小值。

2
有Poisson分布式数据的箱线图变体吗?
我想知道是否有适合于Poisson分布式数据(或其他分布)的boxplot变量? 对于高斯分布,晶须位于L = Q1-1.5 IQR和U = Q3 + 1.5 IQR的情况下,箱线图的属性是低异常值(L下方的点)与高异常值(U上方的点)一样多)。 但是,如果数据是泊松分布,则由于正偏度而不再成立,我们得到Pr(X <L)<Pr(X> U)。是否有其他方法放置晶须,使其“适合”泊松分布?


7
箱图有哪些替代方案?
我正在创建一个网站,该网站显示用户选择的多边形的普查数据,并希望以图形方式显示各种参数的分布(每个参数一个图)。 数据通常具有以下属性: 样本数量往往很大(例如大约10,000个数据点) 值的范围往往要求较大(例如,最小人口可以小于100,最大人口可以是500,000) q1通常接近最小值(例如200),而q2和q3将在10,000以内 它看起来不像正态分布 我不是统计学家,因此我的描述可能不太清楚。 我想在图表上显示此分布,市民(外行,如果您愿意)可以看到该分布。 我本来希望使用直方图,但是由于值的范围很大,因此是不可能的,因为这使得制作垃圾箱并不是一件容易的事。 据我对统计的了解很少,通常使用箱形图来显示此类数据,但我认为对于外行而言,解密箱形图并不容易。 我有什么选择可以以一种易于理解的方式显示此数据?

1
箱形图的历史如何?“箱形和晶须”设计是如何演变的?
许多消息来源至今经典的“箱线图”的设计,以约翰杜克和他的“示意图表”的1970年的设计似乎从那时起已经保持相对静态的,爱德华·塔夫特的删节箱形图的版本没有流行开来,而小提琴图 -尽管盒式图的信息更丰富-仍然不那么受欢迎。克利夫兰关于胡须延伸至第10和第90个百分位数的建议有一些支持者,请参阅Cox(2009),但这不是常态。 哈德利·威克汉姆(Hadley Wickham)和丽莎·斯特里耶夫斯基(Lisa Stryjewski)撰写了关于盒式积木历史的未发表论文,但似乎没有涵盖盒式积木的历史先驱。 那么,当前无处不在的“盒子和胡须”情节是如何产生的呢?它从什么样的数据可视化发展而来,那些早期的设计是否具有显着的优势,为什么图基的方案在使用中似乎使它们显得如此全面?图示的答案将是一个加分法,但针对比Wickham和Stryjewski更深入的历史参考将是有用的。 参考文献 新泽西州考克斯(2009)。讲故事的状态:创建和改变箱形图。Stata Journal,9(3),478。 Wickham,H.和Stryjewski,L.(2011)。40年的箱线图。http://vita.had.co.nz/papers/boxplots.pdf

3
如何通过箱线图评估偏度?
如何查看通过此数据构建的箱线图来确定偏度: 340、300、520、340、320、290、260、330 一本书说:“如果下四分位数比中四分位数比中四分位数更远,则分布出现负偏斜。” 其他一些消息来源也大致相同。 我使用R建立了箱形图。如下所示: 我认为它是负偏斜的,因为较低的四分位数距离中位数比较高的四分位数更远。但是问题是当我使用另一种方法确定偏度时: 平均值(337.5)>中位数(325) 这表明数据正偏。我错过了什么?

4
异常值的“框线图”定义的依据是什么?
Box和Whisker图的离群值的标准定义是范围之外的点,其中I Q R = Q 3 − Q 1和Q 1为数据的第一个四分位数和Q 3是数据的第三个四分位数。{Q1−1.5IQR,Q3+1.5IQR}{Q1−1.5IQR,Q3+1.5IQR}\left\{Q1-1.5IQR,Q3+1.5IQR\right\}IQR=Q3−Q1IQR=Q3−Q1IQR= Q3-Q1Q1Q1Q1Q3Q3Q3 此定义的依据是什么?在具有大量点的情况下,即使是完美的正态分布也会返回异常值。 例如,假设您从以下序列开始: xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025) 此序列创建了4000个数据点的百分位排名。 测试qnorm本系列的正态性会导致: shapiro.test(qnorm(xseq)) Shapiro-Wilk normality test data: qnorm(xseq) W = 0.99999, p-value = 1 ad.test(qnorm(xseq)) Anderson-Darling normality test data: qnorm(xseq) A = 0.00044273, p-value = 1 结果完全符合预期:正态分布的正态是正态的。创建一条qqnorm(qnorm(xseq))(按预期方式)直线数据: 如果创建了相同数据的箱线图,则boxplot(qnorm(xseq))产生结果: 当样本大小足够大时,箱形图不同于shapiro.test,ad.test或, qqnorm将几个点标识为离群值(如本例所示)。

3
如何用极端离群值呈现箱形图?
我可以使用有关呈现某些数据的指导。 第一个图是细胞因子IL-10的病例对照比较。我已手动将y轴设置为包括99%的数据。 我之所以手动设置,是因为案例组具有极端的异常值。 我的合作者不愿对我们的数据集进行异常值移除。我可以接受,但他们宁愿不接受。那将是显而易见的解决方案。但是,如果我要保留所有数据而不是删除此异常值,那么如何最佳显示此箱线图?分割轴?仅使用第一个图并注意它被构造为包含所有数据是否可以接受?(此选项对我来说是不诚实的)。任何建议都很好。

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
在箱线图中显示平均值而不是中位数[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 4个月前关闭。 当使用python matplotblib绘制箱形图时,图中一半的线是分布的中位数。 是否有可能代替平均线。或者以其他样式将其绘制在其旁边。 另外,由于通常以中线为中位数,如果我将其设为平均值,会不会真的使我的读者感到困惑(当然,我会加注中间的线是什么)?

1
GAM vs LOESS vs花键
语境:我想提请在不出现参数散点图一条线,所以我使用geom_smooth()的ggplot中R。它会自动返回geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.我收集的GAM代表广义加性模型,并使用三次样条曲线。 以下看法正确吗? 黄土以特定值估算响应。 样条曲线是连接适合数据的不同分段函数(构成广义加性模型)的近似值,三次样条曲线是此处使用的特定样条曲线类型。 最后,何时应使用花键,何时应使用LOESS?


4
箱形图提供的直方图没有提供哪些信息?
直方图可以很好地理解变量的分布。箱形图试图做同样的事情,但是,并不能很好地说明这个变量的分布情况。 我不明白为什么人们使用箱形图。直方图在各个方面都更好。我有理由同时使用它们吗? 我认为箱形图提供的唯一内容是:离群值!它告诉我们哪些观测值可能是异常值。

1
这是什么样的图表?
很抱歉这个模糊的问题,但是这张表出现在Biddle等人的文章中。2009年,我之前从未遇到过类似的事情。这是一个带有斜边的条形图,有时是“角”。这些是什么意思?这种图表有名称吗? 根据/meta/244083/site-for-asking-about-charts,我认为学术界是最好的询问场所。


2
关于R中使用ggplot2的两个因素的箱线图
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我对R和R中的任何软件包都是新手。我查看了ggplot2文档,但找不到此文件。我想要boxthis关于两个因子f1和的变量的箱形图f2。那是假设f1和f2都是因子变量,并且每个变量都有两个值,并且boxthis是连续变量。我想要得到的曲线图4个箱图,每个对应于一个组合从所述可能的组合f1和f2可以采取。我认为使用R中的基本功能,可以通过 > boxplot(boxthis ~ f1 * f2 , data = datasetname) 在此先感谢您的帮助。
13 r  boxplot  ggplot2 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.