可视化是否足以转换数据?


13

问题

我想绘制由30个参数中的每个参数解释的方差,例如绘制为每个参数的条形不同的条形图,以及y轴上的方差:

替代文字

但是,方差强烈偏向较小的值,包括0,如以下直方图中所示:

替代文字

如果我通过,则比较容易看出较小值之间的差异(下面的直方图和柱状图):log(x+1)

替代文字替代文字

在对数刻度上绘制是很常见的,但是绘制同样合理吗?log(x+1)

Answers:


13

某些人(例如 John Tukey)将其称为“ 开始对数 ” 。(对于某些示例,Google john tukey“ started log”。)

很好用。实际上,您可能期望必须使用非零起始值来说明因变量的舍入。例如,将因变量舍入到最接近的整数有效地使其真实方差偏离了1/12,这表明合理的起始值应至少为1/12。(该值不会对这些数据造成不良影响。使用大于1的其他值并不会真正改变图片;它只是几乎均匀地提高了右下图中的所有值。)

使用对数(或开始的对数)评估方差有更深层的原因:例如,方差图对数对数刻度上的估计值的斜率估计出Box-Cox参数以稳定方差。经常观察到这种幂律方差对某些相关变量的拟合。(这是一个经验性陈述,而不是理论性陈述。)

如果您要显示差异,请小心进行。许多观众(除了科学观众)无法理解对数,更不用说对数了。至少使用1的起始值的优点是比其他一些起始值更易于解释和解释。当然要考虑的是绘制它们的根,这是标准偏差。它看起来像这样:

替代文字

无论如何,如果您的目的是探索数据,从中学习,适合模型或评估模型,那么不要让任何事情妨碍寻找数据和数据衍生值的合理图形表示形式例如这些差异。


1
感谢您的解释和适当的术语/参考。读者是科学期刊的读者,主题是方差分解。了解对数转换的概念是先决条件,但我仍然不确定此演示是否需要进一步的理由-根是一个很好的选择。谢谢。
David LeBauer 2011年

3

可能是合理的。要问的更好的问题是1是否为适当的数字。您的最低要求是多少?如果开始时为1,则您将在值为零的项与值为1的项之间施加特定的间隔。根据研究领域的不同,选择0.5或1 / e作为偏移量可能更有意义。转换为对数刻度的含义是您现在有了一个比率刻度。

但是我被这些情节困扰。我想问一个模型,该模型在偏态分布的尾部具有大部分已解释的方差,是否被认为具有理想的统计特性。我觉得不是。


我不确定是否很清楚,但是直方图是30个方差值,而柱状图是方差的原始值,即var <- c(0,0,1,3,10,100,150), hist(var), barplot(var),所以我将其解释为几个参数可以解释大多数方差,而不是大多数解释的方差中的最后一个在尾部。这更有意义吗?很抱歉,如果不清楚。
David LeBauer 2011年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.