我和我的顾问就数据可视化争论不休。他声称,当代表实验结果时,值应仅用“ 标记 ” 绘制,如下面的图像所示。虽然曲线只能代表“ 模型 ”
另一方面,我相信在许多情况下,为了提高可读性,曲线是不必要的,如下面的第二幅图所示:
我是错还是我的教授?如果是后者,我该如何向他解释。
我和我的顾问就数据可视化争论不休。他声称,当代表实验结果时,值应仅用“ 标记 ” 绘制,如下面的图像所示。虽然曲线只能代表“ 模型 ”
另一方面,我相信在许多情况下,为了提高可读性,曲线是不必要的,如下面的第二幅图所示:
我是错还是我的教授?如果是后者,我该如何向他解释。
Answers:
我喜欢以下经验法则:
如果您需要引导视线线(即显示一个趋势,没有行会不会像清晰可见),你应该不会放线。
人类非常擅长识别模式(我们宁愿看到不存在的趋势,也不愿错过现有趋势)。如果我们无法获得没有线条的趋势,则可以确定没有趋势可以最终显示在数据集中。
关于第二张图,测量点不确定性的唯一指示是700°C下C:O 1.2的两个红色正方形。这两个因素的传播意味着我不会接受例如
没有给出很好的理由。但是,那将再次成为模型。
编辑:回答伊万的评论:
我是化学家,我会说没有错误就可以进行测量-可接受的值取决于实验和仪器。
这个答案不是要显示实验错误,而是要显示并考虑到它。
我的推理背后的想法是,图形恰好显示了一次重复的测量,因此当讨论的是模型应该拟合的复杂程度(例如,水平线,直线,二次曲线等)时,这可以使我们对测量有所了解错误。在您的情况下,这意味着即使您有一个硬模型(例如热力学或动力学方程式)表明它应该是二次的,您也将无法拟合有意义的二次(样条曲线)-您只是没有足够的数据。
为了说明这一点:
df <-data.frame (T = c ( 700, 700, 800, 900, 700, 800, 900, 700, 800, 900),
C.to.O = factor (c ( 1.2, 1.2, 1.2, 1.2, 2 , 2 , 2 , 3.6, 3.6, 3.6)),
tar = c (21.5, 18.5, 19.5, 19, 15.5, 15 , 6 , 16.5, 9, 9))
这是线性拟合,以及每个C:O比率的95%置信区间:
ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () +
stat_smooth (method = "lm") +
facet_wrap (~C.to.O)
请注意,对于较高的C:O比,置信区间的范围远小于0。这意味着线性模型的隐式假设是错误的。但是,可以得出结论:较高C:O含量的线性模型已经过拟合。
因此,退后一步并仅拟合一个常数值(即不依赖T):
ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () +
stat_smooth (method = "lm", formula = y ~ 1) +
facet_wrap (~C.to.O)
补语是对不依赖C:O的模型进行建模:
ggplot (df, aes (x = T, y = tar)) + geom_point (aes (col = C.to.O)) +
stat_smooth (method = "lm", formula = y ~ x)
尽管如此,置信区间仍将覆盖一条水平甚至略微上升的线。
您可以继续尝试,例如允许三个C:O比率使用不同的偏移量,但使用相同的斜率。
但是,已经很少有更多的测量可以大大改善这种情况-请注意,C:O = 1:1:1的置信区间要窄得多,在那里您需要进行4次测量,而不是只有3次。
结论:如果您比较我怀疑的结论的观点,那么他们会从太多的可用观点中获取太多信息!
正如JeffE所说:重点就是数据。通常,最好避免尽可能多地添加曲线。添加曲线的原因之一是,通过使点和点之间的趋势更易读,它使图形更美观。如果您只有很少的数据点,则尤其如此。
但是,还有其他显示稀疏数据的方法可能比散点图更好。一种可能性是条形图,其中各种条形比单个点更明显。颜色代码(类似于图中已经存在的颜色)将有助于查看每个数据系列的趋势(或者可以拆分数据系列,并在较小的单个条形图中并排显示)。
最后,如果您确实想在符号之间添加某种形式的线,则有两种情况:
如果您希望某个模型对您的数据有效(线性,谐波等),则应在模型上拟合您的数据,在文本中解释该模型,并评论数据与模型之间的协议。
如果您没有任何合理的数据模型,则不应在图表中包含额外的假设。特别是,这意味着除了海峡线以外,您的点之间不应包括任何类型的线。Excel(和其他软件)可以绘制的漂亮的“样条拟合”插值是一个谎言。没有合理的理由使您的数据遵循特定的数学模型,因此您应坚持直线段。
此外,在这种情况下,最好在图形标题的某处添加免责声明,例如“线条仅是眼睛的引导”。
有时连接点很有意义,尤其是当它们非常密集时。
然后插值(例如用样条线)可能有意义。但是,如果它比一阶样条曲线更先进(显然,这只是连接点),则需要提及。
但是,对于几个点或十几个点的情况,情况并非如此。只需将标记留在原处即可。如果要拟合一条线(或另一条曲线),则为模型。您可以添加它,但是要明确-例如“线代表线性回归拟合”。
我认为在某些情况下,您可能并未提出明确的模型,但需要某种指导。然后我的规则是避免像鼠疫这样的曲线,并在一系列连续点之间坚持分段直线。
一方面,这一假设对读者而言更为明显。同样,尖刻也擅长使读者远离那些不受数据支持的趋势。如果有的话,这只会突出噪声和离群值。
我警惕的东西是样条曲线,二次方,回归等的粗略(非严格,非显式)使用。通常,这使似乎没有任何趋势的趋势。@Ivan绘制的曲线是滥用的一个很好的例子。对于3个数据点,我认为基本模型中没有任何最大值或最小值是显而易见的。