代表实验数据


9

我和我的顾问就数据可视化争论不休。他声称,当代表实验结果时,值应仅用“ 标记 ” 绘制,如下面的图像所示。虽然曲线只能代表“ 模型

Markers.png

另一方面,我相信在许多情况下,为了提高可读性,曲线是不必要的,如下面的第二幅图所示:

Lines.png

我是错还是我的教授?如果是后者,我该如何向他解释。


5
点就是数据。您适合这些点的曲线不是数据。因此,如果您打算显示数据

3
正如JeffE所说。更明确地说:绘制的曲线模型,因为在绘制它们时假定了特定的形状,并且对该形状有一些推理。该推理基于特定模型。
gerrit

1
我已经提交了迁移请求;这确实属于交叉验证,而不是这里。

2
我认为它可能在CrossValidated上是热门话题,但在这里肯定也是热门话题。仅当迁移不在此处时,才应考虑进行迁移(两个站点上的问题都将成为话题,没关系)。这是一个具有有效答案的真实问题,对许多学者来说绝对是相关的。

2
您的第二张图表令人怀疑。如果您将这些点用直线连接起来,那么(也许)您会提出一个清晰的参数。但是使用一条曲线,您声称蓝线峰值在740°,而紫线最小值在840°,即使您在这些温度下没有实验数据也是如此。在测量数据之外引入最小值/最大值是一个红色标记。
达伦·库克

Answers:


10

我喜欢以下经验法则:

如果您需要引导视线线(即显示一个趋势,没有行会不会像清晰可见),你应该不会放线。

人类非常擅长识别模式(我们宁愿看到不存在的趋势,也不愿错过现有趋势)。如果我们无法获得没有线条的趋势,则可以确定没有趋势可以最终显示在数据集中。

关于第二张图,测量点不确定性的唯一指示是700°C下C:O 1.2的两个红色正方形。这两个因素的传播意味着我不会接受例如

  • C:O 1.2完全有趋势
  • 2.0和3.6之间有区别
  • 并确保曲线模型过度拟合了数据。

没有给出很好的理由。但是,那将再次成为模型。


编辑:回答伊万的评论:

我是化学家,我会说没有错误就可以进行测量-可接受的值取决于实验和仪器。

这个答案不是要显示实验错误,而是要显示并考虑到它。

我的推理背后的想法是,图形恰好显示了一次重复的测量,因此当讨论的是模型应该拟合的复杂程度(例如,水平线,直线,二次曲线等)时,这可以使我们对测量有所了解错误。在您的情况下,这意味着即使您有一个硬模型(例如热力学或动力学方程式)表明它应该是二次的,您也将无法拟合有意义的二次(样条曲线)-您只是没有足够的数据。

为了说明这一点:

df <-data.frame (T      =         c ( 700,  700,  800, 900,  700, 800, 900, 700, 800, 900), 
                 C.to.O = factor (c ( 1.2,  1.2,  1.2, 1.2,  2  , 2  , 2  , 3.6, 3.6, 3.6)),
                 tar    =         c (21.5, 18.5, 19.5, 19,  15.5, 15 , 6  , 16.5, 9, 9))

这是线性拟合,以及每个C:O比率的95%置信区间:

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm") + 
    facet_wrap (~C.to.O)

线性模型

请注意,对于较高的C:O比,置信区间的范围远小于0。这意味着线性模型的隐式假设是错误的。但是,可以得出结论:较高C:O含量的线性模型已经过拟合。

因此,退后一步并仅拟合一个常数值(即不依赖T):

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm", formula = y ~ 1) + 
    facet_wrap (~C.to.O) 

无T依赖性

补语是对不依赖C:O的模型进行建模:

ggplot (df, aes (x = T, y = tar)) + geom_point (aes (col = C.to.O)) + 
    stat_smooth (method = "lm", formula = y ~ x) 

没有C:O依赖

尽管如此,置信区间仍将覆盖一条水平甚至略微上升的线。

您可以继续尝试,例如允许三个C:O比率使用不同的偏移量,但使用相同的斜率。

但是,已经很少有更多的测量可以大大改善这种情况-请注意,C:O = 1:1:1的置信区间要窄得多,在那里您需要进行4次测量,而不是只有3次。

结论:如果您比较我怀疑的结论的观点,那么他们会从太多的可用观点中获取太多信息!


你说的很对。但是,在工程中,实验误差(不确定性)非常普遍,并且假定3%到5%的相对误差是可以接受的。仍然需要显示MAX,MIN和AVG结果。因此,在我的情况下,标记是四肢,而线是平均值。
伊万·

非常好的示例,非常有帮助(您使我对R感兴趣)。因此,当然正确的做法是获取更多数据点。
伊万·P。13年

12

正如JeffE所说:重点就是数据。通常,最好避免尽可能多地添加曲线。添加曲线的原因之一是,通过使点和点之间的趋势更易读,它使图形更美观。如果您只有很少的数据点,则尤其如此。

但是,还有其他显示稀疏数据的方法可能比散点图更好。一种可能性是条形图,其中各种条形比单个点更明显。颜色代码(类似于图中已经存在的颜色)将有助于查看每个数据系列的趋势(或者可以拆分数据系列,并在较小的单个条形图中并排显示)。

最后,如果您确实想在符号之间添加某种形式的线,则有两种情况:

  1. 如果您希望某个模型对您的数据有效(线性,谐波等),则应在模型上拟合您的数据,在文本中解释该模型,并评论数据与模型之间的协议。

  2. 如果您没有任何合理的数据模型,则不应在图表中包含额外的假设。特别是,这意味着除了海峡线以外,您的点之间不应包括任何类型的线。Excel(和其他软件)可以绘制的漂亮的“样条拟合”插值是一个谎言。没有合理的理由使您的数据遵循特定的数学模型,因此您应坚持直线段。

    此外,在这种情况下,最好在图形标题的某处添加免责声明,例如“线条仅是眼睛的引导”。


2
这是一个很好的建议,要减去关于酒吧更合适的评论。有关与此相关的类似讨论,请参见“手把”图的替代图形。想象一下,OP将其作为聚类的条形图列出,很难想象跨温度范围的趋势。一种使点更容易可见的方法是使它们沿x轴抖动,克利夫兰的研究表明,无论如何,我们应该更喜欢点而不是条。
安迪W

@Andy W,“沿x轴抖动”是什么意思?
伊万·P。13年

1
@IvanP。,我的意思是不是将点固定在横坐标上的特定值上,而是将它们稍微向左或向右移动,以使这些点不会相互重叠。从图的其余部分应该清楚,它们实际上是指x轴上的组的精确值,并且轻微的抖动应该不会影响值之间的趋势的可视化。
安迪W

6

1-您的教授提出了一个正确的观点。

2-您的情节绝对不会增加可读性恕我直言。

3-根据我的理解,这不是真正提出此类问题的正确论坛,您应该在交叉验证时提出。


我很想知道可读性的问题在哪里,任何改进的建议都非常受欢迎
Ivan P.

1

有时连接点很有意义,尤其是当它们非常密集时。

然后插值(例如用样条线)可能有意义。但是,如果它比一阶样条曲线更先进(显然,这只是连接点),则需要提及。

但是,对于几个点或十几个点的情况,情况并非如此。只需将标记留在原处即可。如果要拟合一条线(或另一条曲线),则为模型。您可以添加它,但是要明确-例如“线代表线性回归拟合”。


0

我认为在某些情况下,您可能并未提出明确的模型,但需要某种指导。然后我的规则是避免像鼠疫这样的曲线,并在一系列连续点之间坚持分段直线。

一方面,这一假设对读者而言更为明显。同样,尖刻也擅长使读者远离那些不受数据支持的趋势。如果有的话,这只会突出噪声和离群值。

我警惕的东西是样条曲线,二次方,回归等的粗略(非严格,非显式)使用。通常,这使似乎没有任何趋势的趋势。@Ivan绘制的曲线是滥用的一个很好的例子。对于3个数据点,我认为基本模型中没有任何最大值或最小值是显而易见的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.