探索变量之间的关系非常模糊,但是我猜想像这样检查散点图的两个更一般的目标是:
- 识别潜在的潜在群体(变量或案例)。
- 识别异常值(在单变量,双变量或多变量空间中)。
两者都将数据简化为更易于管理的摘要,但是具有不同的目标。识别潜在组通常可以减少数据的维数(例如,通过PCA),然后探索变量或案例是否在此缩小的空间内聚集在一起。参见例如Friendly(2002)或Cook等。(1995)。
识别异常值可能意味着拟合模型并绘制与模型的偏差(例如,绘制回归模型的残差),或者将数据缩小为其主要成分,并且仅突出显示与模型或数据主体不同的点。例如,一维或二维的箱型图通常仅显示铰链外部的单个点(Wickham&Stryjewski,2013)。绘制残差具有应平整绘图的良好特性(Tukey,1977年),因此,剩余点云中任何关系的证据都是“有趣的”。这个关于简历的问题对识别多元离群值有一些很好的建议。
探索如此大的SPLOMS的一种常见方法是不绘制所有单个点,而是绘制某种简化的摘要,然后绘制可能与该摘要有很大不同的点,例如置信椭圆,诊断摘要(Wilkinson&Wills,2008年),双变量箱形图,等高线图。下面是绘制定义协方差的椭圆并叠加黄土平滑器以描述线性关联的示例。
(来源:statmethods.net)
无论哪种方式,具有如此多变量的真正成功的交互式绘图都可能需要智能排序(Wilkinson,2005年)和一种简单的方法来过滤出变量(除了笔刷/链接功能之外)。同样,任何现实的数据集都需要具有转换轴的功能(例如,以对数标度绘制数据,通过求根来转换数据等)。祝您好运,不要只留一个情节!
引文