具有相同方框和晶须图的类似Anscombe的数据集(平均值/标准差/中位数/ MAD /最小值/最大值)


21

编辑:由于这个问题被夸大,所以进行了总结:找到具有相同混合统计量(均值,中位数,中位数及其相关离散和回归)的不同有意义和可解释的数据集。

Anscombe四重奏(请参见显示高维数据的目的?)是四个 -数据集的著名示例,具有相同的边际均值/标准偏差(分别在四个和)和相同的OLS线性拟合,平方的回归和残差和以及相关系数。该型统计(边际和关节)等均相同,而数据集有很大的不同。y x yxyxy2R22

安斯科姆四重奏

编辑(来自OP注释)让小数据集分开,让我提出一些解释。集1可以看作是分布噪声的标准线性(仿射,正确的)关系。第2组显示出干净的关系,这可能是更高程度拟合的顶点。集合3显示一个明显的线性统计依赖性,且具有一个异常值。集合4比较棘手:从预测的尝试似乎注定会失败。的设计可能会显示一个滞后现象,其值范围不足,存在量化效应(可能量化得太重),或者用户已切换了因变量和自变量。X X Xyxxx

因此摘要功能隐藏了非常不同的行为。集合2可以用多项式拟合更好地处理。设置3具有异常值抵抗方法(或类似方法)以及设置4。您可能想知道其他成本函数或差异指标是否可以解决,或至少改善数据集判别力。编辑(来自OP的评论):博客文章Curious Regressions指出:121

顺便说一句,有人告诉我弗兰克·安斯科姆(Frank Anscombe)从未透露过他是如何提出这些数据集的。如果您认为获得所有摘要统计信息和回归结果相同是一件容易的事,请尝试一下!

出于类似于Anscombe四重奏的目的构造的数据集中,给出了一些有趣的数据集,例如具有相同的基于分位数的直方图。我没有看到有意义的关系和混杂的统计数据的混合。

我的问题是:是否有双变量(或三变量,以保持可视化)类似Anscombe的数据集,使得除了具有相同的 -type统计信息之外2

  • 他们的曲线可以解释为和 之间的关系,就好像人们在寻找测量之间的定律一样,ÿxy
  • 它们具有相同的(更可靠)边际属性(相同的中位数和绝对偏差的中位数),1
  • 它们具有相同的边界框:相同的最小值,最大值(因此具有类型的中档和中跨统计信息)。

这样的数据集在每个变量上具有相同的“盒须”图摘要(带有最小值,最大值,中位数,中位数绝对偏差/ MAD,均值和标准差),并且在解释上仍然有很大不同。

如果数据集的某些最小绝对回归是相同的,那将会更加有趣(但是也许我已经问了太多)。在讨论稳健与不稳健回归时,它们可以作为警告,并有助于记住Richard Hamming的报价:

计算的目的是洞察力,而不是数字

编辑(来自OP的评论)在使用相同统计数据生成数据但不相似的图形,Sangit Chatterjee和Aykut Firata,《美国统计学家》(2007)或《克隆数据:生成具有完全相同的多元线性回归拟合的数据集》(J.澳洲 N.-Z. 统计 J.2009年。

在Chatterjee(2007)中,目的是生成与初始数据集具有相同均值和标准差的新颖对,同时最大化不同的“差异/差异”目标函数。由于这些函数可以是非凸的或不可微的,因此它们使用遗传算法(GA)。重要步骤包括正交归一化,这与保留均值和(单位)方差非常一致。纸张图形(纸张内容的一半)叠加了输入数据和GA输出数据。我的观点是,GA的输出失去了很多原始的直观解释。(x,y)

和技术,无论是中位数还是中档被保留,并且纸张没有提到重整化程序将保存1统计。21


3
如果您只是在使用具有相同箱形图的单变量数据集,那么根据论文的发展情况,我在不久前回答了一个问题时就给出了一个数据集。等等,我将其挖掘出来。(编辑)... 这里。创建具有相同属性的更多数据集很容易...在另一个答案中,我在这里解决
Glen_b-恢复莫妮卡

2
但是,考虑到现在,我想您不是要使用具有相同箱形图的单变量数据集,而是要查找其y都具有两个箱形图的相同集合具有相同箱形图的双变量数据集。最小二乘线-是吗?Xÿ
Glen_b-恢复莫妮卡

Xÿ

3
查特吉和的Firat(美国统计学家,2007年),挂在这个答案这个问题,提供了一个相当普遍的遗传算法,你应该能够以简单的方式来适应你的目的。
S. Kolassa-恢复莫妮卡

1
这些图是忽略分布矩时人口矩无意义的示例。均值,标准偏差,偏度和其他总体矩不对应于最能描述这些总体的期望值,标准偏差,偏度和其他矩。当将上面的图视为x值和y值的分布时,它们都是不同的,因此具有不同的分布矩。更糟糕的是,仅仅忽略了残留的结构(也许就是重点),就不能无视任何一个而忽略它们。
卡尔

Answers:


1

具体来说,我正在考虑创建两个数据集的问题,每个数据集都暗示了一种关系,但是每个数据集的关系是不同的,但是也具有大致相同的关系:

  • 均值x
  • 平均ÿ
  • 标清x
  • SD ÿ
  • 中位数x
  • y中位数
  • 最小x
  • 最小y
  • 最大x
  • 最大y
  • 相对于x中位数的绝对中位数偏差
  • y中位数的中位数绝对偏差
  • yx上的简单线性回归的系数

意思ÿ=0ÿ=-最高ÿ

考虑例如

X01个9293949596979891个ÿ-1个-1个201个21个1个1个20-1个2-1个

具有向上的V形图形,如下所示:

图形

ÿ-ÿ


不错的贡献。的确,我跌倒了水平线是对OLS的一种欺骗。翻转是个好主意,但是如果数据集不同,则它们仍然相似。但是我认为您有个好主意,也许以相同的方式使用“ N”形和“ W”形可能是一条道路的起点
Laurent Duval 2016年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.