编辑:由于这个问题被夸大,所以进行了总结:找到具有相同混合统计量(均值,中位数,中位数及其相关离散和回归)的不同有意义和可解释的数据集。
Anscombe四重奏(请参见显示高维数据的目的?)是四个 -数据集的著名示例,具有相同的边际均值/标准偏差(分别在四个和)和相同的OLS线性拟合,平方的回归和残差和以及相关系数。该型统计(边际和关节)等均相同,而数据集有很大的不同。y x yℓ 2
编辑(来自OP注释)让小数据集分开,让我提出一些解释。集1可以看作是分布噪声的标准线性(仿射,正确的)关系。第2组显示出干净的关系,这可能是更高程度拟合的顶点。集合3显示一个明显的线性统计依赖性,且具有一个异常值。集合4比较棘手:从预测的尝试似乎注定会失败。的设计可能会显示一个滞后现象,其值范围不足,存在量化效应(可能量化得太重),或者用户已切换了因变量和自变量。X X X
因此摘要功能隐藏了非常不同的行为。集合2可以用多项式拟合更好地处理。设置3具有异常值抵抗方法(或类似方法)以及设置4。您可能想知道其他成本函数或差异指标是否可以解决,或至少改善数据集判别力。编辑(来自OP的评论):博客文章Curious Regressions指出:ℓ 1
顺便说一句,有人告诉我弗兰克·安斯科姆(Frank Anscombe)从未透露过他是如何提出这些数据集的。如果您认为获得所有摘要统计信息和回归结果相同是一件容易的事,请尝试一下!
在出于类似于Anscombe四重奏的目的而构造的数据集中,给出了一些有趣的数据集,例如具有相同的基于分位数的直方图。我没有看到有意义的关系和混杂的统计数据的混合。
我的问题是:是否有双变量(或三变量,以保持可视化)类似Anscombe的数据集,使得除了具有相同的 -type统计信息之外:
- 他们的曲线可以解释为和 之间的关系,就好像人们在寻找测量之间的定律一样,ÿ
- 它们具有相同的(更可靠)边际属性(相同的中位数和绝对偏差的中位数),
- 它们具有相同的边界框:相同的最小值,最大值(因此具有类型的中档和中跨统计信息)。
这样的数据集在每个变量上具有相同的“盒须”图摘要(带有最小值,最大值,中位数,中位数绝对偏差/ MAD,均值和标准差),并且在解释上仍然有很大不同。
如果数据集的某些最小绝对回归是相同的,那将会更加有趣(但是也许我已经问了太多)。在讨论稳健与不稳健回归时,它们可以作为警告,并有助于记住Richard Hamming的报价:
计算的目的是洞察力,而不是数字
编辑(来自OP的评论)在使用相同统计数据生成数据但不相似的图形,Sangit Chatterjee和Aykut Firata,《美国统计学家》(2007)或《克隆数据:生成具有完全相同的多元线性回归拟合的数据集》(J.澳洲 N.-Z. 统计 J.2009年。
在Chatterjee(2007)中,目的是生成与初始数据集具有相同均值和标准差的新颖对,同时最大化不同的“差异/差异”目标函数。由于这些函数可以是非凸的或不可微的,因此它们使用遗传算法(GA)。重要步骤包括正交归一化,这与保留均值和(单位)方差非常一致。纸张图形(纸张内容的一半)叠加了输入数据和GA输出数据。我的观点是,GA的输出失去了很多原始的直观解释。
和技术,无论是中位数还是中档被保留,并且纸张没有提到重整化程序将保存,ℓ 1和ℓ ∞统计。