具有相同方框和晶须图的类似Anscombe的数据集（平均值/标准差/中位数/ MAD /最小值/最大值）

编辑：由于这个问题被夸大，所以进行了总结：找到具有相同混合统计量（均值，中位数，中位数及其相关离散和回归）的不同有意义和可解释的数据集。

Anscombe四重奏（请参见显示高维数据的目的？）是四个 -数据集的著名示例，具有相同的边际均值/标准偏差（分别在四个和）和相同的OLS线性拟合，平方的回归和残差和以及相关系数。该型统计（边际和关节）等均相同，而数据集有很大的不同。 $x$ $y$ $x$ $y$ $R^2$ $\ell_2$

编辑（来自OP注释）让小数据集分开，让我提出一些解释。集1可以看作是分布噪声的标准线性（仿射，正确的）关系。第2组显示出干净的关系，这可能是更高程度拟合的顶点。集合3显示一个明显的线性统计依赖性，且具有一个异常值。集合4比较棘手：从预测的尝试似乎注定会失败。的设计可能会显示一个滞后现象，其值范围不足，存在量化效应（可能量化得太重），或者用户已切换了因变量和自变量。 $y$ $x$ $x$ $x$

因此摘要功能隐藏了非常不同的行为。集合2可以用多项式拟合更好地处理。设置3具有异常值抵抗方法（或类似方法）以及设置4。您可能想知道其他成本函数或差异指标是否可以解决，或至少改善数据集判别力。编辑（来自OP的评论）：博客文章Curious Regressions指出： $\ell_2$ $\ell_1$

顺便说一句，有人告诉我弗兰克·安斯科姆（Frank Anscombe）从未透露过他是如何提出这些数据集的。如果您认为获得所有摘要统计信息和回归结果相同是一件容易的事，请尝试一下！

在出于类似于Anscombe四重奏的目的而构造的数据集中，给出了一些有趣的数据集，例如具有相同的基于分位数的直方图。我没有看到有意义的关系和混杂的统计数据的混合。

我的问题是：是否有双变量（或三变量，以保持可视化）类似Anscombe的数据集，使得除了具有相同的 -type统计信息之外 $\ell_2$ ：

他们的曲线可以解释为和之间的关系，就好像人们在寻找测量之间的定律一样， $x$ $y$
它们具有相同的（更可靠）边际属性（相同的中位数和绝对偏差的中位数）， $\ell_1$
它们具有相同的边界框：相同的最小值，最大值（因此具有类型的中档和中跨统计信息）。 $\ell_\infty$

这样的数据集在每个变量上具有相同的“盒须”图摘要（带有最小值，最大值，中位数，中位数绝对偏差/ MAD，均值和标准差），并且在解释上仍然有很大不同。

如果数据集的某些最小绝对回归是相同的，那将会更加有趣（但是也许我已经问了太多）。在讨论稳健与不稳健回归时，它们可以作为警告，并有助于记住Richard Hamming的报价：

计算的目的是洞察力，而不是数字

编辑（来自OP的评论）在使用相同统计数据生成数据但不相似的图形，Sangit Chatterjee和Aykut Firata，《美国统计学家》（2007）或《克隆数据：生成具有完全相同的多元线性回归拟合的数据集》（J.澳洲 N.-Z. 统计 J.2009年。

在Chatterjee（2007）中，目的是生成与初始数据集具有相同均值和标准差的新颖对，同时最大化不同的“差异/差异”目标函数。由于这些函数可以是非凸的或不可微的，因此它们使用遗传算法（GA）。重要步骤包括正交归一化，这与保留均值和（单位）方差非常一致。纸张图形（纸张内容的一半）叠加了输入数据和GA输出数据。我的观点是，GA的输出失去了很多原始的直观解释。 $(x,y)$

和技术，无论是中位数还是中档被保留，并且纸张没有提到重整化程序将保存，和统计。 $\ell_2$ $\ell_1$ $\ell_\infty$

— 劳伦·杜瓦尔（Laurent Duval）
source

如果您只是在使用具有相同箱形图的单变量数据集，那么根据论文的发展情况，我在不久前回答了一个问题时就给出了一个数据集。等等，我将其挖掘出来。（编辑）... 这里。创建具有相同属性的更多数据集很容易...在另一个答案中，我在这里解决。

— Glen_b-恢复莫妮卡

但是，考虑到现在，我想您不是要使用具有相同箱形图的单变量数据集，而是要查找其

和

都具有两个箱形图的相同集合且具有相同箱形图的双变量数据集。最小二乘线-是吗？

x

$x$

y

$y$

— Glen_b-恢复莫妮卡

x

$x$

y

$y$

查特吉和的Firat（美国统计学家，2007年），挂在这个答案对这个问题，提供了一个相当普遍的遗传算法，你应该能够以简单的方式来适应你的目的。

— S. Kolassa-恢复莫妮卡

这些图是忽略分布矩时人口矩无意义的示例。均值，标准偏差，偏度和其他总体矩不对应于最能描述这些总体的期望值，标准偏差，偏度和其他矩。当将上面的图视为x值和y值的分布时，它们都是不同的，因此具有不同的分布矩。更糟糕的是，仅仅忽略了残留的结构（也许就是重点），就不能无视任何一个而忽略它们。

— 卡尔

具体来说，我正在考虑创建两个数据集的问题，每个数据集都暗示了一种关系，但是每个数据集的关系是不同的，但是也具有大致相同的关系：

均值x
平均ÿ
标清x
SD ÿ
中位数x
y中位数
最小x
最小y
最大x
最大y
相对于x中位数的绝对中位数偏差
与y中位数的中位数绝对偏差
y在x上的简单线性回归的系数

$\operatorname{mean} y = 0$ $\min y = -\max y$

考虑例如

\begin{array}{ccccccccccc} X & 0 & \frac{1个}{9} & \frac{2}{9} & \frac{3}{9} & \frac{4}{9} & \frac{5}{9} & \frac{6}{9} & \frac{7}{9} & \frac{8}{9} & 1个 \\ ÿ & - 1个 & - \frac{1个}{2} & 0 & \frac{1个}{2} & 1个 & 1个 & \frac{1个}{2} & 0 & - \frac{1个}{2} & - 1个 \end{array}

$\begin{array}{ccccccccccc} x & 0 & \tfrac{1}{9} & \tfrac{2}{9} & \tfrac{3}{9} & \tfrac{4}{9} & \tfrac{5}{9} & \tfrac{6}{9} & \tfrac{7}{9} & \tfrac{8}{9} & 1 \\ \hline y & -1 & -\tfrac{1}{2} & 0 & \tfrac{1}{2} & 1 & 1 & \tfrac{1}{2} & 0 & -\tfrac{1}{2} & -1 \end{array}$

具有向上的V形图形，如下所示：

$y$ $-y$

— 科迪学家
source

不错的贡献。的确，我跌倒了水平线是对OLS的一种欺骗。翻转是个好主意，但是如果数据集不同，则它们仍然相似。但是我认为您有个好主意，也许以相同的方式使用“ N”形和“ W”形可能是一条道路的起点

— Laurent Duval 2016年