为类似于Anscombe四重奏的目的而构建的数据集

32

我刚刚遇到过Anscombe的四重奏（四个数据集具有几乎无法区分的描述性统计数据，但在绘制时看起来非常不同），我很好奇是否已经创建了其他或多或少的知名数据集来证明某些方面的重要性统计分析。

regression data-visualization dataset

— 休眠
source

3

到目前为止，该站点必须已经有数百个这样的数据集（如果不是更多的话），遍布其答案。尽管没有系统的搜索方法，但是快速浏览一下流行标签（例如回归标签）的投票最高的线程会发现一堆：尝试使用此搜索。

— whuber

2

一些直接相关的博客blog.revolutionanalytics.com/2017/05/the-datasaurus-dozen.html

— 休眠状态：

30

确实存在可以作为流行误解*的反例的数据集-我在各种情况下都构造了许多自己，但是我敢肯定，其中大多数对您来说不会很有趣。

*（这是Anscombe数据的作用，因为它是对人们误解为模型的质量可以从您提到的相同统计数据中分辨出来的一种回应）

我将在这里包括一些可能比我生成的大多数内容更有趣的内容：

1）（很多例子中的）一个例子是一些离散分布（因此是数据集），我被构造来抵消普遍的断言，即零第三矩偏斜意味着对称。（肯德尔和斯图尔特的《高级统计理论》提供了一个更加令人印象深刻的连续家族。）

这是这些离散分布示例之一：

\begin{array}{cccc} x & - 4 & 1 & 5 \\ P (X = x) & 2 / 6 & 3 / 6 & 1 / 6 \end{array}

$\begin{array}{cccc} \\ x&-4&1&5\\ \hline P(X=x)&2/6&3/6&1/6 \\ \end{array}$

（因此，在示例情况下，用于反例的数据集很明显：） $-4, -4, 1, 1, 1, 5$

如您所见，该分布不是对称的，但其第三矩偏度为零。同样，对于第二个最常见的偏度测度，第二个Pearson偏度系数（），人们可以很容易地构造出与类似断言的反例。 $3(\frac{mean-median}{\sigma})$

实际上，我还提出了两个度量在符号和符号上相反的分布和/或数据集-足以抵消以下观点：偏斜度是一个易于理解的单一概念，而不是我们并不真正认为的偏滑概念知道如何在许多情况下进行适当的测量。

2）按照Choonpradub＆McNeil（2005）的方法，在此答案的箱须图中构建了一组数据，用于多峰分布，该数据显示了具有相同箱图的四个看起来非常不同的数据集。

在此处输入图片说明

特别是，对称箱形图的明显偏斜分布往往使人们感到惊讶。

3）我还针对人们对直方图的过度依赖而构建了另外两个反例数据集集合，特别是只有几个bin，并且只有一个bin宽度和bin-origin的情况下；这导致对分布形状的错误自信的断言。这些数据集和示例显示可在此处找到

这是那里的例子之一。这是数据：

  1.03, 1.24, 1.47, 1.52, 1.92, 1.93, 1.94, 1.95, 1.96, 1.97, 1.98, 
  1.99, 2.72, 2.75, 2.78, 2.81, 2.84, 2.87, 2.90, 2.93, 2.96, 2.99, 3.60, 
  3.64, 3.66, 3.72, 3.77, 3.88, 3.91, 4.14, 4.54, 4.77, 4.81, 5.62

这是两个直方图：

偏斜与贝尔

这是以上两种情况下的34个观察值，只是具有不同的断点，一个具有binwidth，另一个具有binwidth。在R中生成的图如下： $1$ $0.8$

x <- c(1.03, 1.24, 1.47, 1.52, 1.92, 1.93, 1.94, 1.95, 1.96, 1.97, 1.98, 
  1.99, 2.72, 2.75, 2.78, 2.81, 2.84, 2.87, 2.9, 2.93, 2.96, 2.99, 3.6, 
  3.64, 3.66, 3.72, 3.77, 3.88, 3.91, 4.14, 4.54, 4.77, 4.81, 5.62)
hist(x,breaks=seq(0.3,6.7,by=0.8),xlim=c(0,6.7),col="green3",freq=FALSE)
hist(x,breaks=0:8,col="aquamarine",freq=FALSE)

4）我最近构造了一些数据集，以证明Wilcoxon-Mann-Whitney检验的不传递性-也就是说，表明对于三对或四对数据集（A，B和B）中的每对，一个人都可能拒绝一个尾巴的选择C，（在四个样本案例中为D），从而得出结论：（即得出结论，B往往比A大），并且对于C反对B ，以及A对C（对于4个示例，则是D对C，A对D）；每个周期都倾向于比周期中的前一个更大（从某种意义上说，甚至有更大的机会）。 $P(B>A)>\frac{1}{2}$

这是一个这样的数据集，每个样本中有30个观测值，标记为A到D：

       1     2     3     4     5     6     7     8     9    10    11    12
 A  1.58  2.10 16.64 17.34 18.74 19.90  1.53  2.78 16.48 17.53 18.57 19.05
 B  3.35  4.62  5.03 20.97 21.25 22.92  3.12  4.83  5.29 20.82 21.64 22.06
 C  6.63  7.92  8.15  9.97 23.34 24.70  6.40  7.54  8.24  9.37 23.33 24.26
 D 10.21 11.19 12.99 13.22 14.17 15.99 10.32 11.33 12.65 13.24 14.90 15.50

      13    14    15    16    17    18    19    20    21    22    23    24
 A  1.64  2.01 16.79 17.10 18.14 19.70  1.25  2.73 16.19 17.76 18.82 19.08
 B  3.39  4.67  5.34 20.52 21.10 22.29  3.38  4.96  5.70 20.45 21.67 22.89
 C  6.18  7.74  8.63  9.62 23.07 24.80  6.54  7.37  8.37  9.09 23.22 24.16
 D 10.20 11.47 12.54 13.08 14.45 15.38 10.87 11.56 12.98 13.99 14.82 15.65

      25    26    27    28    29    30
 A  1.42  2.56 16.73 17.01 18.86 19.98
 B  3.44  4.13  6.00 20.85 21.82 22.05
 C  6.57  7.58  8.81  9.08 23.43 24.45
 D 10.29 11.48 12.19 13.09 14.68 15.36

这是一个示例测试：

> wilcox.test(adf$A,adf$B,alt="less",conf.int=TRUE)

    Wilcoxon rank sum test

data:  adf$A and adf$B
W = 300, p-value = 0.01317
alternative hypothesis: true location shift is less than 0
95 percent confidence interval:
      -Inf -1.336372
sample estimates:
difference in location 
             -2.500199

如您所见，单面测试拒绝了null。来自A的值往往小于来自B的值。相同的结论（在相同的p值下）适用于B vs C，C vs D和D vsA。这种拒绝周期本身并不是一个问题。，如果我们不将其解释为并非如此。（用相似但较大的样本获得更小的p值很简单。）

当您计算位置偏移的间隔（在这种情况下为单侧）时，就会出现较大的“悖论”，在每种情况下都将排除0（每种情况下的间隔都不相同）。这导致我们得出以下结论：当我们从A到B到C到D遍历数据列时，位置向右移动，但是当我们移回A时，也会再次发生相同的情况。

使用这些数据集的较大版本（值的分布相似，但其中更多），我们可以在显着较小的显着性水平下获得显着性（一个或两个尾部），以便例如可以使用Bonferroni调整并仍然得出每个结论组来自下一个分配的上一个分配。

这表明，除其他外，Wilcoxon-Mann-Whitney的拒绝本身并不能自动证明地点变更的主张。

（虽然不是这些数据的情况，但也可以构造样本均值恒定的集合，而适用上述结果。）

在以后的编辑中添加：关于此的非常有用和有教育意义的参考是

Brown BM和Hettmansperger TP。（2002）
Kruskal-Wallis，多个共同商船和Efron骰子。
Aust＆N.ZJ统计 ，44，427-438。

5）相关的反例的另外一对夫妇拿出了这里 -在方差分析可能是显著，但所有成对比较不（解释两种不同的方式出现，从而产生不同的反例）。

因此，有一些反例数据集与一个人可能遇到的误解相矛盾。

您可能会猜到，我通常会在需要时合理地（与其他许多人一样）构造这样的反例。对于其中一些常见的误解，您可以用这样的方式来刻画反例的特征，即可以随意生成新的反例（尽管更经常地涉及一定程度的工作）。

如果您对某些特定的事物感兴趣，我也许能够找到更多这样的事物（我的事物或其他事物的事物），甚至构建一些事物。

生成具有所需系数的随机回归数据的一个有用技巧如下（括号中的部分是R代码的轮廓）：

a）设置无噪声所需的系数（y = b0 + b1 * x1 + b2 * x2）

b）生成具有期望特性的误差项（n = rnorm(length(y),s=0.4）

c）在相同的x（nfit = lm(n~x1+x2)）上建立噪声回归

d）将残差加到y变量（y = y + nfit$residuals）

做完了（整个过程实际上可以在R的几行中完成）

— Glen_b
source

6

0,0,1,1,1,1,3与普通断言的反例相反，尽管二项式似乎更好。

(\binom{10}{k}) {0.1}^{k} {0.9}^{10 - k}, k = 0, \dots, 10

${10 \choose k} 0.1^k 0.9^{10-k}, k = 0, \dots, 10$

— Nick Cox 2013年

@Glen_b谢谢。相反，非常非常有趣。例如，我刚刚保存了一个名为sturges.R的文件，其中包含数据x和以下代码行：hist（x，col =“ green3”，freq = FALSE）; hist（x，breaks =“ Scott”，col =“ aquamarine”，freq = FALSE）; hist（x，breaks =“ FD”，col =“ darkgreen”，freq = FALSE）我知道有些人未能说服R社区不要使用Sturges规则作为默认的单元格数量-您的示例也许是比罗伯·海因德曼（Rob Hyndman）尚未发表的理论笔记更具说服力。

— 2013年

@冬眠我的道歉缺乏明确性-我选择了发生在我身上的有趣的东西。就像我说的那样，经常会产生反例，但是大多数反例都不会引起人们的兴趣（直接受众除外）。有时是一些，所以我提到了所有我能想到的。如果我要构建一个示例以显示Sturges规则的问题，那么我将使该示例有所不同。（我认为该示例的主要价值在于明确表明您根本不应该依赖一个规则，并且通常应比常规规则更倾向于垃圾箱。）

— Glen_b -Reinstate Monica

2

@NickCox较小的反例“平均值=中值=模式意味着对称”是-2，-1，0，0，3，其余弥补这个问题。我怀疑是最小的，因为我们使用两个数据点来形成众数，第三个不同的点会破坏均值=中值，而我认为第四个点只有对称放置才能恢复均值=中值=模式。无论如何，您的二项式示例看起来更加人为，因此更加令人满意！

n = 5

$n=5$

— Silverfish

16

关于出于类似目的生成（例如，您自己的）数据集，您可能会对以下内容感兴趣：

Chatterjee，S.和Firat，A.（2007年）。生成具有相同统计信息但图形不同的数据：Anscombe数据集的后续工作。美国统计学家，第61卷，第3期，第248-254页。

至于仅用于演示统计中棘手/违反直觉的现象的数据集，有很多，但是您需要指定要演示的现象。例如，就证明辛普森悖论而言，伯克利性别偏见案例数据集非常有名。

有关所有最著名数据集的精彩讨论，请参见：作为示例/教学/测试数据集，“虹膜”数据集的哪些方面使它如此成功。

— 功
source

1

在论文“让我们把垃圾箱的回归和垃圾箱的概率放到哪里”（C. Achen，2004年）中，作者创建了一个具有非线性的合成数据集，旨在反映当数据存在时的真实案例。在测量过程中可能会遇到编码错误（例如，将数据分配给分类值时出现失真，或者量化程序不正确）。

综合数据是根据具有两个正系数的理想线性关系创建的，但是一旦应用了非线性编码误差，标准回归技术就会产生一个符号错误且具有统计意义的系数（如果您启动了一个较大的综合数据集）。

尽管这只是一个很小的综合数据集，但本文还是对天真“倾倒我能想到的一切”的回归提出了很大的反驳，表明即使是很小的/微妙的非线性（实际上是相当非线性的）常见于编码错误或量化错误等情况），如果您只相信标准回归按钮分析的结果，则可能会产生令人误解的结果。

— 伊利
source