评估分布差异的重要性

22

我有两组数据。每个变量都有不同的分布。我试图确定这两组的分布是否在统计上有意义。我既有原始格式的数据，又有binbined的数据，可以更轻松地处理每个频率计数的离散类别。

我应该使用什么测试/过程/方法来确定这两组是否存在显着差异，以及如何在SAS或R（或Orange）中进行测试？

distributions statistical-significance

— 杰伊·史蒂文斯（Jay Stevens）
source

2

您是否对分布是否具有不同的形式（例如，正态，泊松等）或参数是否不同（例如，正态分布的均值或sd）感兴趣？

— Jeromy Anglim

一个相关的问题：stats.stackexchange.com/questions/9311/...

— GaBorgulya

15

我认为，这需要进行两次样本的Kolmogorov-Smirnov检验等。两个样本的Kolmogorov–Smirnov检验基于比较两个样本的经验分布函数（ECDF）的差异，这意味着它对两个样本的位置和形状均敏感。它还可以概括为多元形式。

该测试以各种形式存在于R中的不同软件包中，因此，如果您基本熟练，则只需安装其中一个（例如fBasics），然后在示例数据上运行它即可。

— 约翰·泰勒
source

5

对于R ks.test，默认的“ stats”软件包中可以进行KS测试，而无需安装其他软件包。

— russellpierce

在SAS中，可以使用KS测试proc npar1way。在R中，除了ks.test()，还有nortest提供其他几个调整测试的软件包。

— chl 2010年

8

我要问顾问这个愚蠢的问题。您为什么想知道这些分布是否在统计上显着不同？

您使用的数据是否是总体或过程中的代表性样本，并且您想评估这些总体或过程不同的证据？如果是这样，那么统计检验适合您。但这对我来说似乎是一个奇怪的问题。

或者，您是否对是否真的需要表现出这些总体或过程有所不同而无视事实真相感兴趣？这样一来，您最好确定损失函数，理想情况下，该函数将返回对您有意义的单位，并在您（a）将总体视为不同，并且（b）将其视为相同时预测预期损失。或者，如果您想采用或多或少的保守立场，则可以选择一些损失分布的分位数。

— 安德鲁·罗宾逊
source

你的语气有点狡猾和屈尊……但是你是对的，我认为我真正追求的是我是否可以合理地假设这两个分布是相同的。

— 杰·史蒂文斯

3

对不起，您不喜欢我的语气。如果您想知道是否可以合理地假设两个分布相同，则KS将误导您，因为它会检验两个分布相同的零假设。

— 安德鲁·罗宾逊

5

您可能对应用相对分配方法感兴趣。将一个组称为参考组，将另一个称为比较组。与构造概率-概率图类似，您可以构造相对CDF / PDF，它是密度的比率。该相对密度可以用于推断。如果分布相同，则期望均匀的相对分布。有图形和统计工具，可用于探索和检查是否存在均匀性问题。

获得更好理解的一个很好的起点是在R中应用相对分配方法，在R中应用 reldist包。有关详细信息，您需要参考《汉考克和莫里斯的社会科学中的相对分配方法》一书。作者还有一篇论文介绍了相关技术。

— 阿尔斯
source

2

衡量两个分布之间差异的一种方法是“最大平均差异”标准，该标准基本上衡量的是复制内核希尔伯特空间（RKHS）中来自两个分布的样本的经验均值之间的差异。请参阅本文“针对两个样本问题的内核方法”。

— 乌木1
source

我认为这种方法最可靠，但众所周知，因为如果您的分布样本有限（因此样本分布不完全是连续的），则该方法同样有效。据我所知，它也适用于多项分布，据我所知，对于KS测试来说，多项分布仍然是活跃的研究

— www3

-1

我不知道如何使用SAS / R / Orange，但这听起来像您需要的测试是卡方测试。

— 苏雷什（Suresh）Venkatasubramanian
source

我认为Chi-Sq主要用于分类数据（列联表）还是连续数据？

— 杰·史蒂文斯

1

嗯，我实际上比我更喜欢KS测试答案！

— Suresh Venkatasubramanian

1

不，这是不正确的。

— SmallChess