我有两组数据。每个变量都有不同的分布。我试图确定这两组的分布是否在统计上有意义。我既有原始格式的数据,又有binbined的数据,可以更轻松地处理每个频率计数的离散类别。
我应该使用什么测试/过程/方法来确定这两组是否存在显着差异,以及如何在SAS或R(或Orange)中进行测试?
我有两组数据。每个变量都有不同的分布。我试图确定这两组的分布是否在统计上有意义。我既有原始格式的数据,又有binbined的数据,可以更轻松地处理每个频率计数的离散类别。
我应该使用什么测试/过程/方法来确定这两组是否存在显着差异,以及如何在SAS或R(或Orange)中进行测试?
Answers:
我认为,这需要进行两次样本的Kolmogorov-Smirnov检验等。两个样本的Kolmogorov–Smirnov检验基于比较两个样本的经验分布函数(ECDF)的差异,这意味着它对两个样本的位置和形状均敏感。它还可以概括为多元形式。
该测试以各种形式存在于R中的不同软件包中,因此,如果您基本熟练,则只需安装其中一个(例如fBasics),然后在示例数据上运行它即可。
proc npar1way
。在R中,除了ks.test()
,还有nortest
提供其他几个调整测试的软件包。
我要问顾问这个愚蠢的问题。您为什么想知道这些分布是否在统计上显着不同?
您使用的数据是否是总体或过程中的代表性样本,并且您想评估这些总体或过程不同的证据?如果是这样,那么统计检验适合您。但这对我来说似乎是一个奇怪的问题。
或者,您是否对是否真的需要表现出这些总体或过程有所不同而无视事实真相感兴趣?这样一来,您最好确定损失函数,理想情况下,该函数将返回对您有意义的单位,并在您(a)将总体视为不同,并且(b)将其视为相同时预测预期损失。或者,如果您想采用或多或少的保守立场,则可以选择一些损失分布的分位数。
您可能对应用相对分配方法感兴趣。将一个组称为参考组,将另一个称为比较组。与构造概率-概率图类似,您可以构造相对CDF / PDF,它是密度的比率。该相对密度可以用于推断。如果分布相同,则期望均匀的相对分布。有图形和统计工具,可用于探索和检查是否存在均匀性问题。
获得更好理解的一个很好的起点是在R中应用相对分配方法,在R中应用reldist包。有关详细信息,您需要参考《汉考克和莫里斯的社会科学中的相对分配方法》一书。作者还有一篇论文介绍了相关技术。
衡量两个分布之间差异的一种方法是“最大平均差异”标准,该标准基本上衡量的是复制内核希尔伯特空间(RKHS)中来自两个分布的样本的经验均值之间的差异。请参阅本文“针对两个样本问题的内核方法”。
我不知道如何使用SAS / R / Orange,但这听起来像您需要的测试是卡方测试。