如何解释Kolmogorov-Smirnov检验(python)的p值?


30

如果有两个样本是从同一发行版中提取的,我有两个样本要测试(使用python)。为此,我使用scipy.stats中的统计函数ks_2samp。它返回2个值,我很难理解它们。请帮忙!

Answers:


23

正如Stijn所指出的,ks检验返回D统计量和与D统计​​量相对应的p值。D统计量是两个样本的CDF之间的绝对最大距离(最大)。该数字越接近0,则两个样本从同一分布中抽取的可能性就越大。查看Wikipedia页面上的ks测试。它提供了很好的解释:https : //en.m.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

ks检验返回的p值与其他p值具有相同的解释。如果p值小于您的显着性水平,则您拒绝零假设,即两个样本均来自同一分布。如果您对该过程感兴趣,可以在线找到用于将D统计量转换为p值的表。


谢谢您的回答。实际上,我知道2个值D和P值的含义,但看不到它们之间的关系。如何定义重要性级别?您能给我一个将D统计量转换为p值的链接吗?
梅里


@CrossValidatedTrading:您对d-STAT对p值表的链接现在是404
james.garriss

@CrossValidatedTrading 2面KS测试的p值和D值之间是否存在关系?在某些情况下,我看到了比例关系,其中D统计量随p值增加。似乎是相反的:两条具有较大差异(较大D统计量)的曲线将具有较大差异(P值较低)……
Thomas Matthew

如果p值> 0.05,则您的两个样本应相同且平衡。
user798719 2013年

5

在Google中搜索ks_2samp时,第一个匹配项是网站。在它上面,您可以看到功能说明:

This is a two-sided test for the null hypothesis that 2 independent samples are drawn from the same continuous distribution.

Parameters : 
  a, b : sequence of 1-D ndarrays
  two arrays of sample observations assumed to be drawn from a continuous distribution, sample sizes can be different

Returns :   
  D : float,  KS statistic
  p-value : float, two-tailed p-value

参数a和b是我的数据序列,还是应该计算CDF以使用ks_2samp?
梅里

@meri:我链接到的页面上有一个示例。
Stijn
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.