Questions tagged «kolmogorov-smirnov»

Kolmogorov-Smirnov检验是一种将数据拟合到分布的良好性的检验。它通常用于测试变量是否正态分布。

1
测试2个经验离散分布之间的差异
我有测试数据,其中有一些来自离散分布的大型样本,这些样本被用作经验分布。我想测试分布是否实际上不同,以及那些实际上不同的分布的均值差异是什么。 由于它们是离散分布,因此我的理解是,由于潜在的连续分布假设,Kolmogorov-Smirnov检验无效。对于分布是否实际不同,Chi-Squared检验是否是正确的检验? 对于均值差异,我将使用什么测试?更好的方法是从分布中取样并获取差异,然后对差异的分布进行分析吗?


1
除了Kolmogorov-Smirnov检验之外,还有其他方法可用于校正带约束的数据吗?
我从两个样本(对照样本和处理样本)中得到了一堆数据,每个样本都包含数千个值,这些值将在R中进行显着性检验。理论上,这些值应该是连续的,但是由于测量软件进行了四舍五入,因此它们不是“他们之间建立了联系。分布是未知的,并且对照分布和处理过的分布的形状可能不同,因此我想使用非参数检验来比较样本中的差异是否对10个不同因素有显着影响。 我曾考虑过使用Kolmogorov-Smirnov检验,但是它并不真正适用于平局。我最近偶然发现了一个名为Matching的新R库,该库执行KS测试的引导版本并可以容忍联系。现在,这真的是一个好主意,还是应该改用其他测试?我是否需要调整p值?

1
Kolmogorov–Smirnov检验与t检验
我在理解2个样本KS检验的解释以及与2组之间的常规t检验有何不同方面遇到一些困难。 可以说我有男性和女性在做一些任务,而我从这项任务中收集了一些分数。我的最终目标是确定男性和女性在这项任务上的表现是否不同 因此,我可以做的一件事就是在两组之间进行测试。我可以做的另一件事是计算男性和女性的ECDF,绘制它们,然后进行2个样本KS测试。我会得到这样的东西: KS测试 KS检验的原假设是2组连续得分分布来自同一人群 进行KS测试时,我得到:D = 0.18888,p值= 0.04742 首先,我想检查一下我对结果的解释是否正确。在这里,我将拒绝原假设,并说男性和女性得分分布来自不同的人群。换句话说,男性和女性得分的分布彼此不同。 更具体地说,男性在此任务上获得较低分数的可能性更高,这就是我从情节中得出的两种性别之间的差异 T检验 现在在测试中,将在得分变量上测试男性和女性均值之间的差异。 让我们想象一下在此任务中男性表现比女性差的情况。在这种情况下,男性得分的分布将以低均值为中心,而女性得分的分布将以高均值为中心。这种情况与上面的情节是一致的,因为男性获得较低分数的可能性更高。 如果t检验显着,我可以得出结论,女性平均得分明显高于男性。或从人口角度而言,女性分数是从平均数高于男性人口的人口中得出的,这听起来与堪萨斯州得出的结论是来自不同人口的结论非常相似。 有什么不同? 因此,我在KS和t测试用例中得出的结论是相同的。男性相对于女性表现较差。那么,使用一种测试优于另一种测试有什么好处?使用KS测试是否可以获得任何新知识? 我认为,男性的分布以低均值为中心,女性的分布以高均值为中心是导致显着t检验的原因。但是,基于同样的事实,男性得分较低值的可能性更高,这将使该图看起来像上面,并进行有效的KS检验。因此,两种检验的结果都具有相同的根本原因,但也许有人可能会说,KS检验不仅考虑了分布的均值,而且还考虑了分布的形状,但是有可能解析出原因仅从测试结果中得出哪些重要的KS测试? 那么在测试中运行KS测试有什么价值呢?并假设我可以满足这个问题的t检验的假设

2
Kolmogorov–Smirnov检验有一个简单的等效检验版本吗?
是否对Kolmogorov-Smirnov检验设计了两个等效的单面检验(TOST),以检验两个分布至少相差某个研究人员指定水平的否定主义原假设? 如果不是TOST,那么是否进行其他形式的等效测试? 尼克·斯汤纳(Nick Stauner)明智地指出,(我应该已经知道;)还有其他非参数TOST等价检验,用于随机等价的零假设,并且在更严格的假设下,还包括中位数等价物。

3
二维Kolmogorov-Smirnov
我想运行一些二维Kolmogorov-Smironov测试,以确定二维分布是否适合参考。 我是否可以相对简单的方式使用任何软件包或应用程序?还是有其他更可取的算法?我只有基本的统计知识。

3
聚类概率分布-方法和指标?
我有一些数据点,每个数据点包含5个聚集的离散结果向量,每个向量的结果都是通过不同的分布生成的(具体类型我不确定,我最好的猜测是Weibull,其形状参数在幂次幂附近变化定律(大致为1到0)。) 我正在寻找使用像K-Means这样的聚类算法,根据其5个分量分布的属性将每个数据点分组。我想知道是否有确定的距离度量标准可以很好地满足这些目的。到目前为止,我已经有了三个想法,但是我不是一个经验丰富的统计学家(更多的是一位数据挖掘计算机初学者),所以我几乎不知道自己有多远。 由于我不知道我要处理的是哪种分布,因此我的蛮力解决方法是将每个分布(每个点有5个)切成其各自的离散数据值(I pad)每个值都对应一个相同的长度,并在末尾用零表示),并将这些值中的每个用作数据点本身的单独属性。我尝试基于PDF和CDF的这些属性使用曼哈顿距离和欧几里得距离作为度量。 再一次,由于我不知道我拥有哪种分布,所以我发现,如果要测量总体分布之间的距离,则可以在分布之间使用某种非参数测试对,例如KS检验,以查找给定分布是由不同PDF生成的可能性。我认为,使用曼哈顿距离的第一个选择(以上)将是使用该方法可能获得的一种上限(因为KS统计量是CDF差的最大绝对值,其中曼哈顿距离是PDF差异的绝对值之和)。然后,我考虑了可能使用欧几里得距离,但可能仅取所有这些值中的最大值来组合每个数据点内不同的KS统计量或P值。 最后,为了尽我所能解释的分布形状,我想我可能会尝试估计分布的参数以拟合Weibull曲线。然后,我可以基于Weibull分布的两个参数lambda和k(比例和形状)的差异对分布进行聚类,可能根据这些参数的差异或某种形式进行归一化。这是我认为可能对参数进行标准化的唯一情况。 所以我的问题是,对于集群分布,您会建议什么度量/方法?我甚至在这些方面都走对了吗?K-Means甚至是使用的好算法吗? 编辑:澄清数据。 每个数据点(Obj我要集群的每个对象)实际上都包含5 vectors数据。我知道这些对象可以进入5个阶段。(为简化起见)我们将说每个向量都属于length N。 这些载体(称之为中的每一个vector i)是一个概率分布与整数x-values至N,其中每个对应的y值表示测量的概率1 value x中phase i的对象Obj。那么N是我期望在对象的任何阶段测量的最大x值(在我的分析中,这实际上不是一个固定的数字)。 我通过以下方式确定这些概率: 我拿一个Obj,并把它phase i的k trials,进行测量,在每次试验。每个度量都是一个整数。我对单个对象的5个阶段中的每个阶段都执行此操作,然后依次对每个对象执行此操作。我对单个对象的原始测量数据可能类似于: 向量1。[90、42、30、9、3、4、0、1、0、0、1] 向量2。[150,16,5,0,1,0,0,0,0,0,0] ... 矢量5。[16,... ...,0] 然后,相对于该给定向量中的测量总数,我将每个向量单独归一化。这使我在该载体中,其中每一个对应的y值表示测量的概率的概率分布value x中phase i。

3
是否有多样本版本或Kolmogorov-Smirnov检验的替代品?
我正在比较六对样地中树木的大小分布,其中一个样地接受了处理,另一个样地接受了控制。在每对图上使用Kolmogorov-Smirnov检验,我发现范围为至。是否有适当的方法来处理所有重复样本,例如KS测试的多样本扩展,还是有适当的跟进测试?还是我应该得出这样的结论:“ 在两对图中,大小分布差异显着),而在一对图中则略有差异()”。0.0003707 0.75 (p &lt; 0.05 p = 0.59ppp0.00037070.00037070.00037070.750.750.75(p&lt;0.05(p&lt;0.05(p < 0.05p=0.59p=0.59p = 0.59

2
R中的单样本Kolmgorov-Smirnov测试中的“不应出现束缚”
我将使用Kolmogorov-Smirnov测试来测试R中MYDATA的正常性。这是我所做的一个示例 ks.test(MYDATA,"pnorm",mean(MYDATA),sd(MYDATA)) 这是R给我的结果: data: MYDATA D = 0.13527, p-value = 0.1721 alternative hypothesis: two-sided Warning message: In ks.test(MYDATA, "pnorm", mean(MYDATA), sd(MYDATA)) : ties should not be present for the Kolmogorov-Smirnov test 我认为有一个问题,此警告中的“联系”是什么意思?

2
如果我的直方图显示出钟形曲线,我可以说我的数据呈正态分布吗?
我为“受访者年龄”创建了一个直方图,并设法获得了一个非常漂亮的钟形曲线,由此得出的结论是正态分布。 然后,我在n = 169的SPSS中运行正态性检验。Kolmogorov-Smirnov检验的p值(Sig。)小于0.05,因此数据违反了正态性假设。 为什么测试表明年龄分布不正常,但直方图显示出钟形曲线,据我所知这是正常的?我应该遵循哪个结果?

2
二分和连续变量之间的相关性
我试图找到二分和连续变量之间的相关性。 从我对此的基础工作中,我发现我必须使用独立的t检验,其前提是变量的分布必须是正态的。 我进行了Kolmogorov-Smirnov检验以测试正态性,发现连续变量是非正态变量并且存在偏斜(针对约4,000个数据点)。 我对变量的整个范围进行了Kolmogorov-Smirnov检验。我应该将它们分组并进行测试吗?就是说,如果我有risk level(0=没有危险,1=有危险)和胆固醇水平,那么我应该: 将它们分为两组,例如 Risk level =0 (Cholestrol level) -&gt; Apply KS Risk level =1 (Cholestrol level) -&gt; Apply KS 一起带他们参加考试吗?(我仅对整个数据集执行了此操作。) 之后,如果仍然不正常,该怎么办? 编辑: 上面的情况只是我试图提供我的问题的描述。我有一个数据集,其中包含1000多个变量和大约4000个样本。它们本质上是连续的或绝对的。我的任务是根据这些变量预测一个二分变量(也许想出一个逻辑回归模型)。因此,我认为最初的调查将涉及发现二分法和连续变量之间的相关性。 我试图查看变量的分布情况,因此尝试进行t检验。在这里,我发现正常性是一个问题。在大多数这些变量中,Kolmogorov-Smirnov检验的显着性值为0.00。 我应该在这里假设正常吗?这些变量的偏斜度和峰度还表明,几乎在所有情况下数据都偏斜(&gt; 0)。 根据下面给出的注释,我将进一步研究点-二元相关性。但是关于变量的分布,我仍然不确定。


2
您可以在R中计算Kolmogorov-Smirnov检验的功效吗?
是否可以对R中的两面Kolmogorov Smirnov测试进行功率分析? 我正在使用ks.test()测试两个经验分布是否不同,并希望添加功效分析。 我无法在R中找到用于KS测试的内置功率分析。有什么建议吗? 编辑:这些是随机生成的分布,非常接近我的数据(具有真实的样本大小和指数分布的估计衰减率) set.seed(100) x &lt;- rexp(64, rate=0.34) y &lt;- rexp(54,rate=0.37) #K-S test: Do x and y come from same distribution? ks.test(x,y) 这些数据是两个不同组中身体大小的度量。我想证明两组的分布基本相同,但是一位合作者问我是否有能力根据样本量来说明这一点。我是从这里的指数分布中随机抽取的,但是它们接近真实数据。 到目前为止,我已经说过,基于双面KS测试,这些分布没有显着差异。我还绘制了两个分布。考虑到x和y的样本大小和衰减率,如何证明我有能力做出这样的陈述?


1
来自单面Kolmogorov-Smirnov检验的和的两个样本CDF是多少?
我想了解如何获得 -值对片面柯尔莫哥洛夫-斯米尔诺夫检验,以及我在努力寻找的CDF和(在两个样本的情况下)。在一个示例中,以下几处被引用为的CDF :pppD+n1,n2Dn1,n2+D^{+}_{n_{1},n_{2}}D−n1,n2Dn1,n2−D^{-}_{n_{1},n_{2}}D+nDn+D^{+}_{n} p+n(x)=P(D+n≥x|H0)=x∑j=0⌊n(1−x)⌋(nj)(jn+x)j−1(1−x−jn)n−jpn+(x)=P(Dn+≥x|H0)=x∑j=0⌊n(1−x)⌋(nj)(jn+x)j−1(1−x−jn)n−jp^{+}_{n}\left(x\right) = \text{P}\left(D^{+}_{n} \ge x | \text{H}_{0}\right) = x\sum_{j=0}^{\lfloor n\left(1-x\right)\rfloor}{ \binom{n}{j} \left(\frac{j}{n}+x\right)^{j-1}\left(1 - x - \frac{j}{n}\right)^{n-j}} 另外,whuber sez对此单样本CDF的表示形式略有不同(我将x替换xxx为ttt,以与此处的符号保持一致): 使用概率积分变换,唐纳德·努斯推导了它们在p上的(公共)分布。TAoCP第2卷的第57页和练习17。 (D+n≤xn−−√)=xnn∑c≤k≤x(nk)(k−x)k(x+n−k)n−k−1(Dn+≤xn)=xnn∑c≤k≤x(nk)(k−x)k(x+n−k)n−k−1\left(D^{+}_{n}\le \frac{x}{\sqrt{n}}\right)=\frac{x}{n^{n}}\sum_{c\le k\le x}\binom{n}{k}\left(k-x\right)^{k}\left(x+n-k\right)^{n-k-1} 这将适用于单样本情况下的单边假设,例如:H 0: F(x)−F0≤00: F(x)−F0≤0_{0}\text{: }F(x)-F_{0} \le 0,其中F(x)F(x)F(x)是经验CDF的xxx,和F0F0F_{0}是一些CDF。 我认为这种情况下的xxx是一个人的样本中D+nDn+D^{+}_{n}的值,⌊n(1−x)⌋⌊n(1−x)⌋\lfloor n\left(1-x\right)\rfloor是n-nx中最大的整数n−nxn−nxn-nx。(那正确吗?) 但是当一个具有两个样本时,(或的CDF是多少?例如,对于和的经验CDF ,当H?如何获得?D+n1,n2Dn1,n2+D^{+}_{n_{1},n_{2}}D−n1,n2Dn1,n2−D^{-}_{n_{1},n_{2}}0: FA(x)−FB(x)≤00: FA(x)−FB(x)≤0_{0}\text{: }F_{A}(x)-F_{B}(x) \le 0AAABBBp+n1,n2pn1,n2+p^{+}_{n_{1},n_{2}}

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.