Questions tagged «kolmogorov-smirnov»

Kolmogorov-Smirnov检验是一种将数据拟合到分布的良好性的检验。它通常用于测试变量是否正态分布。

2
如何确定哪种分布最适合我的数据?
我有一个数据集,想找出哪种分布最适合我的数据。 我用了 fitdistr()函数来估计必要的参数,以描述假设的分布(即,威布尔,柯西,正态)。使用这些参数,我可以进行Kolmogorov-Smirnov检验来估计我的样本数据是否来自与假设分布相同的分布。 如果p值> 0.05,我可以假设样本数据是从相同的分布中得出的。但是p值没有提供有关拟合度的任何信息,不是吗? 因此,如果我的样本数据的p值对于正态分布以及Weibull分布> 0.05,那么我如何知道哪个分布更适合我的数据呢? 这基本上就是我所做的: > mydata [1] 37.50 46.79 48.30 46.04 43.40 39.25 38.49 49.51 40.38 36.98 40.00 [12] 38.49 37.74 47.92 44.53 44.91 44.91 40.00 41.51 47.92 36.98 43.40 [23] 42.26 41.89 38.87 43.02 39.25 40.38 42.64 36.98 44.15 44.91 43.40 [34] 49.81 38.87 40.00 …




3
用很小的样本量(例如n = 6)测试正态性是否有意义?
我的样本大小为6。在这种情况下,使用Kolmogorov-Smirnov检验来检验正态性是否有意义?我使用了SPSS。我的样本量很小,因为获取每个样本都需要时间。如果没有意义,那么最低数量的样本中有多少个是有意义的测试? 注意: 我做了一些与源代码有关的实验。该样本是在一个版本的软件(版本A)中编码所花费的时间。 实际上,我的样本量为6,这是在另一个版本的软件(版本B)中所编码的时间。 我想使用一样本t检验进行假设检验,以测试在代码版本A中花费的时间与在代码版本B中花费的时间是否不同(这是我的H1)。一次样本t检验的前提是要测试的数据必须正态分布。这就是为什么我需要测试正常性。

3
为什么进行Kolmogorov-Smirnov测试?
在阅读有关2个样本的KS测试时,我确切地了解它在做什么,但我不知道它为什么起作用。 换句话说,我可以按照所有步骤计算经验分布函数,找到两者之间的最大差值,以找到D统计量,计算临界值,将D统计量转换为p值等。 但是,我不知道为什么其中任何一个实际上告诉我有关这两个分布的任何信息。 有人可以很容易地告诉我,我需要跳过一头驴,计算它跑多快,如果速度小于2 km / hr,那么我会拒绝原假设。当然,我可以做您告诉我的事情,但是那与零假设有什么关系? 为什么2个样本的KS测试有效?计算ECDF之间的最大差异与两个分布的差异有何关系? 任何帮助表示赞赏。我不是统计学家,所以如果可能的话,请假设我是个白痴。

1
具有离散数据的Kolmogorov-Smirnov:在R中正确使用dgof :: ks.test是什么?
初学者问题: 我想测试两个离散数据集是否来自同一分布。我建议进行一次Kolmogorov-Smirnov检验。 Conover(《实用非参数统计》,3d)似乎说Kolmogorov-Smirnov检验可用于此目的,但其行为是“保守的”且具有离散分布,我不确定这在这里意味着什么。 DavidR 在另一个问题上的评论说:“ ...您仍然可以基于KS统计量进行α级测试,但是您必须找到其他方法来获得临界值,例如通过仿真。” dgof R软件包(article,cran)中的ks.test()版本增加了stats软件包的ks.test()默认版本中不存在的某些功能。除其他外,dgof :: ks.test包含以下参数: Simulation.p.value:仅在离散拟合优度测试中指示是否通过蒙特卡洛模拟计算p值的逻辑。 Simulator.p.value = T的目的是完成DavidR的建议吗? 即使是这样,我也不确定是否可以真正使用dgof :: ks.test进行两个样本的测试。看起来它仅提供了两个样本的连续分布测试: 如果y是数字,则对从相同连续分布中得出x和y的零假设进行两次抽样检验。 或者,y可以是命名连续(累积)分布函数(或此类函数)的字符串,或给出离散分布的ecdf函数(或stepfun类的对象)。在这些情况下,对生成x的分布函数为分布y ...的零进行一次样本检验。 (背景细节:严格来说,我的基础分布是连续的,但是数据往往位于少数几个点附近。每个点都是模拟的结果,并且是-1和1之间的10或20个实数的平均值1.到模拟结束时,这些数字几乎总是非常接近.9或-.9,因此均值聚集在几个值附近,我将它们视为离散值,模拟很复杂,我没有认为数据遵循众所周知的分布的原因。) 忠告?

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
了解R中的Kolmogorov-Smirnov检验
我正在尝试了解Kolmogorov-Smirnov测试函数的输出(两个样本,两个侧面)。这是一个简单的测试。 x <- c(1,2,2,3,3,3,3,4,5,6) y <- c(2,3,4,5,5,6,6,6,6,7) z <- c(12,13,14,15,15,16,16,16,16,17) ks.test(x,y) # Two-sample Kolmogorov-Smirnov test # #data: x and y #D = 0.5, p-value = 0.1641 #alternative hypothesis: two-sided # #Warning message: #In ks.test(x, y) : cannot compute exact p-value with ties ks.test(x,z) #Two-sample Kolmogorov-Smirnov test #data: x and z …

4
相信哪个:Kolmogorov-Smirnov测试或QQ情节?
我试图确定我的连续数据数据集是否遵循参数shape 1.7和rate 0.000063 的伽马分布。====== 问题是,当我使用R来创建数据集对于理论分布伽玛(1.7,0.000063)的QQ图时,我得到了一个图,该图表明经验数据与伽玛分布大致相符。ECDF图也会发生相同的情况。xxx 但是,当我运行Kolmogorov-Smirnov检验时,它给了我&lt; 1 %的不合理的值。ppp&lt; 1 %&lt;1个%<1\% 我应该选择相信哪个?图形输出还是KS测试的结果?

1
我可以使用Kolmogorov-Smirnov来比较两个经验分布吗?
是否可以使用Kolmogorov-Smirnov拟合优度检验来比较两个经验分布以确定它们是否似乎来自相同的基础分布,而不是将一个经验分布与预先指定的参考分布进行比较? 让我尝试以另一种方式询问。我从一个位置的某个分布收集了N个样本。我在另一个位置收集了M个样本。数据是连续的(例如,每个样本都是0到10之间的实数),但不是正态分布的。我想测试这些N + M样本是否全部来自相同的基础分布。为此目的使用Kolmogorov-Smirnov检验是否合理? 特别是,我可以从N个样本中计算出经验分布F0F0F_0,从M个样本中计算出经验分布F 1。然后,我可以计算Kolmogorov-Smirnov检验统计量以测量F 0和F 1之间的距离:即,计算D = sup x | F 0(x )− F 1(x )| ,并使用DNNNF1F1F_1MMMF0F0F_0F1F1F_1D=supx|F0(x)−F1(x)|D=supx|F0(x)−F1(x)|D = \sup_x |F_0(x) - F_1(x)|DDD作为我在Kolmogorov-Smirnov检验中拟合优度的检验统计量。这是合理的方法吗? (我在其他地方读到,关于拟合优度的Kolmogorov-Smirnov检验不适用于离散分布,但我承认我不明白这是什么意思,或者为什么它是正确的。这是否意味着我提出的方法是一种不好的方法? ) 或者,您是否推荐其他东西呢?

2
测试IID采样
您将如何测试或检查采样是否为IID(独立且完全相同)?请注意,我不是指高斯和完全分布式,而只是IID。 我想到的想法是,将样本重复分成相等大小的两个子样本,执行Kolmogorov-Smirnov检验,并检查p值的分布是否均匀。 欢迎对该方法发表任何评论,并提出任何建议。 开始赏金后的澄清: 我正在寻找可用于非时间序列数据的常规测试。

1
进行单尾Kolmogorov-Smirnov测试是否有意义?
进行单尾KS测试是否有意义并且可行?这样的检验的原假设是什么?还是KS测试天生就是两尾测试? 我将从一个有助于理解D分布的答案中受益(我正在研究Massey于1951年发表的论文,并发现描述具有挑战性,例如和是差异的最小和最小) CDF的差异的非绝对值是多少?)。 d -d+D+D^{+}d-D−D^{-} 跟进问题:如何获得和?我遇到的许多出版物都是表值,而不是,和 CDF 。D + D − D n D + D −pppd+D+D^{+}d-D−D^{-}dñDnD_{n}d+D+D^{+}d-D−D^{-} 更新:我刚刚发现了相关的问题单边Kolmogorov-Smirnov检验中的原假设是什么?,在撰写此文章之前,我在初次扫描时就错过了。



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.