Questions tagged «nonparametric»

使用此标签可以询问非参数方法或参数方法的性质,或两者之间的区别。非参数方法通常依赖于有关基础分布的少量假设,而参数方法则进行了使数据可以由少量参数描述的假设。

3
为什么进行Kolmogorov-Smirnov测试?
在阅读有关2个样本的KS测试时,我确切地了解它在做什么,但我不知道它为什么起作用。 换句话说,我可以按照所有步骤计算经验分布函数,找到两者之间的最大差值,以找到D统计量,计算临界值,将D统计量转换为p值等。 但是,我不知道为什么其中任何一个实际上告诉我有关这两个分布的任何信息。 有人可以很容易地告诉我,我需要跳过一头驴,计算它跑多快,如果速度小于2 km / hr,那么我会拒绝原假设。当然,我可以做您告诉我的事情,但是那与零假设有什么关系? 为什么2个样本的KS测试有效?计算ECDF之间的最大差异与两个分布的差异有何关系? 任何帮助表示赞赏。我不是统计学家,所以如果可能的话,请假设我是个白痴。

4
Tukey HSD是否具有非参数等效项?
我正在使用JMP来检查在用对照进行的三种处理之前和之后,生长形式组(树木,灌木,Forb等)的植被覆盖率差异。我的样本量很小(n = 5),并且我的大多数分布都不是正态分布。 对于正态分布,我使用方差分析来分析治疗结果之间的差异(变化百分比),然后使用Tukey HSD来检验结果对之间差异的显着性。 对于非正态分布的数据,我使用了Wilcoxon / Kruskal-Wallis检验。是否可以使用Tukey HSD的非参数等效项来检查这些结果对之间的差异?

5
非参数测试究竟能完成什么工作?您将如何处理结果?
我觉得这可能是在其他地方提出来的,但并不是我需要的基本描述类型。我知道非参数依赖于中位数而不是平均值进行比较。我也相信它依赖于“自由度”(?)而不是标准偏差。如果我错了,请纠正我。 我已经做了相当不错的研究,或者我想尝试去理解这个概念,背后的工作原理,测试结果的真正含义,以及/或者甚至对测试结果做些什么。但是,似乎没人敢涉足这一领域。 为了简单起见,让我们继续进行曼恩·惠特尼(Mann-Whitney)U检验,我注意到它很受欢迎(并且似乎也被滥用和过度使用,以迫使一个人的“方形模型陷入一个圆孔”)。如果您也想随意描述其他测试,尽管我一旦理解了其中的一个,就可以以类似的方式了解其他t检验,从而了解其他测试。 假设我对我的数据进行了非参数测试,然后得到了以下结果: 2 Sample Mann-Whitney - Customer Type Test Information H0: Median Difference = 0 Ha: Median Difference ≠ 0 Size of Customer Large Small Count 45 55 Median 2 2 Mann-Whitney Statistic: 2162.00 p-value (2-sided, adjusted for ties): 0.4156 我熟悉其他方法,但是这里有什么不同?我们是否应该希望p值小于0.05?“曼恩·惠特尼统计”是什么意思?有什么用吗?这里的信息是否只是验证或不验证是否应该使用我拥有的特定数据源? 我在回归和基础知识方面有相当丰富的经验,但对这种“特殊”非参数化的东西很好奇-我知道这会有它自己的缺点。 试想一下,我是五年级生,看看你能不能对我解释一下。

1
可以包含相互作用的双向方差分析的非参数等价情况是什么?
嗨,我正在尝试找到一种双向ANOVA(3x4设计)的非参数等效项,它能够包含交互作用。从我在Zar 1984年的“生物统计学分析”中的阅读可以使用Scheirer,Ray和Hare(1976)中提出的方法来实现,但是,据在线其他帖子推断,该方法不再适用(如果有的话)是)。 有谁知道哪种方法适合这样做,如果是,那么R或Stata中的相应功能是否合适?


3
可以直观地解释用于检测非线性相关性的MIC算法吗?
最近,我读了两篇文章。第一个是相关性的历史,第二个是称为最大信息系数(MIC)的新方法。我需要您的帮助以了解MIC方法来估算变量之间的非线性相关性。 此外,可以在作者的网站上找到有关在R中使用它的说明(在下载下): 我希望这将是一个讨论和理解此方法的好平台。我有兴趣讨论这种方法背后的一种直觉以及如何扩展该方法,如作者所说。 “ ... ...我们需要将MIC(X,Y)扩展到MIC(X,Y | Z)。我们将想知道需要多少数据才能获得MIC的稳定估计值,离群值有多容易受到影响,这三个-或更高维度的关系将丢失,甚至更多。MIC是向前迈出的重要一步,但还有更多步骤需要采取。 ”

1
非参数检验是否从同一分布中抽取两个样本
我想检验一个假设,即从同一总体中抽取两个样本,而无需对样本或总体的分布进行任何假设。我应该怎么做? 在Wikipedia上,我的印象是Mann Whitney U考试应该是合适的,但实际上似乎对我没有用。 为了具体起见,我创建了一个数据集,其中包含两个样本(a,b),它们大(n = 10000),并从两个非正态(双峰),相似(均值),但不同(标准差)的总体中得出我正在寻找一种测试,可以识别出这些样本不是来自同一群体。 直方图视图: R代码: a <- tibble(group = "a", n = c(rnorm(1e4, mean=50, sd=10), rnorm(1e4, mean=100, sd=10))) b <- tibble(group = "b", n = c(rnorm(1e4, mean=50, sd=3), rnorm(1e4, mean=100, sd=3))) ggplot(rbind(a,b), aes(x=n, fill=group)) + geom_histogram(position='dodge', bins=100) 令人惊讶的是,这是曼·惠特尼(Mann Whitney)检验(?)无法拒绝样本来自同一总体的原假设: > wilcox.test(n ~ group, rbind(a,b)) Wilcoxon rank …

3
为什么Pearson是参数化的,而Spearman是非参数化的
显然,皮尔逊的相关系数是参数性的,而斯皮尔曼的rho是非参数性的。 我很难理解这一点。据我了解,Pearson的计算公式为 而Spearman的计算方法相同,不同之处在于,我们将所有值替换为其等级。[RX ÿ= c o v (X,Y)σXσÿ[RXÿ=CØv(X,ÿ)σXσÿ r_{xy} = \frac{cov(X,Y)}{\sigma_x\sigma_y} 维基百科说 参数模型与非参数模型的区别在于,前者具有固定数量的参数,而后者随着训练数据量的增加而增加。 但是除了样本本身,我看不到任何参数。有人说参数测试假设服从正态分布,接着说皮尔逊确实假设服从正态分布数据,但是我看不出为什么皮尔逊会要求这样做。 所以我的问题是,在统计中,参数和非参数是什么意思?培生和斯皮尔曼如何融入其中?

2
广义加性模型-除Simon Wood之外,还有哪些人对其进行研究?
我越来越多地使用GAM。当我为它们的各个组成部分(平滑参数选择,各种样条基,平滑项的p值)提供参考时,它们都是来自英国巴斯大学的一位研究员Simon Wood。 他还是mgcvR 的维护者,R实现了他的工作。 mgcv非常复杂,但效果非常好。 肯定有较旧的东西。最初的想法归功于Hastie&Tibshirani,Ruppert等人在2003年撰写了一本更古老的教科书。 作为一名应聘者,我对学术统计学家中的时代精神没有太多的感觉。他的工作如何看待?一位研究人员在一个领域做了这么多的事情有点奇怪吗?还是因为没有放入其中而没有引起其他人的注意mgcv?我不认为GAM会使用太多,尽管经过统计学培训的人员可以合理地访问该材料,并且该软件已经相当完善。有很多“背景故事”吗? 来自统计期刊的观点文章和其他类似内容的建议将不胜感激。





3
对只有5位数摘要的两个分布进行统计检验
我有两个分布,其中只有5位数的摘要(最小,第一四分位数,中位数,第三四分位数,最大值)和样本大小已知。顺便问一下这里的问题,并非所有数据点都可用。 是否有任何非参数统计检验可以让我检查两者的基本分布是否不同? 谢谢!

4
一个人如何主观排名的结果?
我正在寻找一种可视化主观排名的方法,与我的非参数测试分开。 我已经请12名参与者根据不同的主观标准对8个不同的项目进行排名(每个项目分别进行排名)。对于任何单独的排名,我都在寻找一种可视化排名高级趋势的好方法。 我已经在平均排名上尝试了条形图和雷达图,而且我看到另一个人在每个排名的响应数上使用了散点图/气球图,但是我不确定是什么传达了最好的概观。我可以使用8个平均排名,也可以使用每个项目的每个排名的8个计数。 编辑: 例如:每列是一个项目,每行是一个人对八个项目中每个项目的排名。在此示例中,并不是一个特别强的协议,但总的来说,我们希望了解传达总体趋势的最佳方法。 Item: A B C D E F G H Rater: 1 6 8 1 7 3 4 2 5 2 1 3 8 7 6 5 2 4 3 5 8 7 6 1 4 2 3 4 5 8 7 6 4 2 1 …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.