Questions tagged «nonparametric»

使用此标签可以询问非参数方法或参数方法的性质,或两者之间的区别。非参数方法通常依赖于有关基础分布的少量假设,而参数方法则进行了使数据可以由少量参数描述的假设。

2
R中的非参数贝叶斯分析
我正在寻找有关R使用分层狄利克雷过程(HDP)(最近和流行的非参数贝叶斯方法之一)中的数据聚类的良好教程。 非参数贝叶斯分析有DPpackage(恕我直言,是所有可用方法中最全面的)R。但是我无法充分理解R News软件包参考手册中或软件包参考手册中提供的示例来编写HDP。 任何帮助或指针,表示赞赏。 此处提供了用于主题建模的HDP的C ++实现(请在底部查看C ++代码)

2
如果可变的内核宽度通常对内核回归有利,那么为什么它们通常对内核密度估计不利?
这个问题是由其他地方的讨论引起的。 变量核通常用于局部回归。例如,黄土被广泛使用并且可以作为回归平滑器使用,并且基于适应数据稀疏性的可变宽度内核。 另一方面,通常认为可变核在核密度估计中导致较差的估计量(请参见Terrell和Scott,1992年)。 他们有一个直观的原因,为什么它们可以很好地进行回归而不是密度估计?

2
如何在R中既没有正态又没有方差相等的数据上进行双向ANOVA?
目前,我正在研究硕士论文,并计划使用SigmaPlot运行统计数据。但是,在花了一些时间处理数据后,我得出的结论是SigmaPlot可能不适合我的问题(我可能会误解了),因此我在R中开始了首次尝试,但并没有因此而变得更加容易。 计划是根据我的数据运行一个简单的TWO-WAY-ANOVA,该结果来自3种不同的蛋白质和对此进行8种不同的处理,所以我的两个因素是蛋白质和处理。我同时使用 > shapiro.test(time) 和 > ks.test(time, "norm", mean=mean(time), sd=sqrt(var(time))) 在这两种情况下(也许并不奇怪),我最终都得到了非正态分布。 哪一个给我留下了第一个问题,即哪个检验用于方差相等。我想出了 > chisq.test(time) 结果是,我的数据也没有方差相等。 我尝试了不同的数据转换(对数,中心,标准化),所有这些都不能解决我的方差问题。 现在我不知所措,如何进行ANOVA来测试哪些蛋白质和哪些治疗方法彼此之间有显着差异。我发现了有关Kruskal-Walis-Test的一些信息,但仅出于一个因素(?)。我还发现了有关排名或randamization的内容,但还没有找到如何在R中实现这些技术的方法。 有人建议我该怎么办吗? 编辑:谢谢您的回答,我对阅读有点不知所措(似乎越来越多而不是更少),但是我当然会继续前进。 根据建议,这是我的数据示例(对于格式,我感到非常抱歉,我无法找到其他解决方案或放置文件的地方。对于这一切我仍然是陌生的。): protein treatment time A con 2329.0 A HY 1072.0 A CL1 4435.0 A CL2 2971.0 A CL1-HY sim 823.5 A CL2-HY sim 491.5 A CL1+HY mix 2510.5 A CL2+HY mix …


5
检查方差分析假设
几个月前,我在SO上的R中发布了一个有关均方差测试的问题,Ian Fellows回答说(我将他的回答解释得很宽松): 在测试模型拟合优度时,同方差测试不是一个好的工具。对于小样本,您没有足够的能力来检测偏离同方差,而对于大样本,您具有“足够的权力”,因此,您更有可能筛选甚至是琐碎的均等偏离。 他的好回答是我的耳光。每次运行ANOVA时,我都会检查正态性和均方差性假设。 您认为检查ANOVA假设时的最佳做法是什么?

3
R?中的非参数重复测量多方方差分析
以下问题是一段时间以来对我而言最神圣的问题之一,我希望有人能够提供很好的建议。 我希望使用R执行非参数重复测量多方方差分析。 我已经在网上进行了一段时间的搜索和阅读,到目前为止,仅能找到以下几种情况的解决方案:Friedman测试单向非参数重复测量方差分析,有序回归与{car} Anova函数用于多路非参数方差分析等。部分解决方案不是我在此问题线程中寻找的。我在一段时间前发布的一篇文章中总结了到目前为止的发现(标题为:重复测量R的方差分析(函数和教程),以防万一。 如果我在网上阅读的内容是正确的,则可以使用混合序数回归模型(又称比例赔率模型)来完成此任务。 我发现了两个看似相关的软件包,但找不到关于该主题的任何插图: http://cran.r-project.org/web/packages/repolr/ http://cran.r-project.org/web/packages/ordinal/ 因此,对于这个主题来说,我是新手,我希望这里的人们能提供一些指导。 是否有关于该主题的任何教程/建议阅读的内容?甚至更好的是,有人可以建议一个简单的示例代码来说明如何在R中运行和分析此代码(例如:“非参数重复测量多方方差分析”)吗?

1
我应该对高度偏斜的数据使用t检验吗?请科学证明吗?
我有一个高度偏斜的(看起来像指数分布)数据集有关用户参与的样本(例如,帖子数),样本大小不同(但不少于200个),我想比较它们的平均值。为此,我使用了两个样本的不成对t检验(以及当样本具有不同的方差时,使用带有Welch因子的t检验)。据我所知,对于非常大的样本,样本不是正态分布的都没关系。 有人回顾了我所做的事情后说,我使用的测试不适合我的数据。他们建议在使用t检验之前对样本进行对数转换。 我是一个初学者,因此使用“参与度指标的对数”回答我的研究问题确实让我感到困惑。 他们错了吗?我错了吗?如果它们是错误的,是否有我可以引用/展示的书籍或科学论文?如果我错了,应该使用哪个测试?

4
如何对在转换后仍然不正常的非正常数据执行回归?
我有一些数据(158例)来自于李克特量表对21个调查表项目的回答。我真的希望/需要进行回归分析,以查看问卷中的哪些项目可以预测对整体项目的满意度(满意度)。响应不是正态分布的(根据KS测试),我已经以我能想到的各种方式(逆,对数,log10,sqrt,平方)对其进行了转换,并且顽固地拒绝了正态分布。残留图看起来到处都是,所以我认为进行线性回归并假装其表现正常(这也不是泊松分布)确实是不合法的。我认为这是因为答案非常接近(平均值为3.91,95%CI为3.88至3.95)。 所以,我在想我是否需要一种转换数据的新方法,或者需要某种非参数回归,但是我不知道我在SPSS中可以做的任何事情。

1
引导程序可以用来代替非参数测试吗?
我是统计学的新手。自举的概念一直困扰着我。 我知道使用某些测试(例如t检验)需要抽样分布的正态性。如果数据不是正态分布的,则通过在SPSS的t测试中请求“引导”,是否可以解决非正态性问题?如果是这样,输出中报告的t统计量是否基于自举抽样分布? 而且,在我拥有非正态数据的情况下,与使用非参数测试(例如,Mann-Whitney或Kruskal-Wallis)相比,这会是更好的测试吗?在数据不正常且正在使用引导程序的情况下,我不会报告t统计量:对吗?

1
何时/何处使用功能数据分析?
我是很新的功能性数据分析(FDA)。我在读: Ramsay,James O.和Silverman,Bernard W.(2006年),Functional Data Analysis,第二版,纽约,Springer。 但是,我仍然不清楚在哪里/何时使用FDA?有人可以给我一个例子,特别是在医学研究方面吗?我真的不知道在哪里/什么时候在实践中应用FDA。 对于增长曲线数据,我们可以使用非线性混合模型,对于纵向数据,我们可以使用重复测量方差分析,对于多元数据/高维数据,我们可以使用PCA,FA等。因此,何时/何地是最佳时机/使用FDA的情况?

5
Logistic回归是非参数检验吗?
我最近通过电子邮件收到了以下问题。我将在下面发布答案,但是我很想听听其他人的想法。 您是否将逻辑回归称为非参数检验?我的理解是仅仅标记测试非参数是不够的,因为它的数据不是正态分布的。这更多与缺乏假设有关。逻辑回归确实有假设。

1
什么是“目标最大可能性期望”?
我正在尝试了解Mark van der Laan的一些论文。他是伯克利大学的理论统计学家,致力于解决与机器学习显着重叠的问题。对我来说(除深层数学运算之外)一个问题是,他经常最终会使用完全不同的术语来描述熟悉的机器学习方法。他的主要概念之一是“目标最大可能性期望”。 TMLE用于分析非对照实验中的删失观测数据,即使存在混杂因素也可以进行效果评估。我强烈怀疑许多相同的概念在其他领域以其他名称存在,但是我对它的理解还不够深入,无法直接将其与任何事物匹配。 尝试将差距缩小到“计算数据分析”的方法是: 进入数据科学时代:目标学习和统计与计算数据分析的集成 这里是统计学家的简介: 基于目标最大似然的因果推断:第一部分 从第二个开始: 在本文中,我们针对多个时间点干预的因果效应开发了一种特定的针对性最大似然估计器。这涉及使用基于损失的超级学习来获得G计算公式的未知因子的初始估计,然后将目标参数特定的最佳波动函数(最不利的参数子模型)应用于每个估计因子,用最大似然估计来估计波动参数,并迭代初始因子的此更新步骤,直到收敛为止。这个迭代目标最大似然更新步骤使得因果效应的最终估计量在初始估计量是否一致的情况下也是一致的,因此具有两倍的鲁棒性,或最佳波动函数的估计值是一致的。如果正确地指定了因果图中所介入的节点的条件分布,则可以正确地指定最佳波动函数。 用他的术语来说,“超级学习”是具有理论上合理的非负加权方案的整体学习。但是他的意思是“将目标参数特定的最佳波动函数(最不利的参数子模型)应用于每个估计因子”。 或将其分为三个不同的问题,TMLE在机器学习中是否具有并行性?什么是“最不利的参数子模型”?其他领域的“波动函数”是什么?


2
当中位数相等时,为什么Mann–Whitney U检验显着?
我收到了我不理解的曼惠特尼等级测试结果。这两个总体的中位数相同(6.9)。每个群体的较高和较低分位数为: 6.64和7.2 6.60和7.1 比较这些总体的测试得出的p值为0.007。这些人群有何显着不同?是由于中位数的价差引起的吗?比较2的箱线图显示,第二个异常值远大于第一个异常值。感谢您的任何建议。

1
除了Kolmogorov-Smirnov检验之外,还有其他方法可用于校正带约束的数据吗?
我从两个样本(对照样本和处理样本)中得到了一堆数据,每个样本都包含数千个值,这些值将在R中进行显着性检验。理论上,这些值应该是连续的,但是由于测量软件进行了四舍五入,因此它们不是“他们之间建立了联系。分布是未知的,并且对照分布和处理过的分布的形状可能不同,因此我想使用非参数检验来比较样本中的差异是否对10个不同因素有显着影响。 我曾考虑过使用Kolmogorov-Smirnov检验,但是它并不真正适用于平局。我最近偶然发现了一个名为Matching的新R库,该库执行KS测试的引导版本并可以容忍联系。现在,这真的是一个好主意,还是应该改用其他测试?我是否需要调整p值?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.