Questions tagged «nonparametric»

使用此标签可以询问非参数方法或参数方法的性质,或两者之间的区别。非参数方法通常依赖于有关基础分布的少量假设,而参数方法则进行了使数据可以由少量参数描述的假设。

2
参数样本量计算和非参数分析
我很好奇,是否有人有特定的参考文献(文本或期刊文章)来支持医学文献中使用参数化方法(例如,假设正态分布和测量值有一定差异)执行样本量计算的惯例。当使用非参数方法进行主要试验结果的分析时。 例如:主要结果是服用某种药物后的呕吐时间,已知其平均值为20分钟(标准差为6分钟),但分布明显偏右。样本数量的计算是使用公式根据上面列出的假设进行的 n (每组)= f(α ,β)× (2 σ2/( μ1个- μ2)2)n(per-group)=f(α,β)×(2σ2/(μ1−μ2)2)n(\text{per-group})=f(\alpha,\beta) \times (2\sigma^2 /(\mu_1 - \mu_2)^2 ), 哪里 F(α ,β)f(α,β)f(\alpha, \beta) 根据所需的变化 αα\alpha 和 ββ\beta 错误。 但是,由于分布的偏斜性,主要结果的分析将基于等级(非参数方法,例如Mann Whitney U检验)。 统计学家是否可以支持这种模式,还是应该进行非参数的样本量估算(以及如何进行估算)? 我的想法是,为了便于计算,可以进行上述练习。毕竟,样本量估算值仅仅是(已经做出了多个假设的估算值)所有这些估算值可能都略微(或非常不精确)。但是,我很想知道其他人的想法,特别是想知道是否有任何引用来支持这种推理方法。 非常感谢您的协助。

3
现实生活中“非参数统计模型”的例子是什么?
我在这里阅读有关统计模型的Wikipedia文章,并且对“非参数统计模型”的含义有些困惑,尤其是: 如果参数集 是无限维,则统计模型是非参数模型。如果统计模型同时具有有限维和无限维参数,则它是半参数的。形式上,如果是的维数,并且是样本数,则半参数模型和非参数模型都将设为。如果 为,则模型是半参数的;否则,模型是非参数的。d Θ Ñ d → ∞ Ñ → ∞ d / Ñ → 0 Ñ → ∞ΘΘ\ThetadddΘΘ\Thetannnd→∞d→∞d \rightarrow \inftyn→∞n→∞n \rightarrow \inftyd/n→0d/n→0d/n \rightarrow 0n→∞n→∞n \rightarrow \infty 我得到的是,如果模型的维(即我的意思是参数的数量)是有限的,那么这就是参数化模型。 对我而言,没有意义的是如何拥有一个统计模型,该模型具有无限数量的参数,因此我们可以称其为“非参数”。此外,即使是这种情况,如果实际上有无数个维数,为什么还要“非”数呢?最后,由于我是从机器学习的背景出发的,所以这种“非参数统计模型”与“非参数机器学习模型”之间有什么区别吗?最后,这种“非参数无限维模型”的一些具体例子是什么?

2
序数和连续随机变量之间关联强度的非参数度量
我收到问题时就把问题扔到这里了。 我有两个随机变量。其中一个是连续的(Y),另一个是离散的,将作为序数(X)逼近。我把与查询一起收到的图放在下面。 向我发送数据的人想要衡量 X和Y之间关联的强度。我正在寻找不会随波逐流的假设而产生想法的想法。请注意,这并不是要找到一种非参数方法来测试关系的强度(例如在引导程序中),而是要找到一种非参数方法来测量关系的强度。 另一方面,效率不成问题,因为有很多数据点。

1
无分布统计/方法与非参数统计有什么区别?
来自维基百科 非参数的第一个含义包括不依赖于属于任何特定分布的数据的技术。其中包括: 无分布的方法,它不依赖于假设数据是从给定的概率分布中得出的。因此,这与参数统计相反。它包括非参数统计模型,推断和统计检验。 非参数统计(在数据统计意义上,其定义为不依赖参数的样本函数),其解释不依赖于符合任何参数分布的总体。基于观察等级的统计数据就是此类统计数据的一个示例,它们在许多非参数方法中起着核心作用。 我看不到这两种情况之间的区别:无分布方法和非参数统计。他们俩都不假定数据来自某种分布吗?它们有何不同? 感谢致敬!



1
弗里德曼测试与威尔科克森测试
我正在尝试评估监督型机器学习分类算法的性能。观察结果属于名义类别(目前为2类,不过我想将其概括为多类问题),这些样本来自99名受试者。 我想回答的问题之一是,如果算法在输入类别之间的分类准确度方面存在显着差异。对于二元分类的情况,我正在使用配对的Wilcoxon检验来比较受试者之间各类之间的平均准确性(因为基础分布是非正态的)。为了将此程序推广到多类问题,我特别使用了Friedman检验。 但是,在二进制IV的情况下,通过这两种方法获得的p值变化很大,Wilcoxon检验屈服,p < .001而p = .25Friedman检验。这使我相信我对弗里德曼测试的结构有基本的误解。 在这种情况下,使用弗里德曼检验来比较所有受试者重复测量准确性的结果是否合适? 我获得这些结果的R代码(subject是对象标识符,acc精度DV和expected观察等级IV): > head(subject.accuracy, n=10) subject expected acc 1 10 none 0.97826087 2 10 high 0.55319149 3 101 none 1.00000000 4 101 high 0.68085106 5 103 none 0.97826087 6 103 high 1.00000000 7 104 none 1.00000000 8 104 high 0.08510638 9 105 none …


4
非参数统计简介
我过去两年一直在研究统计数据。我所学的几乎所有内容都是关于参数统计的。现在,我想了解更多有关非参数统计的信息。有人可以建议对此领域进行一些简要介绍(也许也可读)吗?

3
弗里德曼测验后如何正确应用Nemenyi事后测验
我正在比较多种数据集上多种算法的性能。由于不能保证这些性能指标呈正态分布,因此我选择了基于Demšar(2006)的Friedman检验和Nemenyi事后检验。 然后,我发现另一篇论文,除了建议其他方法(例如Quade测试和随后的Shaffer post-hoc测试)之外,它们以不同的方式应用Nemenyi测试。 如何正确应用Nemenyi事后测试? 1.使用学生化范围统计信息吗? 在Demšar的论文中,它表示如果平均秩差大于的临界距离CD,则拒绝零假设(两种算法没有性能差异 CD=qαk(k+1)6N−−−−−−−√CD=qαk(k+1)6N CD = q_{\alpha}\sqrt{{k(k+1)}\over{6N}} “临界值qα基于学生化范围统计量除以 ”2–√.2.\sqrt{2}. 经过一番挖掘后,我发现可以为某些alpha查找“临界值”,例如在的表中α=0.05α=0.05\alpha = 0.05查找无限的自由度(在每个表的底部)。 2.还是使用正态分布? 就在我以为自己知道该怎么做的时候,我发现另一篇论文再次让我感到困惑,因为它们仅使用正态分布。Demšar在第12页指出了类似的事情: 使用这些方法比较第i和第j分类器的测试统计量为 z值用于从正态分布表中找到相应的概率,然后将其与适当的。这些测试在调整值以补偿多次比较的方式上有所不同。z=(Ri−Rj)k(k+1)6N−−−−−√z=(Ri−Rj)k(k+1)6N z = {{(R_i − R_j)}\over{\sqrt{{k(k +1)}\over{6N}}}} αα\alphaαα\alpha 在此段落中,他正在谈论将所有算法与控制算法进行比较,但是这句话“它们调整方式的不同……以补偿多次比较”表明,这也应适用于Nemenyi检验。 因此,对我而言,合乎逻辑的是,根据正态分布的检验统计量计算p值,然后除以来校正该值。zzzk(k−1)/2k(k−1)/2k(k-1)/2 但是,这会产生完全不同的等级差异,从而拒绝原假设。现在,我陷入了困境,不知道该采用哪种方法。我强烈倾向于使用正态分布的方法,因为它对我来说更简单,更合乎逻辑。我也不需要查找表中的值,也不必绑定到某些重要值。 再说一次,我从未使用过学生化的距离统计数据,而且我也不了解。

5
如何用非参数测试(例如排列测试)测试交互作用?
我有两个类别/名义变量。它们每个只能采用两个不同的值(因此,我总共有4种组合)。 每个值组合都带有一组数字值。因此,我有4组数字。为了更具体,让我们说我有male / female和young / old作为标称变量,而我有weight从属数字“输出”。 我知道从过渡male到female会改变平均体重,而这些变化在统计上是有意义的。因此,我可以计算一个gender因子。这同样适用于age变量。我知道,从过渡young到old不改变平均重量,我可以计算出相应的age系数。 现在,我真正想看看的是数据是否证明从年轻女性到老年男性的转变更多地是性别和年龄因素的结合。换句话说,我想知道数据是否证明存在“ 2D效果”,或者换句话说,年龄和性别效果不是独立的。例如,男性变老可能会使体重增加1.3倍,而女性则相应增加1.1倍。 当然,我可以计算两个提到的因素(男性的年龄因素和女性的年龄因素),它们是不同的。但是我想计算出这种差异的统计意义。这种差异有多真实。 如果可能的话,我想做一个非参数测试。是否可以通过混合四组,重新组合,重新拆分和计算某些东西来做我想做的事情。

1
如何在ARIMA模型的观察值48中加入创新的离群值?
我正在处理数据集。使用一些模型识别技术后,我得出了一个ARIMA(0,2,1)模型。 我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值(IO)。 如何将这个离群值合并到模型中,以便将其用于预测?我不想使用ARIMAX模型,因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗? 以下是我的价值观: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
具有均匀和不均匀容器的直方图
这个问题描述了均匀和不均匀直方图之间的基本区别。和这个问题讨论经验法则用于拾取均匀直方图的仓的数量优化(在某些意义上)该直方图表示该数据的样品绘制的分布程度。 我似乎找不到关于均匀和非均匀直方图的同类“最优性”讨论。我有一个离群点很远的聚类非参数分布,因此直觉上不均匀的直方图更有意义。但我希望对以下两个问题进行更精确的分析: 统一bin直方图何时比不均匀bin更好? 对于不均匀的直方图,有多少个bin? 对于不均匀的直方图,我认为是最简单的情况,我们从未知分布中抽取样本,对所得的值进行排序,然后将它们分成 bin,这样每个bin都具有个样本(假设对于某个大整数,)。通过取bin i中值的与bin i + 1中值的\ min之间的中点来形成范围。这里和这里的链接描述了这些类型的非均匀直方图。ññnññnķķkķñķñ\frac{k}{n}Ñ ≡ Ç ķñ≡Cķn \equiv c kCCc最大值最大值\max一世一世i分分\min我+ 1一世+1个i+1

2
Wilcoxon符号秩检验需要序数或区间数据吗?
看过多个在线资源后,我似乎无法得到一个直接的答案。有人可以为我澄清一下序数数据是否足以用于WSRT,如果不是,符号测试是否是合适的选择?最后,这是针对我在大学的学位论文项目,因此,如果可以在答案中包含任何参考文献/文献,那将不胜感激,因为我需要以任何一种方式证明我选择测试的理由,并且到目前为止仅从网站上找到了答案(无法参考!)

2
R中的Wilcoxon-Mann-Whitney临界值
我注意到,当我尝试使用R查找Mann-Whitney U的临界值时,该值始终为1+临界值。例如,对于α = .05 ,n = 10 ,m = 5α=.05,n=10,m=5\alpha=.05, n = 10, m = 5,(两尾)临界值是8;而对于α = .05 ,n = 12 ,m = 8α=.05,n=12,m=8\alpha=.05, n=12, m=8,(两尾)临界值值是22(请检查表格),但是: > qwilcox(.05/2,10,5) [1] 9 > qwilcox(.05/2,12,8) [1] 23 我当然不在考虑什么,但是...谁能解释我为什么?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.