Questions tagged «nonparametric»

使用此标签可以询问非参数方法或参数方法的性质,或两者之间的区别。非参数方法通常依赖于有关基础分布的少量假设,而参数方法则进行了使数据可以由少量参数描述的假设。

1
导数的核密度估计量是否有最佳带宽?
我需要使用内核密度估计器基于一组观察值来估计密度函数。基于同一组观察,我还需要使用核密度估计器的导数来估计密度的一阶和二阶导数。带宽肯定会对最终结果产生很大影响。 首先,我知道有两个R函数可以提供KDE带宽。我不确定哪一个更受欢迎。谁能推荐这些R函数中的一种来获得KDE带宽? 其次,对于KDE的派生,我应该选择相同的带宽吗?

3
如何按比例绘制小提琴图以进行比较?
我正在尝试绘制小提琴图,并想知道是否存在公认的最佳实践,可以在各个组之间进行缩放。这是我使用R mtcars数据集尝试过的三个选项(1973年的Motor Trend Cars,在此处找到)。 等宽 似乎是原始纸张 *和R的vioplot作用(示例)。适合比较形状。 均等面积 由于每个图都是概率图,因此感觉不错,因此在某个坐标空间中每个图的面积应等于1.0。适用于比较每个组中的密度,但如果将图重叠,则似乎更合适。 加权面积 面积相等,但按观察次数加权。6缸变得相对稀薄,因为这些汽车较少。适用于比较各组的密度。 *小提琴图:箱形图-密度踪迹协同效应(DOI:10.2307 / 2685478)

1
为什么要使用参数引导程序?
我目前正在设法弄清有关参数引导程序的一些事情。大多数事情可能都很琐碎,但我仍然认为我可能错过了一些东西。 假设我想使用参数引导程序获取数据的置信区间。 因此,我有此样本,并假设其为正态分布。那么我估计方差v和平均米,并得到我的分布估计P,这显然只是ñ (米,v)。v^v^\hat{v}m^m^\hat{m}P^P^\hat{P}N(m^,v^)N(m^,v^)N(\hat{m},\hat{v}) 除了从该分布中采样外,我还可以分析地计算分位数并完成。 a)我得出结论:在这种微不足道的情况下,参数引导程序是否与在正态分布假设中计算事物相同? 因此,从理论上讲,只要我能处理计算,所有参数自举模型都是如此。 b)我得出结论:使用一定分布的假设将使我在参数引导程序上获得比非参数引导程序更高的准确性(如果正确的话)。但是除此之外,我之所以这样做,是因为我无法处理分析计算而无法尝试模拟我的分析方法吗? c)如果计算通常是使用近似值完成的,我也将使用它,因为这可能会给我带来更高的准确性...? 对我来说,(非参数)引导程序的好处似乎在于我不需要假设任何分布。对于参数引导程序,该优势已经消失了-还是我错过了某些事情,而参数引导程序在哪些方面提供了上述优势?

3
密度估算在哪里有用?
在经过一些简短的数学之后,我认为我对内核密度估计有一点直觉。但是我也知道,就其估计量的统计特性而言,估计三个以上变量的多元密度可能不是一个好主意。 那么,在哪种情况下我应该使用非参数方法来估计双变量密度?是否有足够的价值开始担心要针对两个以上的变量进行估算? 如果您可以指向一些有关多元密度估计应用的有用链接,那就太好了。


2
如果许多单元的频率小于5,则卡方检验的适用性
为了找到同伴的支持(独立变量)和工作满意度(独立变量)之间的关联,我希望应用卡方检验。对等人的支持程度根据支持程度分为四类:1 =很少程度,2 =一定程度,3 =很大程度,4 =很大程度。工作满意度分为两类:0 =不满意和1 =满意。 SPSS的输出结果表明,有37.5%的单元频率小于5。我的样本大小为101,我不想将自变量中的类别减少为更少的数目。在这种情况下,还有其他测试可用于测试此关联吗?

1
为什么在非参数统计中联系如此困难?
我的非参数文本《实践非参数统计》经常为期望,方差,检验统计等提供清晰的公式,但包括警告,只有在我们忽略联系时才有效。在计算Mann-Whitney U统计量时,建议您在比较较大的对数时扔掉配对。 我知道这种联系并不能真正告诉我们哪个人口更大(如果这就是我们感兴趣的人口),因为两个群体都不比另一个更大,但是在开发渐近分布时似乎并不重要。 那为什么在某些非参数过程中如此处理联系呢?有没有办法从关系中提取任何有用的信息,而不是简单地将它们扔掉? 编辑:关于@whuber的评论,我再次检查了我的消息来源,并且某些过程使用了平均等级,而不是完全放弃绑定值。尽管在保留信息方面似乎更明智,但在我看来,它也不够严格。但是,问题的精神仍然存在。

3
为什么对于正态分布数据,Wilcoxon检验的渐进相对效率与Student的t检验相比?
众所周知,如果数据来自正态分布总体,则Wilcoxon符号秩检验的渐近相对效率(ARE)与Student t检验相比为。基本的一样本测试和两个独立样本的变体(Wilcoxon-Mann-Whitney U)都是如此。对于正常数据,与ANOVA F检验相比,它也是Kruskal-Wallis检验的ARE 。3π≈0.9553π≈0.955\frac{3}{\pi} \approx 0.955 这个显着的结果(对我来说,是ππ\pi的“ 最意外的外观之一 ”)和非常简单的结果是否有深刻的,显着的或简单的证明?

1
使用所有可能的对来创建正态混合物分布的密度估计方法的名称是什么?
我只是想到一种创建一维密度估计的整洁(不一定好)的方法,我的问题是: 这种密度估算方法有名称吗?如果不是,这是文献中某些其他方法的特例吗? 这是方法:我们有一个向量我们假设从一些不知名的分布,我们想估计得出。一种方法是采用X中所有可能的值对,并使用最大似然对每对[ x i,x j ] i ≠ j拟合正态分布。然后,所得的密度估算值是由所有所得的法线组成的混合物分布,其中,每个法线的权重均相等。X= [ x1个,X2,。。。,Xñ]X=[x1,x2,...,xn]X = [x_1,x_2,...,x_n]XXX[ x一世,XĴ]i ≠ j[xi,xj]i≠j[x_i,x_j]_{i \neq j} 下图说明了使用这种方法的矢量。这里的圆圈是数据点,彩色的法线是使用每个可能的对估计的最大似然分布,粗黑线显示了所得的密度估计值(即混合分布)。[ - 1.3 ,0.15 ,0.73 ,1.4 ][−1.3,0.15,0.73,1.4][-1.3,0.15,0.73,1.4] 顺便说一句,在R中实施一个方法很容易,该方法可以从所得混合物分布中提取样品: # Generating some "data" x <- rnorm(30) # Drawing from the density estimate using the method described above. density_estimate_sample <- replicate(9999, { pair …

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 


6
健壮的(非参数)度量,例如变异系数— IQR /中位数,还是替代方法?
对于给定的一组数据,通常将扩散作为标准偏差或IQR(四分位数间距)进行计算。 尽管a standard deviation是归一化的(z得分等),因此可以用来比较两个不同总体的传播,但IQR情况并非如此,因为来自两个不同总体的样本可能具有两个完全不同的尺度值, e.g. Pop A: 100, 67, 89, 75, 120, ... Pop B: 19, 22, 43, 8, 12, ... 我需要的是一种可靠的(非参数)度量,可以用来比较不同总体中的差异。 选择1: IQR / Median-类似于变异系数,即。σμσμ \frac{\sigma}{\mu} 选择2: Range / IQR 问题:比较人群之间的差异,哪种方法更有意义?如果选择1是选择2是否对任何事情都有意义/有意义,还是从根本上存在缺陷的措施?

3
是否有多样本版本或Kolmogorov-Smirnov检验的替代品?
我正在比较六对样地中树木的大小分布,其中一个样地接受了处理,另一个样地接受了控制。在每对图上使用Kolmogorov-Smirnov检验,我发现范围为至。是否有适当的方法来处理所有重复样本,例如KS测试的多样本扩展,还是有适当的跟进测试?还是我应该得出这样的结论:“ 在两对图中,大小分布差异显着),而在一对图中则略有差异()”。0.0003707 0.75 (p &lt; 0.05 p = 0.59ppp0.00037070.00037070.00037070.750.750.75(p&lt;0.05(p&lt;0.05(p < 0.05p=0.59p=0.59p = 0.59

2
如何使用测量工具处理天花板效应?
我收集了心理生理数据,这些数据测量了受试者(两组)感知振动的能力。振动探针在皮肤上移动的位置越来越小,被摄对象指示他们何时感到振动。不幸的是,在高频率下,探头只能移动很短的距离,有时探头可以移动的最大距离仍然不足以使对象感知。因此,对于某些对象,我具有准确的阈值,但是对于一些从未感觉到振动的对象,我只是拥有一个我知道其阈值大于的值。有什么办法让我仍然包括这些数据吗?最好的分析方法是什么?

3
确定繁重的分布式过程是否已显着改善
我观察更改前后的流程处理时间,以了解流程是否因更改而有所改善。如果减少了处理时间,则过程得到了改善。处理时间的分布非常复杂,因此基于平均值进行比较是不明智的。相反,我想知道更改后观察到较短处理时间的可能性是否明显高于50%。 令为更改后处理时间的随机变量,而为更改前的处理时间。如果P(X &lt;Y)显着高于0.5,那么我想说这个过程已经改善了。ÿXXXÿYY0.5P(X&lt; Y)P(X&lt;Y)P(X < Y)0.50.50.5 现在我有ñnn观察X一世xix_i的XXX和米mm观测ÿĴyjy_j的ÿYY。P(X &lt;Y)的观测概率为\ hat p = \ frac {1} {nm} \ sum_i \ sum_j 1_ {x_i &lt;y_j}。P(X&lt;Y)P(X&lt;Y)P(X < Y)p^=1nm∑i∑j1xi&lt;yjp^=1nm∑i∑j1xi&lt;yj\hat p = \frac{1}{n m} \sum_i \sum_j 1_{x_i < y_j} 给定观测值x_i和y_j,我能怎么说P(X &lt;Y)?P(X&lt;Y)P(X&lt;Y)P(X < Y)xixix_iyjyjy_j

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.