Questions tagged «kernel-smoothing»

内核平滑技术(例如内核密度估计(KDE)和Nadaraya-Watson内核回归)可通过从数据点进行局部插值来估计函数。不要与[kernel-trick]混淆,例如在SVM中使用的内核。


4
R?中非负变量密度图的好方法
plot(density(rexp(100)) 显然,左侧所有的密度都表示偏差。 我希望总结一些非统计人员的数据,并且我想避免有关为何非负数据的密度在零左边的问题。这些图用于随机检查;我想按治疗组和对照组显示变量的分布。分布通常是指数级的。由于各种原因,直方图比较棘手。 快速的Google搜索使统计人员可以在非负内核上进行工作,例如: this。 但是,它有没有在R中实现?在已实现的方法中,对于描述性统计,它们中的任何一种是否“最佳”? 编辑:即使from命令可以解决我当前的问题,也很高兴知道是否有人基于非负密度估计的文献实现了内核

2
为内核密度估计器选择带宽
对于单变量内核密度估计量(KDE),我使用Silverman规则计算:HHh 0.9 分钟(小号d,我Q R / 1.34 )× n− 0.20.9分(sd,一世问[R/1.34)×ñ-0.2\begin{equation} 0.9 \min(sd, IQR/1.34)\times n^{-0.2} \end{equation} 多元KDE(假设普通内核)的标准规则是什么?

1
“内核密度估计”是什么的卷积?
我试图更好地了解内核密度估计。 使用Wikipedia中的定义:https://en.wikipedia.org/wiki/Kernel_density_estimation#Definition fh^(x)=1n∑ni=1Kh(x−xi)=1nh∑ni=1K(x−xih)fh^(x)=1n∑i=1nKh(x−xi)=1nh∑i=1nK(x−xih) \hat{f_h}(x) = \frac{1}{n}\sum_{i=1}^n K_h (x - x_i) \quad = \frac{1}{nh} \sum_{i=1}^n K\Big(\frac{x-x_i}{h}\Big) 让我们以是一个矩形函数赋予如果是间和和否则,和(窗口大小)为1。1 x − 0.5 0.5 0 小时K()K()K()111xxx−0.5−0.5-0.50.50.50.5000hhh 我知道密度是两个函数的卷积,但是我不确定我如何定义这两个函数。其中一个应该(可能)是数据的函数,对于R中的每个点,它告诉我们该位置有多少个数据点(大多数为)。而另一个函数可能应该是对内核函数的修改,并结合窗口大小。但是我不确定如何定义它。000 有什么建议么? 贝娄是一个R代码示例,(我怀疑)它复制了我上面定义的设置(两个高斯的混合物,),我希望在此上看到一个“证明”,证明要卷积的函数是我们怀疑的。n=100n=100n=100 # example code: set.seed(2346639) x <- c(rnorm(50), rnorm(50,2)) plot(density(x, kernel='rectangular', width=1, n = 10**4)) rug(x)

2
您能用外行的术语解释Parzen窗口(内核)密度估计吗?
Parzen窗口密度估计被描述为 p(x)=1n∑i=1n1h2ϕ(xi−xh)p(x)=1n∑i=1n1h2ϕ(xi−xh) p(x)=\frac{1}{n}\sum_{i=1}^{n} \frac{1}{h^2} \phi \left(\frac{x_i - x}{h} \right) 其中nnn是在向量元素的数目,是一个向量,被的概率密度,是Parzen窗的尺寸,和是窗口函数。xxxp(x)p(x)p(x)xxxhhhϕϕ\phi 我的问题是: Parzen窗口函数和其他密度函数(例如高斯函数)之间的基本区别是什么? 窗口函数()在查找的密度中的作用是什么?ϕϕ\phixxx 为什么我们可以插入其他密度函数来代替窗口函数? 在求密度中的作用是什么?hhhxxx

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 


2
如果可变的内核宽度通常对内核回归有利,那么为什么它们通常对内核密度估计不利?
这个问题是由其他地方的讨论引起的。 变量核通常用于局部回归。例如,黄土被广泛使用并且可以作为回归平滑器使用,并且基于适应数据稀疏性的可变宽度内核。 另一方面,通常认为可变核在核密度估计中导致较差的估计量(请参见Terrell和Scott,1992年)。 他们有一个直观的原因,为什么它们可以很好地进行回归而不是密度估计?

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
R中内核密度估计中“ pdf”下的区域
我正在尝试在R中使用' density '函数进行内核密度估计。我有一些困难,解释结果和比较不同的数据集,因为它似乎在曲线下面积不一定1.对于任何概率密度函数(PDF) ,我们需要有区域∫ ∞ - ∞ φ (x )d x = 1。我假设内核密度估计报告pdf。我使用integrate.xy从sfsmisc估计曲线下面积。ϕ(x)ϕ(x)\phi(x)∫∞−∞ϕ(x)dx=1∫−∞∞ϕ(x)dx=1\int_{-\infty}^\infty \phi(x) dx = 1 > # generate some data > xx<-rnorm(10000) > # get density > xy <- density(xx) > # plot it > plot(xy) > # load the library > library(sfsmisc) > integrate.xy(xy$x,xy$y) [1] 1.000978 > …

3
如何计算经验概率密度之间的重叠?
我正在寻找一种方法来计算R中两个内核密度估计之间的重叠区域,以度量两个样本之间的相似性。为了澄清,在下面的示例中,我需要量化紫色重叠区域的面积: library(ggplot2) set.seed(1234) d <- data.frame(variable=c(rep("a", 50), rep("b", 30)), value=c(rnorm(50), runif(30, 0, 3))) ggplot(d, aes(value, fill=variable)) + geom_density(alpha=.4, color=NA) 这里讨论了一个类似的问题,不同之处在于我需要对任意经验数据而不是预定义的正态分布进行此操作。该overlap软件包解决了这个问题,但显然仅用于时间戳记数据,这对我不起作用。Bray-Curtis索引(在vegan包的vegdist(method="bray")函数中实现)似乎也很相关,但对于有些不同的数据也是如此。 我对理论方法和我可能会采用的R函数都感兴趣。


1
导数的核密度估计量是否有最佳带宽?
我需要使用内核密度估计器基于一组观察值来估计密度函数。基于同一组观察,我还需要使用核密度估计器的导数来估计密度的一阶和二阶导数。带宽肯定会对最终结果产生很大影响。 首先,我知道有两个R函数可以提供KDE带宽。我不确定哪一个更受欢迎。谁能推荐这些R函数中的一种来获得KDE带宽? 其次,对于KDE的派生,我应该选择相同的带宽吗?

1
内核带宽:Scott与Silverman的规则
谁能用简单的英语解释带宽选择的斯科特和西尔弗曼经验法则之间的区别是什么?具体来说,什么时候比另一种更好?它与基础分布有关吗?样品数量? PS:我指的是SciPy中的代码。

3
密度估算在哪里有用?
在经过一些简短的数学之后,我认为我对内核密度估计有一点直觉。但是我也知道,就其估计量的统计特性而言,估计三个以上变量的多元密度可能不是一个好主意。 那么,在哪种情况下我应该使用非参数方法来估计双变量密度?是否有足够的价值开始担心要针对两个以上的变量进行估算? 如果您可以指向一些有关多元密度估计应用的有用链接,那就太好了。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.