Questions tagged «kernel-smoothing»

内核平滑技术(例如内核密度估计(KDE)和Nadaraya-Watson内核回归)可通过从数据点进行局部插值来估计函数。不要与[kernel-trick]混淆,例如在SVM中使用的内核。

1
长期差异是多少?
如何定义时间序列分析领域中的长期差异? 我知道在数据中存在相关结构的情况下会使用它。因此,我们的随机过程不会是X1,X2…X1,X2…X_1, X_2 \dots iid随机变量的一个家族,而只会是相同分布的? 我可以将标准参考作为该概念及其估计中所涉及的困难的介绍吗?

1
使用所有可能的对来创建正态混合物分布的密度估计方法的名称是什么?
我只是想到一种创建一维密度估计的整洁(不一定好)的方法,我的问题是: 这种密度估算方法有名称吗?如果不是,这是文献中某些其他方法的特例吗? 这是方法:我们有一个向量我们假设从一些不知名的分布,我们想估计得出。一种方法是采用X中所有可能的值对,并使用最大似然对每对[ x i,x j ] i ≠ j拟合正态分布。然后,所得的密度估算值是由所有所得的法线组成的混合物分布,其中,每个法线的权重均相等。X= [ x1个,X2,。。。,Xñ]X=[x1,x2,...,xn]X = [x_1,x_2,...,x_n]XXX[ x一世,XĴ]i ≠ j[xi,xj]i≠j[x_i,x_j]_{i \neq j} 下图说明了使用这种方法的矢量。这里的圆圈是数据点,彩色的法线是使用每个可能的对估计的最大似然分布,粗黑线显示了所得的密度估计值(即混合分布)。[ - 1.3 ,0.15 ,0.73 ,1.4 ][−1.3,0.15,0.73,1.4][-1.3,0.15,0.73,1.4] 顺便说一句,在R中实施一个方法很容易,该方法可以从所得混合物分布中提取样品: # Generating some "data" x <- rnorm(30) # Drawing from the density estimate using the method described above. density_estimate_sample <- replicate(9999, { pair …

4
包含不确定性的内核密度估计
可视化一维数据时,通常使用内核密度估计技术来考虑不正确选择的bin宽度。 当我的一维数据集具有测量不确定性时,是否有标准方法来合并此信息? 例如(如果我的理解是天真的,请原谅我)KDE将高斯分布与观测值的三角函数卷积。该高斯核在每个位置之间共享,但是可以改变高斯参数以匹配测量不确定度。有执行此操作的标准方法吗?我希望用宽内核反映不确定的值。σσ\sigma 我只是在Python中实现了此功能,但我不知道执行此操作的标准方法或函数。这种技术有什么问题吗?我确实注意到它给出了一些奇怪的图形!例如 在这种情况下,低值具有较大的不确定性,因此倾向于提供较宽的平坦内核,而KDE会过重权重低(且不确定)的值。

1
概率比率与PDF比率
我正在使用贝叶斯解决聚类问题。经过一些计算,我最终需要获得两个概率的比率: P(A)/P(B)P(A)/P(B)P(A)/P(B) 以获得。这些概率是通过将两个不同的2D多元KDE集成而获得的,如以下答案所示:P(H|D)P(H|D)P(H|D) P(A)=∬x,y:f^(x,y)&lt;f^(ra,sa)f^(x,y)dxdyP(A)=∬x,y:f^(x,y)&lt;f^(ra,sa)f^(x,y)dxdyP(A) = \iint_{x, y : \hat{f}(x, y) < \hat{f}(r_a, s_a)} \hat{f}(x,y)\,dx\,dy P(B)=∬x,y:g^(x,y)&lt;g^(rb,sb)g^(x,y)dxdyP(B)=∬x,y:g^(x,y)&lt;g^(rb,sb)g^(x,y)dxdyP(B) = \iint_{x, y : \hat{g}(x, y) < \hat{g}(r_b, s_b)} \hat{g}(x,y)\,dx\,dy 其中f^(x,y)f^(x,y)\hat{f}(x, y)和g^(x,y)g^(x,y)\hat{g}(x, y)是KDE,并且对低于阈值f^(ra,sa)f^(ra,sa)\hat{f}(r_a, s_a)和g^(rb,sb)g^(rb,sb)\hat{g}(r_b, s_b)。两个KDE都使用高斯内核。可以在这里看到与我正在使用的KDE类似的KDE代表性图像:在2D中集成内核密度估计器。 我通过stats.gaussian_kde python函数来计算KDE,因此我假设它具有以下一般形式: KDE(x,y)=1n∑i=1n−12h2e−(x−xi)2+(y−yi)22h2KDE(x,y)=1n∑i=1n−12h2e−(x−xi)2+(y−yi)22h2KDE(x,y) = \frac{1}{n} \sum_{i=1}^{n} -\frac{1}{2h^2} e^{-\frac{(x-x_i)^2 + (y-y_i)^2}{2h^2}} n我的点阵列的长度在哪里,h使用的带宽是多少。 上面的积分是使用蒙特卡洛过程计算的,该过程在计算上非常昂贵。我已经读过某处(忘了在哪里,对不起),在这种情况下,可以用在阈值点评估的PDF(KDE)比率替换概率比率,以获得同样有效的结果。我对此感兴趣,因为计算KDEs的比率要比计算MC积分的比率要快几个数量级。 因此问题被简化为该表达式的有效性: P(A)P(B)=f^(ra,sa)g^(rb,sb)P(A)P(B)=f^(ra,sa)g^(rb,sb)\frac{P(A)}{P(B)} = \frac{\hat{f}(r_a, s_a)}{\hat{g}(r_b, s_b)} 在什么情况下(如果有的话)我可以说这种关系是正确的? [固定错字(编辑)] …

2
在2D中集成内核密度估计器
我来自这个问题,以防有人要跟踪。 基本上,我有一个由对象组成的数据集,其中每个对象都具有给定数量的测量值(在这种情况下为两个):ΩΩ\OmegaNNN Ω=o1[x1,y1],o2[x2,y2],...,oN[xN,yN]Ω=o1[x1,y1],o2[x2,y2],...,oN[xN,yN]\Omega = o_1[x_1, y_1], o_2[x_2, y_2], ..., o_N[x_N, y_N] 我需要一种确定新对象属于的概率的方法,因此建议我通过内核密度估计器获得概率密度,我相信我已经有。p[xp,yp]p[xp,yp]p[x_p, y_p]˚FΩΩ\Omegaf^f^\hat{f} 由于我的目标是获得这个新对象的概率(属于这个二维数据集),有人告诉我到PDF集成在“ 为其支持的值密度小于您观察到的密度 ”。在新对象评估“观察”密度,即:。所以我需要求解方程:Ω ˚F ˚F p ˚F(X p,ÿ p)p[xp,yp]p[xp,yp]p[x_p, y_p]ΩΩ\Omegaf^f^\hat{f}f^f^\hat{f}pppf^(xp,yp)f^(xp,yp)\hat{f}(x_p, y_p) ∬x,y:f^(x,y)&lt;f^(xp,yp)f^(x,y)dxdy∬x,y:f^(x,y)&lt;f^(xp,yp)f^(x,y)dxdy\iint_{x, y:\hat{f}(x, y) < \hat{f}(x_p, y_p)} \hat{f}(x,y)\,dx\,dy 我的2D数据集的PDF(通过python的stats.gaussian_kde模块获得)如下所示: 红点代表新对象绘制在我的数据集的PDF上。p[xp,yp]p[xp,yp]p[x_p, y_p] 所以问题是:当pdf看起来像这样时,如何计算极限的上述积分?x,y:f^(x,y)&lt;f^(xp,yp)x,y:f^(x,y)&lt;f^(xp,yp)x, y:\hat{f}(x, y) < \hat{f}(x_p, y_p) 加 我进行了一些测试,以查看我在评论之一中提到的蒙特卡洛方法的效果。这是我得到的: 对于较低密度的区域,该值似乎会有更多变化,两个带宽或多或少都显示出相同的变化。比较Silverman的2500和1000样本值时,表中最大的变化发生在点(x,y)=(2.4,1.5)处,其差值为0.0126或~1.3%。就我而言,这在很大程度上是可以接受的。 编辑:我只是注意到,根据此处给出的定义,在二维中Scott的规则等效于Silverman的规则。

1
计算模式的置信区间?
我正在寻找有关计算模式的置信区间的参考(一般而言)。Bootstrap似乎是自然的首选,但正如Romano(1988)所讨论的那样,标准的bootstrap对于mode来说是失败的,并且它没有提供任何简单的解决方案。自本文以来,有什么变化吗?计算模式置信区间的最佳方法是什么?最好的基于引导的方法是什么?您可以提供任何相关参考吗? Romano,JP(1988)。引导模式。统计数学研究所的年鉴,40(3),565-586。

1
如何使用前k个(经验)矩拟合近似PDF(即密度估计)?
我有一种情况,我能够估计数据集的(第一个)矩,并希望使用它来生成密度函数的估计。ķkk 我已经遇到过Pearson分布,但是意识到它仅依赖于前4个矩(对矩的可能组合有一些限制)。 我还理解,当不使用更多假设时,任何有限的时刻集不足以“固定”特定分布。但是,我仍然希望获得更一般的发行版(Pearson发行版家族除外)。查看其他问题,我找不到这样的分布(请参阅:这里,这里,这里,这里,这里和这里)。 是否可以为任何矩集定义一些(“简单”)广义分布族?(也许是一组可以采用标准正态分布的变换,并对其进行变换,直到所有k个矩集都被确认为止)ķkkķkk (如果我们假设其他矩是否为0,则我不太在乎)k + 1 … ∞k+1…∞k+1\ldots\infty 谢谢。 ps:我很高兴有一个扩展的例子。最好以R代码为例。

1
从地理坐标计算内核密度估计的正确方法是什么?
我必须从经度和纬度坐标列表中计算2d内核密度估计值(kde)。但是,纬度一度与经度一度的距离是不同的,这意味着各个内核将是椭圆形的,尤其是该点距赤道越远。 在我的情况下,这些点都足够接近,因此将它们转换为平坦的地球不会引起很多问题。但是,我仍然对在不正确的情况下应该如何正确处理感到好奇。

4
如何从内核密度估计中随机得出一个值?
我有一些观察结果,我想根据这些观察结果进行抽样。这里我考虑一个非参数模型,具体地说,我使用核平滑法从有限的观察值估计CDF。然后我从获得的CDF中随机绘制值。以下是我的代码(其思想是随机获得使用均匀分布的概率,并取CDF相对于概率值的倒数) x = [randn(100, 1); rand(100, 1)+4; rand(100, 1)+8]; [f, xi] = ksdensity(x, 'Function', 'cdf', 'NUmPoints', 300); cdf = [xi', f']; nbsamp = 100; rndval = zeros(nbsamp, 1); for i = 1:nbsamp p = rand; [~, idx] = sort(abs(cdf(:, 2) - p)); rndval(i, 1) = cdf(idx(1), 1); end figure(1); hist(x, …

2
不对称分布的核密度估计
令是从未知(但肯定是非对称的)概率分布中得出的观察结果。{ x1个,… ,xñ}{X1个,…,Xñ}\{x_1,\ldots,x_N\} 我想通过KDE方法找到概率分布: 但是,我尝试使用高斯内核,但是由于它是对称的,因此性能很差。因此,尽管我不了解如何使用它们,但我已经看到一些有关Gamma和Beta内核的工作已经发布。F^(x )= 1ñH∑我= 1ñķ( x − x一世H)F^(X)=1个ñH∑一世=1个ñķ(X-X一世H) \hat{f}(x) = \frac{1}{Nh}\sum_{i=1}^{N} K\bigl(\frac{x-x_i}{h}\bigr) 我的问题是:假设基础分布的支持不在区间,如何处理这种不对称情况?[ 0 ,1 ][0,1个][0,1]

4
在R中动画化更改内核宽度的效果
我在R中有一些数据,存储在列表中。认为 d &lt;- c(1,2,3,4) 尽管这不是我的数据。如果我输入命令 plot(density(d, kernel="gaussian", width=1)) 然后我得到核概率密度估计,其中核是标准法线。如果我将1替换为其他数字,则图片当然会改变。 我想做的是创建一个视频或动画,其中每个帧都是这样的图,但是内核的带宽随帧的不同而变化,从而显示出改变带宽的效果。我怎样才能做到这一点? (如果不能在此问关于R的问题,我深表歉意。)

2
内核密度估计中的内核带宽
我正在进行一些内核密度估计,并在N维上设置了加权点(即,每个样本的权重都不是必需的)。而且,这些样本只是在度量空间中(即,我们可以定义它们之间的距离),而没有别的。例如,我们无法确定采样点的均值,标准差,也无法确定一个变量与另一个变量的比例。内核仅受此距离以及每个样本的重量的影响: f(x)=1.∑weightsi∗∑weightih∗Kernel(distance(x,xi)h)f(x)=1.∑weightsi∗∑weightih∗Kernel(distance(x,xi)h)f(x) = \frac{1.}{\sum weights_i} * \sum\frac{weight_i}{h} * Kernel(\frac{distance(x,x_i)}{h}) 在这种情况下,我试图为内核带宽找到一个鲁棒的估计,可能在空间上变化,并且最好在训练数据集x i上给出准确的重建。如有必要,我们可以假设函数相对平滑。hhhxixix_i 我尝试使用到第一个或第二个最近邻居的距离,但得出的结果很差。我尝试了留一法最优化,但是在Nd的这种情况下我很难找到一个最佳的方法来进行优化,因此它发现非常差的估计,尤其是对于训练样本本身。由于无法计算标准差,因此无法基于正常假设使用贪婪估计。我发现使用协方差矩阵来获取各向异性内核的引用,但同样,它在该空间中不成立... 有人有想法或参考吗?

1
为什么随机傅立叶特征非负?
随机傅里叶特征提供了内核函数的近似值。它们用于各种内核方法,例如SVM和高斯进程。 今天,我尝试使用TensorFlow实现,但我的一半功能却得到了负值。据我了解,这不应该发生。 因此,我回到了原论文上,就像我期望的那样,该论文说这些功能应该存在于[0,1]中。但是它的解释(在下面突出显示)对我来说没有意义:余弦函数可以在[-1,1]中的任何位置产生值,并且显示的大多数点都具有负余弦值。 我可能缺少明显的东西,但是如果有人可以指出它是什么,我将不胜感激。

3
评估PDF估算方法的最佳方法
我希望检验一些我认为比我所见过的更好的想法。我可能是错的,但我想通过更确定的观察来检验我的想法并消除怀疑。 我一直想做的事情如下: 分析性地定义一组分布。其中一些很简单,例如高斯,统一或高帽。但是其中有些必须是困难且具有挑战性的,例如Simpsons发行。 根据这些分析分布实施软件,并使用它们生成一些样本。 由于这些分布是经过分析定义的,因此,按照定义,我已经知道它们的真实PDF。这很棒。 然后,我将针对以上示例测试以下PDF估计方法: 现有的PDF估计方法(例如具有各种内核和带宽的KDE)。 我认为值得尝试的我自己的想法。 然后,我将根据真实的PDF测量估计的误差。 然后,我将更好地了解哪种PDF估计方法是好的。 我的问题是: Q1:我上面的计划有什么改进吗? Q2:我发现很难解析地定义许多真实的PDF。是否已经有了许多分析定义的真实PDF的完整列表,这些PDF在各种困难(包括非常困难的困难)下都可以在这里重用?

2
计算数据的ROC曲线
因此,我进行了16次试验,试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下,只有试验1为“真阳性”: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是,我真的不确定如何根据此数据制作ROC曲线(FPR与TPR或FAR与FRR)。哪一个都不重要,但是我只是对如何进行计算感到困惑。任何帮助,将不胜感激。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.