评估PDF估算方法的最佳方法


10

我希望检验一些我认为比我所见过的更好的想法。我可能是错的,但我想通过更确定的观察来检验我的想法并消除怀疑。

我一直想做的事情如下:

  1. 分析性地定义一组分布。其中一些很简单,例如高斯,统一或高帽。但是其中有些必须是困难且具有挑战性的,例如Simpsons发行。
  2. 根据这些分析分布实施软件,并使用它们生成一些样本。
  3. 由于这些分布是经过分析定义的,因此,按照定义,我已经知道它们的真实PDF。这很棒。
  4. 然后,我将针对以上示例测试以下PDF估计方法:
    • 现有的PDF估计方法(例如具有各种内核和带宽的KDE)。
    • 我认为值得尝试的我自己的想法。
  5. 然后,我将根据真实的PDF测量估计的误差。
  6. 然后,我将更好地了解哪种PDF估计方法是好的。

我的问题是:

  • Q1:我上面的计划有什么改进吗?
  • Q2:我发现很难解析地定义许多真实的PDF。是否已经有了许多分析定义的真实PDF的完整列表,这些PDF在各种困难(包括非常困难的困难)下都可以在这里重用?

在我看来,这听起来像是蒙特卡罗模拟?
Christoph Hanck

Answers:


2

解答2:您可以在以下基准测试集上以一维测试您的方法。


那正是我想要的。是的,目前我感兴趣的案例是1D。
穴居人

11
  • A1。这听起来对我来说是明智的计划。仅提及几点。您将要使用不同的错误度量标准(,KL散度等)进行测试,因为方法会根据损失函数的不同执行不同的操作。另外,您将需要测试不同数量的样本。最后,众所周知,许多密度估算方法在不连续/边界附近的表现都非常差,因此请确保在集合中包括截断的pdf。Lp

  • A2。您只对一维pdf感兴趣,还是打算测试多变量案例?至于pdf的基准套件,我过去曾问过一个与测试MCMC算法有关的问题,但我没有找到一套完善的pdf。

如果您有足够的时间和计算资源,则可以考虑对您的想法进行某种对抗性测试

  • 定义一个非常灵活的参数化pdf系列(例如,许多已知pdf的大量混合物),并通过某些非凸全局优化方法(*)在混合物的参数空间内移动,从而最大程度地降低方法的性能并最大化某些其他最新密度估计方法的性能(反之亦然)。这将是对您方法的优点/缺点的有力检验。

最后,比所有其他方法都要好的要求是过高的标准;工作中必须没有任何免费的午餐原则(任何算法都具有一些潜在的先验假设,例如平滑度,长度比例等)。为了使您的方法能够做出有价值的贡献,您只需要证明某些普遍感兴趣的方案/域可以使您的算法更好地工作(上述对抗性测试可以帮助您找到/定义这样的域)。

(*)由于您的性能指标是随机的(您将通过蒙特卡洛采样法对其进行评估),因此您可能还需要检查有关优化嘈杂,昂贵目标函数的答案


1

Q1:我上面的计划有什么改进吗?

那要看。混合物分布残差通常是由于做一些愚蠢的事情而产生的,例如将不必要的混合物分布指定为数据模型。因此,根据我自己的经验,建议至少在输出中指定与模型中一样多的混合分布项。此外,混合PDF的输出不同于模型中PDF的输出。Mathematica默认搜索包括带有两个项的混合分布,并且可以指定为更大的数字。

问题2:我是否已经有了许多可以分析的,具有不同困难(包括非常困难)的真实PDF的完整列表,可以在这里重复使用?

这是Mathematica的FindDistribution例程的列表:

对于TargetFunctions可能连续分布是:BetaDistribution,柯西分布,ChiDistribution,ChiSquareDistribution,ExponentialDistribution,ExtremeValueDistribution,FrechetDistribution,伽玛分布,GumbelDistribution,HalfNormalDistribution,InverseGaussianDistribution,拉普拉斯分布,LevyDistribution,LogisticDistribution,LogNormalDistribution,MaxwellDistribution,正态分布,帕累托分布,瑞利分布,StudentTDistribution,UniformDistribution,韦伯分布,直方图分布。

TargetFunctions的可能离散分布是:BenfordDistribution,BinomialDistribution,BorelTannerDistribution,DiscreteUniformDistribution,GeometricDistribution,LogSeriesDistribution,NegativeBinomialDistribution,Pascalscaltribution,PoissonDistribution,WaringYuleDistribution,ZipfDistribution,HistogramDistribution,HistogramDistribution。

内部信息标准使用贝叶斯信息标准以及TargetFunctions上的先验。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.