假设您有一个数据集从连续分布密度支撑在是未知的,但是相当大,使得核密度(例如)估计,是相当准确的。用于特定应用的需要我所观察到的数据变换为有限数量的类别,以产生一个新的数据集的隐含质量函数。
一个简单的例子是时和时。在这种情况下,诱导质量函数为
这里的两个“调整参数”是组的数量和阈值λ的长度向量。表示由感应质量函数克米,λ(ÿ )。
我想一个过程,它的答案,例如“什么是最好的选择因此,增加组数米+ 1(并选择最优的λ那里)将产生一个可以忽略不计的改进?”。我觉得也许可以创建一个检验统计量(也许与KL散度的差异或类似的差异),并得出其分布。有什么想法或相关文献吗?
编辑:我有一个连续变量的时间测量均匀分布,并且正在使用不均匀的马尔可夫链来建模时间依赖性。坦白说,离散状态的马尔可夫链更容易处理,这就是我的动机。观察数据为百分比。我目前正在使用临时离散化,这对我来说看起来非常好,但是我认为这是一个有趣的问题,可以采用正式(通用)解决方案。
编辑2:实际上,将KL差异最小化就等于根本不离散化数据,因此该想法已被完全排除。我已经相应地编辑了正文。