确定来自连续分布的最佳数据离散化
假设您有一个数据集Y1,...,YnY1,...,YnY_{1}, ..., Y_{n}从连续分布密度p(y)p(y)p(y)支撑在[0,1][0,1][0,1]是未知的,但nnn是相当大,使得核密度(例如)估计p^(y)p^(y)\hat{p}(y),是相当准确的。用于特定应用的需要我所观察到的数据变换为有限数量的类别,以产生一个新的数据集的Z1,...,ZnZ1,...,ZnZ_{1}, ..., Z_{n}隐含质量函数g(z)g(z)g(z)。 一个简单的例子是Zi=0Zi=0Z_{i} = 0时Yi≤1/2Yi≤1/2Y_{i} \leq 1/2和Zi=1Zi=1Z_{i} = 1时Yi>1/2Yi>1/2Y_{i} > 1/2。在这种情况下,诱导质量函数为 g^(0)=∫1/20p^(y)dy, g^(1)=∫11/2p^(y)dyg^(0)=∫01/2p^(y)dy, g^(1)=∫1/21p^(y)dy \hat{g}(0) = \int_{0}^{1/2} \hat{p}(y) dy, \ \ \ \hat{g}(1) = \int_{1/2}^{1} \hat{p}(y)dy 这里的两个“调整参数”是组的数量mmm和阈值λ的(m−1)(m−1)(m-1)长度向量。表示由感应质量函数克米,λ(ÿ )。λλ\lambdag^m,λ(y)g^m,λ(y)\hat{g}_{m,\lambda}(y) 我想一个过程,它的答案,例如“什么是最好的选择因此,增加组数米+ 1(并选择最优的λ那里)将产生一个可以忽略不计的改进?”。我觉得也许可以创建一个检验统计量(也许与KL散度的差异或类似的差异),并得出其分布。有什么想法或相关文献吗?m,λm,λm, \lambdam+1m+1m+1λλ\lambda 编辑:我有一个连续变量的时间测量均匀分布,并且正在使用不均匀的马尔可夫链来建模时间依赖性。坦白说,离散状态的马尔可夫链更容易处理,这就是我的动机。观察数据为百分比。我目前正在使用临时离散化,这对我来说看起来非常好,但是我认为这是一个有趣的问题,可以采用正式(通用)解决方案。 编辑2:实际上,将KL差异最小化就等于根本不离散化数据,因此该想法已被完全排除。我已经相应地编辑了正文。