确定来自连续分布的最佳数据离散化


11

假设您有一个数据集Y1,...,Yn从连续分布密度p(y)支撑在[0,1]是未知的,但n是相当大,使得核密度(例如)估计p^(y),是相当准确的。用于特定应用的需要我所观察到的数据变换为有限数量的类别,以产生一个新的数据集的Z1,...,Zn隐含质量函数g(z)

一个简单的例子是Zi=0Yi1/2Zi=1Yi>1/2。在这种情况下,诱导质量函数为

g^(0)=01/2p^(y)dy,   g^(1)=1/21p^(y)dy

这里的两个“调整参数”是组的数量m和阈值λ(m1)长度向量。表示由感应质量函数λÿ λg^m,λ(y)

我想一个过程,它的答案,例如“什么是最好的选择因此,增加组数+ 1(并选择最优的λ那里)将产生一个可以忽略不计的改进?”。我觉得也许可以创建一个检验统计量(也许与KL散度的差异或类似的差异),并得出其分布。有什么想法或相关文献吗?m,λm+1λ

编辑:我有一个连续变量的时间测量均匀分布,并且正在使用不均匀的马尔可夫链来建模时间依赖性。坦白说,离散状态的马尔可夫链更容易处理,这就是我的动机。观察数据为百分比。我目前正在使用临时离散化,这对我来说看起来非常好,但是我认为这是一个有趣的问题,可以采用正式(通用)解决方案。

编辑2:实际上,将KL差异最小化就等于根本不离散化数据,因此该想法已被完全排除。我已经相应地编辑了正文。


1
在大多数情况下,后续应用程序的需求将决定任何解决方案的优劣。也许,为了给我们一些指导,您可以多说一些。
ub

首先,定义可以忽略不计。临时而言,这似乎与速率失真问题有关。该盖和托马斯文本提供了一个很好可读的介绍等主题。
红衣主教

kk1

我不确定离散化实际上是否是一个好举动。您将无法概括离散值在观测的原始空间上创建的边界。
bayerj 2011年

Answers:


3

我将分享一段时间前针对此问题提出的解决方案-这不是正式的统计测试,但可能会提供有用的启发式方法。


Y1,Y2,...,Yn[0,1]m0<λ1<λ2<<λm1<1

YiZi(m,λ)λ={λ1,λ2,,λm1}Yim,λ

var(Yi)=var(E(Yi|Zi(m,λ)))+E(var(Yi|Zi(m,λ))).

如果通过量化,则给定的分类可以成功地生成同质的组。 ,我们追求的是简约的分组赋予在变化的最到。术语特别是,我们希望选择 以便通过添加其他级别而不会显着增加组内同质性。因此,我们将固定值的最优定义为E(var(Yi|Zi(m,λ))Yivar(E(Yi|Zi(m,λ))mλm

λm=argminλE(var(Yi|Zi(m,λ)))

确定选择哪种合适的粗略诊断方法是查看作为的函数-该轨迹是单调非递增的,并且在急剧减小之后,您会发现通过包含更多类别而获得的精度相对较低。这种启发式方法在本质上是类似的,有时有时使用“ Scree图 ”来查看有多少主要成分解释了变化的“足够”。È v 一个[R ÿ | ž λ mE(var(Yi|Zi(m,λm)))m

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.