分类数据的惩罚方法:将级别合并为一个因子


10

惩罚模型可用于估计参数数量等于或大于样本大小的模型。在大型稀疏分类或计数数据表的对数线性模型中可能会出现这种情况。在这些情况下,通常还希望通过组合某个因子的级别来折叠表格,而这些因子的级别在它们与其他因子的交互方式方面是无法区分的。两个问题:

  1. 有没有办法使用诸如LASSO或弹性网之类的惩罚模型来测试每个因素中各个级别的可折叠性?
  2. 如果第一个问题的答案是肯定的,那么是否可以而且应该以这样的方式进行设置:水平崩溃和模型系数的估计可以一步完成?

1
本文doi.org/10.1177/1471082X16642560很好地概述了过去十年左右在这一领域所做的工作。
乔恩·比克勒

1
注意:下面讨论的代价是@JorneBiccler链接中的公式3.4。(很有趣的是,之前已经考虑过这个问题!)
user795305 2007年


我们如何将其称为之前问题的重复项?
Michael R. Chernick's

Answers:


4

有可能的。我们可以使用融合套索的变体来完成此任务。

我们可以使用估计量

β^=精氨酸β-1个ñ一世=1个ñÿ一世βŤX一世-ËβŤX一世+因子gλGĴG|βĴ|+1个2ĴķG|βĴ-βķ|

注意 -1个ñ一世=1个ñÿ一世βŤX一世-ËβŤX一世 是对数线性模型的损失函数。

这鼓励组内的系数相等。系数的等价等同于折叠ĴŤHķŤH各个因素的水平。在什么时候β^Ĵ=0,相当于折叠 ĴŤH水平与参考水平。调整参数λG 可以视为常数,但是如果只有少数几个因素,最好将它们分开对待。

估计器是凸函数的最小化器,因此可以通过任意求解器有效地进行计算。如果一个因素有很多很多层次,这些成对的差异可能会变得一发不可收拾-在这种情况下,有必要了解可能的崩溃模式的更多结构。

请注意,这都是一步完成的!这就是使套索类型的估算器如此酷的原因!


另一个有趣的方法是使用OSCAR估计器,除了罚分外,其他方法与上面类似 [-1个1个][β一世βĴ]1个 被替换为 [β一世βĴ]

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.