我假设,因为您标记了机器学习,所以您对预测感兴趣,而不是对推理感兴趣。(我相信我与@Glen_b的回答保持一致,但只是翻译为此上下文/词汇)
在这种情况下,我会说这是一个流行词。具有组变量的正则化线性模型将借鉴信息:在个体水平上的预测将是组均值和个体效应的组合。考虑l1 / l2正则化的一种方法是,它为总误差的减少分配系数成本,由于组变量比单个变量影响更多的样本,因此存在估算组效果的压力,与每个变量的分组效应。
对于具有足够数据的单个点,单个效果将为“强”,对于具有少量数据的单个点,效果将较弱。
我认为最简单的方法是考虑L1正则化和具有相同效果的同一组中的3个人。未正规化的问题有无数个解,而正则化给出了唯一的解。
将所有效果分配给组系数具有最低的l1范数,因为我们只需要1个值即可覆盖3个个体。相反,将所有效果分配给各个系数的效果最差,即将效果分配给组系数的l1范数的3倍。
请注意,我们可以拥有任意数量的层次结构,并且交互作用也受到类似的影响:正则化会将效果推向主要变量,而不是罕见的交互作用。
博客 tjmahr.com/plotting-partial-pooling-in-mixed-effects-models。–由@IsabellaGhement链接提供了借贷强度的报价
“这种效应有时称为收缩,因为将更多的极端值收缩推向更合理,更平均的值。在lme4书中,道格拉斯·贝茨(Douglas Bates)提供了收缩[名称]的替代方法。”
术语“收缩”可能具有负面含义。约翰·图基(John Tukey)倾向于将这一过程称为对各个科目彼此“借阅强度”的估计。这是混合效果模型与严格固定效果模型所基于的模型的根本区别。在混合效果模型中,我们假设分组因子的级别是从总体中选择的,因此可以预期在某种程度上共享特征。因此,相对于严格固定效应模型的预测,混合效应模型的预测将减弱。