Answers:
顺便说一句,您不必使数据集在1和0之间保持平衡。您所需要的是足够多的1,以最大程度地收敛。查看数据集中1的分布(100,000),您应该不会有任何问题。您可以在这里做一个简单的实验
在两种情况下,您将获得相同的估计值。同样,加权的想法与抽样有关。如果使用整个数据集,则不应对其加权。如果我是你,我将只使用10%(如果是1)和10%(0)。
在R中,您可以使用glm
。这是一个示例代码:
glm(y ~ x1 + x2, weights = wt, data =data, family = binomial("logit"))
在您的数据集中应该有一个wt
权重变量。
如果您同时使用0和1的10%,则wt
变量的值为10。
如果您使用0的10%和1的100%:wt
对于y = 0的观测值,变量的值为10,对于y = 1的观测值,变量的值为1
加权是对数据加权以补偿样本和总体差异的程序(King 2001)。例如,在罕见事件中(例如信用风险欺诈,医学文献中的死亡),我们倾向于对所有1(稀有事件)和零(0)(非事件)进行采样。在这种情况下,我们必须相应地加权观测值。
示例:假设,在50万笔交易中,有50笔欺诈交易。在这种情况下,您会
在这种情况下,您将为欺诈交易分配1的权重,为良好交易分配10的权重。这称为加权最大似然法。重要的一点是,权重与抽样比例有关
请参阅:稀有事件数据中的逻辑回归(King 2001)