因此,我正在R中使用逻辑回归模型。尽管我还不熟悉统计学,但我现在似乎对回归模型有了一些了解,但仍然有些困扰我:
查看链接的图片,您会看到我创建的示例模型的摘要R打印。该模型正在尝试预测是否将重新找到数据集中的电子邮件(二进制变量isRefound
),并且数据集中包含与密切相关的两个变量isRefound
,即- next24
和next7days
-均为二进制,并告知是否将在下一个单击邮件。从日志中的当前点开始的24小时/接下来的7天。
高p值应表明,此变量对模型预测的影响是相当随机的,不是吗?基于这一点,我不明白为什么当这两个变量被排除在计算公式之外时,模型预测的精度为什么会下降到10%以下。如果这些变量的重要性不高,为什么将它们从模型中删除会产生如此大的影响?
最好的问候和预先的感谢,Rickyfox
编辑:
首先,我仅删除了next24,这会产生很小的影响,因为它的系数很小。正如预期的那样,变化不大-不会为此上传图片。
移除next7day会对模型产生重大影响:AIC提升200k,精度降低至16%,召回率降低至73%
isRefound ~ day + next24
并忽略所有其他变量,该怎么办?