Logistic回归模型变量的p值的含义


9

因此,我正在R中使用逻辑回归模型。尽管我还不熟悉统计学,但我现在似乎对回归模型有了一些了解,但仍然有些困扰我:

查看链接的图片,您会看到我创建的示例模型的摘要R打印。该模型正在尝试预测是否将重新找到数据集中的电子邮件(二进制变量isRefound),并且数据集中包含与密切相关的两个变量isRefound,即- next24next7days-均为二进制,并告知是否将在下一个单击邮件。从日志中的当前点开始的24小时/接下来的7天。

高p值应表明,此变量对模型预测的影响是相当随机的,不是吗?基于这一点,我不明白为什么当这两个变量被排除在计算公式之外时,模型预测的精度为什么会下降到10%以下。如果这些变量的重要性不高,为什么将它们从模型中删除会产生如此大的影响?

最好的问候和预先的感谢,Rickyfox

在此处输入图片说明


编辑:

首先,我仅删除了next24,这会产生很小的影响,因为它的系数很小。正如预期的那样,变化不大-不会为此上传图片。

移除next7day会对模型产生重大影响:AIC提升200k,精度降低至16%,召回率降低至73%

在此处输入图片说明


1
如果您只是拥有isRefound ~ day + next24并忽略所有其他变量,该怎么办?
smillig

Answers:


11

基本上,您似乎遇到了多重共线性问题。从本网站或维基百科开始,有许多与此相关的材料。

简而言之,这两个预测变量似乎与您的结果确实相关,但它们也可能彼此高度相关(请注意,如果变量多于两个,则仍然可能存在多重共线性问题而没有很强的双变量相关性)。当然,这确实很有意义:根据定义,在24小时之内单击的所有电子邮件也都在7天内被单击了,并且大多数电子邮件可能根本没有被单击(不是24小时且不是7天)。

这在您呈现的输出中显示的一种方式是通过相关系数的超大标准误差/ CI(根据您使用bigglm的事实判断,即使很小的系数也非常重要,看来您的样本量应该足够了以获得良好的估算值)。您还可以执行其他操作来检测此类问题:查看成对相关性,仅删除一个可疑变量(如@Nick Sabbe所建议),共同测试这两个变量的显着性。

通常,高p值并不意味着影响很小或随机,而只是没有证据表明系数不同于0。它也可能非常大,您只是不知道(要么因为样本尺寸太小或由于模型存在其他问题)。


1
请注意,您发布的新输出表明还可能涉及其他一些变量(或者我没有看到另一个问题),因为否则,当仅包含两个变量之一时,您会期望SE降低很多。
晚会

是的,已经注意到了,但是谢谢。稍后,我将进行编辑,以使您知道感兴趣的原因是什么
deemel
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.