具有二进制因变量和自变量的逻辑回归


14

在因变量和自变量都是二进制的情况下进行逻辑回归是否合适?例如,因变量为0和1,预测变量为对比编码变量-1和1?

Answers:


6

没有理由不这样做,但是有两个警告提示:

  1. 在分析哪个是哪个期间,请仔细跟踪。在大型项目中,很容易迷失方向并产生错误的结果。

  2. 如果您选择报告回归估计值,而不是比值比,请在报告中阐明您的编码方案,从而使读者不会假设自己的编码都为0,1而不自己产生不正确的OR。

可能看起来很基本,但是我已经看到这两个问题都使它成为已发表的论文。


因此,将一个数据文件分为6个单独的案例并在每个数据集中使用比较编码的预测变量进行比较也很合适吗?
2011年

老实说,我不确定您要问的是第二点。您能弄清楚您希望完成的工作吗?
Fomite

我有一个在主题条件下3到4之间的数据集。我想测试每种效果,但是包含所有交互作用的单个回归会丢失很多我感兴趣的信息。相反,我会将数据按条件划分为单独的数据集,并在每个数据集上进行对比的有重点的逻辑回归编码不同的代码我的事感兴趣。
upabove

对我如何编写更加资讯对比度代码在这里看到:stats.stackexchange.com/questions/14546/...
upabove

11

为了清楚起见:术语“二进制”通常仅保留给1比0编码。适用于任何2值编码的更通用的单词是“二分法”。与逻辑回归一样,二元预测变量当然也欢迎进行逻辑回归,并且由于它们只有2个值,因此将其作为因子或协变量输入都没有区别。


5

通常,如果您对预测变量0-1进行编码,则有助于解释,但除此之外(并指出它不是必需的),这没有什么不对的。还有其他一些(基于列联表)的方法,但是如果我没记错的话,这些方法等效于(某种形式的)逻辑回归。

简而言之:我认为没有理由不这样做。


谢谢!如果我有3个对比编码的预测变量,并且将它们全部编码为0-1,则它们将不会正交。例如,我有4个类别,我的三个代码是L1:1,-1,0、0 L2:0.1,-1,0,L3:0,0,1,-1。那是个问题吗?
2011年

您的示例L矩阵(L1,L2,L3)是重复的对比,由此将每个类别与以下类别进行比较。这些对比度预测变量既不是正交的,也不是二进制的(编码为0-1)。实际上,它们的值分别是.75 vs -.25(第一个变量)
、.

3

另外,如果您有两个以上的预测变量,那么即使对于逻辑回归或多元回归,也更有可能存在多重共线性问题。但是,对所有二进制变量(即,已编码(0,1))使用逻辑回归是没有害处的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.