判别分析中可以使用分类自变量吗?


Answers:


14

判别分析假设多元正态分布,因为我们通常认为是预测变量的实际上是多元因变量,而分组变量被认为是预测变量。这意味着不能很好地处理按您希望的意义被视为预测变量的分类变量。这是许多人(包括我自己)认为判别分析已因逻辑回归而过时的原因之一。逻辑回归在模型的左手或右手边都没有进行任何形式的分布假设。逻辑回归是一种直接的概率模型,不需要像判别分析那样使用贝叶斯规则将结果转换为概率。


谢谢弗兰克·哈雷尔先生的回复。实际上,我想使用同一组变量比较判别分析和逻辑回归(logit模型)的结果。因此,为此目的,如果我必须在判别分析中使用分类变量作为自变量,那么有什么办法吗?
kuwoli

6

简短的答案是“是”。

初步说明。很难说将自身产生判别函数的变量称为“独立”还是“依赖”。LDA基本上是规范相关分析的一种特殊情况,因此它是双向的。可以将其视为 MANOVA(将类别变量作为自变量),或者将类别分为两类时,可以将其视为类别的线性回归作为因变量。因此,总是将LDA与logistic一类的单向回归相对应合法的。

LDA假定变量(您称为“独立”变量)来自多元正态分布,因此-它们都是连续的。该假设对于(1)LDA的分类阶段和(2)测试提取阶段产生的判别式的重要性非常重要。判别式本身的提取不需要假设。

但是,LDA对于抵制该假设是相当有力的,该假设有时被视为对二进制数据进行此操作的保证。实际上,有人这样做。在两组都包含二进制甚至是伪二进制变量的情况下,可以进行规范相关(LDA是特定情况)。再一次,潜在函数的提取没有问题。当调用p值或分类对象时,此类应用程序可能会出现问题。

根据二进制/有序变量,可以计算四项/多项相关并将其提交给LDA(如果程序允许输入相关矩阵代替数据);但是在案例级别上的判别分数的计算将是有问题的。

一种更灵活的方法是通过最佳缩放/量化将分类(普通,名义)变量转换为连续变量。非线性规范相关分析(OVERALS)。它将在任务最大化两个方面(类变量和分类“预测变量”)之间进行关联。然后,您可以尝试将LDA与转换后的变量一起使用。

(多项式或二进制)逻辑回归可能是LDA的另一种替代方法。


这比仅仅使用针对情况的模型(逻辑回归)要复杂得多。判别分析并不像某些人认为的那样健壮。用单个二元分类预测器很容易表明,形式da的后验概率不是很准确(例如,根据受试者的性别预测事件的概率)。
Frank Harrell,2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.