可以使用线性判别分析(LDA)中的标定值在线性判别式上绘制解释变量吗?


11

使用通过主成分分析获得的值的双图,可以探索构成每个主成分的解释变量。 使用线性判别分析是否也有可能?

提供的示例使用。数据为“埃德加·安德森的虹膜数据”(http://en.wikipedia.org/wiki/Iris_flower_data_set)。这是虹膜数据

  id  SLength   SWidth  PLength   PWidth species 

   1      5.1      3.5      1.4       .2 setosa 
   2      4.9      3.0      1.4       .2 setosa 
   3      4.7      3.2      1.3       .2 setosa 
   4      4.6      3.1      1.5       .2 setosa 
   5      5.0      3.6      1.4       .2 setosa 
   6      5.4      3.9      1.7       .4 setosa 
   7      4.6      3.4      1.4       .3 setosa 
   8      5.0      3.4      1.5       .2 setosa 
   9      4.4      2.9      1.4       .2 setosa 
  10      4.9      3.1      1.5       .1 setosa 
  11      5.4      3.7      1.5       .2 setosa 
  12      4.8      3.4      1.6       .2 setosa 
  13      4.8      3.0      1.4       .1 setosa 
  14      4.3      3.0      1.1       .1 setosa 
  15      5.8      4.0      1.2       .2 setosa 
  16      5.7      4.4      1.5       .4 setosa 
  17      5.4      3.9      1.3       .4 setosa 
  18      5.1      3.5      1.4       .3 setosa 
  19      5.7      3.8      1.7       .3 setosa 
  20      5.1      3.8      1.5       .3 setosa 
  21      5.4      3.4      1.7       .2 setosa 
  22      5.1      3.7      1.5       .4 setosa 
  23      4.6      3.6      1.0       .2 setosa 
  24      5.1      3.3      1.7       .5 setosa 
  25      4.8      3.4      1.9       .2 setosa 
  26      5.0      3.0      1.6       .2 setosa 
  27      5.0      3.4      1.6       .4 setosa 
  28      5.2      3.5      1.5       .2 setosa 
  29      5.2      3.4      1.4       .2 setosa 
  30      4.7      3.2      1.6       .2 setosa 
  31      4.8      3.1      1.6       .2 setosa 
  32      5.4      3.4      1.5       .4 setosa 
  33      5.2      4.1      1.5       .1 setosa 
  34      5.5      4.2      1.4       .2 setosa 
  35      4.9      3.1      1.5       .2 setosa 
  36      5.0      3.2      1.2       .2 setosa 
  37      5.5      3.5      1.3       .2 setosa 
  38      4.9      3.6      1.4       .1 setosa 
  39      4.4      3.0      1.3       .2 setosa 
  40      5.1      3.4      1.5       .2 setosa 
  41      5.0      3.5      1.3       .3 setosa 
  42      4.5      2.3      1.3       .3 setosa 
  43      4.4      3.2      1.3       .2 setosa 
  44      5.0      3.5      1.6       .6 setosa 
  45      5.1      3.8      1.9       .4 setosa 
  46      4.8      3.0      1.4       .3 setosa 
  47      5.1      3.8      1.6       .2 setosa 
  48      4.6      3.2      1.4       .2 setosa 
  49      5.3      3.7      1.5       .2 setosa 
  50      5.0      3.3      1.4       .2 setosa 
  51      7.0      3.2      4.7      1.4 versicolor 
  52      6.4      3.2      4.5      1.5 versicolor 
  53      6.9      3.1      4.9      1.5 versicolor 
  54      5.5      2.3      4.0      1.3 versicolor 
  55      6.5      2.8      4.6      1.5 versicolor 
  56      5.7      2.8      4.5      1.3 versicolor 
  57      6.3      3.3      4.7      1.6 versicolor 
  58      4.9      2.4      3.3      1.0 versicolor 
  59      6.6      2.9      4.6      1.3 versicolor 
  60      5.2      2.7      3.9      1.4 versicolor 
  61      5.0      2.0      3.5      1.0 versicolor 
  62      5.9      3.0      4.2      1.5 versicolor 
  63      6.0      2.2      4.0      1.0 versicolor 
  64      6.1      2.9      4.7      1.4 versicolor 
  65      5.6      2.9      3.6      1.3 versicolor 
  66      6.7      3.1      4.4      1.4 versicolor 
  67      5.6      3.0      4.5      1.5 versicolor 
  68      5.8      2.7      4.1      1.0 versicolor 
  69      6.2      2.2      4.5      1.5 versicolor 
  70      5.6      2.5      3.9      1.1 versicolor 
  71      5.9      3.2      4.8      1.8 versicolor 
  72      6.1      2.8      4.0      1.3 versicolor 
  73      6.3      2.5      4.9      1.5 versicolor 
  74      6.1      2.8      4.7      1.2 versicolor 
  75      6.4      2.9      4.3      1.3 versicolor 
  76      6.6      3.0      4.4      1.4 versicolor 
  77      6.8      2.8      4.8      1.4 versicolor 
  78      6.7      3.0      5.0      1.7 versicolor 
  79      6.0      2.9      4.5      1.5 versicolor 
  80      5.7      2.6      3.5      1.0 versicolor 
  81      5.5      2.4      3.8      1.1 versicolor 
  82      5.5      2.4      3.7      1.0 versicolor 
  83      5.8      2.7      3.9      1.2 versicolor 
  84      6.0      2.7      5.1      1.6 versicolor 
  85      5.4      3.0      4.5      1.5 versicolor 
  86      6.0      3.4      4.5      1.6 versicolor 
  87      6.7      3.1      4.7      1.5 versicolor 
  88      6.3      2.3      4.4      1.3 versicolor 
  89      5.6      3.0      4.1      1.3 versicolor 
  90      5.5      2.5      4.0      1.3 versicolor 
  91      5.5      2.6      4.4      1.2 versicolor 
  92      6.1      3.0      4.6      1.4 versicolor 
  93      5.8      2.6      4.0      1.2 versicolor 
  94      5.0      2.3      3.3      1.0 versicolor 
  95      5.6      2.7      4.2      1.3 versicolor 
  96      5.7      3.0      4.2      1.2 versicolor 
  97      5.7      2.9      4.2      1.3 versicolor 
  98      6.2      2.9      4.3      1.3 versicolor 
  99      5.1      2.5      3.0      1.1 versicolor 
 100      5.7      2.8      4.1      1.3 versicolor 
 101      6.3      3.3      6.0      2.5 virginica 
 102      5.8      2.7      5.1      1.9 virginica 
 103      7.1      3.0      5.9      2.1 virginica 
 104      6.3      2.9      5.6      1.8 virginica 
 105      6.5      3.0      5.8      2.2 virginica 
 106      7.6      3.0      6.6      2.1 virginica 
 107      4.9      2.5      4.5      1.7 virginica 
 108      7.3      2.9      6.3      1.8 virginica 
 109      6.7      2.5      5.8      1.8 virginica 
 110      7.2      3.6      6.1      2.5 virginica 
 111      6.5      3.2      5.1      2.0 virginica 
 112      6.4      2.7      5.3      1.9 virginica 
 113      6.8      3.0      5.5      2.1 virginica 
 114      5.7      2.5      5.0      2.0 virginica 
 115      5.8      2.8      5.1      2.4 virginica 
 116      6.4      3.2      5.3      2.3 virginica 
 117      6.5      3.0      5.5      1.8 virginica 
 118      7.7      3.8      6.7      2.2 virginica 
 119      7.7      2.6      6.9      2.3 virginica 
 120      6.0      2.2      5.0      1.5 virginica 
 121      6.9      3.2      5.7      2.3 virginica 
 122      5.6      2.8      4.9      2.0 virginica 
 123      7.7      2.8      6.7      2.0 virginica 
 124      6.3      2.7      4.9      1.8 virginica 
 125      6.7      3.3      5.7      2.1 virginica 
 126      7.2      3.2      6.0      1.8 virginica 
 127      6.2      2.8      4.8      1.8 virginica 
 128      6.1      3.0      4.9      1.8 virginica 
 129      6.4      2.8      5.6      2.1 virginica 
 130      7.2      3.0      5.8      1.6 virginica 
 131      7.4      2.8      6.1      1.9 virginica 
 132      7.9      3.8      6.4      2.0 virginica 
 133      6.4      2.8      5.6      2.2 virginica 
 134      6.3      2.8      5.1      1.5 virginica 
 135      6.1      2.6      5.6      1.4 virginica 
 136      7.7      3.0      6.1      2.3 virginica 
 137      6.3      3.4      5.6      2.4 virginica 
 138      6.4      3.1      5.5      1.8 virginica 
 139      6.0      3.0      4.8      1.8 virginica 
 140      6.9      3.1      5.4      2.1 virginica 
 141      6.7      3.1      5.6      2.4 virginica 
 142      6.9      3.1      5.1      2.3 virginica 
 143      5.8      2.7      5.1      1.9 virginica 
 144      6.8      3.2      5.9      2.3 virginica 
 145      6.7      3.3      5.7      2.5 virginica 
 146      6.7      3.0      5.2      2.3 virginica 
 147      6.3      2.5      5.0      1.9 virginica 
 148      6.5      3.0      5.2      2.0 virginica 
 149      6.2      3.4      5.4      2.3 virginica 
 150      5.9      3.0      5.1      1.8 virginica

使用R中的虹膜数据集的示例PCA双线图(以下代码):

在此处输入图片说明

此图表明,花瓣长度和花瓣宽度对于确定PC1分数和区分物种组很重要。setosa的花瓣较小,萼片较宽。

显然,可以通过绘制线性判别分析结果得出类似的结论,尽管我不确定LDA图会带来什么,因此是一个问题。轴是两个第一线性判别式(迹线的LD1 99%和LD2 1%)。红色矢量的坐标是“线性判别系数”,也称为“缩放”(lda.fit $ scaling:将观察结果转换为判别函数的矩阵,进行了归一化处理,以使组内协方差矩阵是球形的)。“缩放”按diag(1/f1, , p)和计算f1 is sqrt(diag(var(x - group.means[g, ])))。可以将数据投影到线性判别式上(使用predict.lda)(下面的代码,如https://stackoverflow.com/a/17240647/742447所示))。将数据和预测变量一起绘制,以便通过增加可见变量来定义哪些种类(如通常的PCA双线图和上述PCA双线图所示):

使用R中的虹膜数据集的示例LDA双线图

从该图中可以看出,萼片宽度,花瓣宽度和花瓣长度都与LD1相似。正如预期的那样,setosa出现在较小的花瓣和较宽的萼片上。

在R中没有内置的方法可以绘制LDA中的此类双曲线,并且对此在线讨论很少,这使我对此方法保持警惕。

该LDA图(请参见下面的代码)是否提供了对预测变量缩放比例得分的统计有效解释?

PCA的代码:

require(grid)

  iris.pca <- prcomp(iris[,-5])
  PC <- iris.pca
  x="PC1"
  y="PC2"
  PCdata <- data.frame(obsnames=iris[,5], PC$x)

  datapc <- data.frame(varnames=rownames(PC$rotation), PC$rotation)
  mult <- min(
    (max(PCdata[,y]) - min(PCdata[,y])/(max(datapc[,y])-min(datapc[,y]))),
    (max(PCdata[,x]) - min(PCdata[,x])/(max(datapc[,x])-min(datapc[,x])))
  )
  datapc <- transform(datapc,
                      v1 = 1.6 * mult * (get(x)),
                      v2 = 1.6 * mult * (get(y))
  )

  datapc$length <- with(datapc, sqrt(v1^2+v2^2))
  datapc <- datapc[order(-datapc$length),]

  p <- qplot(data=data.frame(iris.pca$x),
             main="PCA",
             x=PC1,
             y=PC2,
             shape=iris$Species)
  #p <- p + stat_ellipse(aes(group=iris$Species))
  p <- p + geom_hline(aes(0), size=.2) + geom_vline(aes(0), size=.2)
  p <- p + geom_text(data=datapc, 
                     aes(x=v1, y=v2,
                         label=varnames,
                         shape=NULL,
                         linetype=NULL,
                         alpha=length), 
                     size = 3, vjust=0.5,
                     hjust=0, color="red")
  p <- p + geom_segment(data=datapc, 
                        aes(x=0, y=0, xend=v1,
                            yend=v2, shape=NULL, 
                            linetype=NULL,
                            alpha=length),
                        arrow=arrow(length=unit(0.2,"cm")),
                        alpha=0.5, color="red")
  p <- p + coord_flip()


  print(p)

LDA代码

#Perform LDA analysis
iris.lda <- lda(as.factor(Species)~.,
                 data=iris)

#Project data on linear discriminants
iris.lda.values <- predict(iris.lda, iris[,-5])

#Extract scaling for each predictor and
data.lda <- data.frame(varnames=rownames(coef(iris.lda)), coef(iris.lda))

#coef(iris.lda) is equivalent to iris.lda$scaling

data.lda$length <- with(data.lda, sqrt(LD1^2+LD2^2))
scale.para <- 0.75

#Plot the results
p <- qplot(data=data.frame(iris.lda.values$x),
           main="LDA",
           x=LD1,
           y=LD2,
           shape=iris$Species)#+stat_ellipse()
p <- p + geom_hline(aes(0), size=.2) + geom_vline(aes(0), size=.2)
p <- p + theme(legend.position="none")
p <- p + geom_text(data=data.lda,
                   aes(x=LD1*scale.para, y=LD2*scale.para,
                       label=varnames, 
                       shape=NULL, linetype=NULL,
                       alpha=length),
                   size = 3, vjust=0.5,
                   hjust=0, color="red")
p <- p + geom_segment(data=data.lda,
                      aes(x=0, y=0,
                          xend=LD1*scale.para, yend=LD2*scale.para,
                          shape=NULL, linetype=NULL,
                          alpha=length),
                      arrow=arrow(length=unit(0.2,"cm")),
                      color="red")
p <- p + coord_flip()

print(p)

LDA的结果如下

lda(as.factor(Species) ~ ., data = iris)

Prior probabilities of groups:
    setosa versicolor  virginica 
 0.3333333  0.3333333  0.3333333 

Group means:
           Sepal.Length Sepal.Width Petal.Length Petal.Width
setosa            5.006       3.428        1.462       0.246
versicolor        5.936       2.770        4.260       1.326
virginica         6.588       2.974        5.552       2.026

Coefficients of linear discriminants:
                    LD1         LD2
Sepal.Length  0.8293776  0.02410215
Sepal.Width   1.5344731  2.16452123
Petal.Length -2.2012117 -0.93192121
Petal.Width  -2.8104603  2.83918785

Proportion of trace:
   LD1    LD2 
0.9912 0.0088

我无法遵循您的代码(我不是R用户,我希望查看实际数据和结果值,而不是无法解释的图片和无法解释的代码),很抱歉。你的阴谋是什么?红色矢量的坐标是什么 -潜在值或变量的回归权重?您还绘制了什么数据点?什么discriminant predictor variable scaling scores啊 -这个词在我看来并不常见和陌生。
ttnphns 2014年

@ttnphns:感谢您提出问题改进建议,这些改进现在已经反映在问题中。
EtienneLow-Décarie2014年

我仍然不知道是什么predictor variable scaling scores。也许是“区别分数”?无论如何,我添加了一个您可能感兴趣的答案。
ttnphns 2014年

Answers:


7

主成分分析和线性判别分析输出 ; 虹膜数据

我不会绘制双峰,因为双峰可以用各种规格化绘制,因此看起来可能有所不同。由于我不是R用户,因此很难跟踪您如何制作图并重复它们。相反,我将执行PCA和LDA并以类似于的方式显示结果(您可能需要阅读)。两种分析均在SPSS中完成。

主成分虹膜数据

The analysis will be based on covariances (not correlations) between the 4 variables.

Eigenvalues (component variances) and the proportion of overall variance explained
PC1   4.228241706    .924618723 
PC2    .242670748    .053066483 
PC3    .078209500    .017102610 
PC4    .023835093    .005212184 
# @Etienne's comment: 
# Eigenvalues are obtained in R by
# (princomp(iris[,-5])$sdev)^2 or (prcomp(iris[,-5])$sdev)^2.
# Proportion of variance explained is obtained in R by
# summary(princomp(iris[,-5])) or summary(prcomp(iris[,-5]))

Eigenvectors (cosines of rotation of variables into components)
              PC1           PC2           PC3           PC4
SLength   .3613865918   .6565887713  -.5820298513   .3154871929 
SWidth   -.0845225141   .7301614348   .5979108301  -.3197231037 
PLength   .8566706060  -.1733726628   .0762360758  -.4798389870 
PWidth    .3582891972  -.0754810199   .5458314320   .7536574253    
# @Etienne's comment: 
# This is obtained in R by
# prcomp(iris[,-5])$rotation or princomp(iris[,-5])$loadings

Loadings (eigenvectors normalized to respective eigenvalues;
loadings are the covariances between variables and standardized components)
              PC1           PC2           PC3           PC4
SLength    .743108002    .323446284   -.162770244    .048706863 
SWidth    -.173801015    .359689372    .167211512   -.049360829 
PLength   1.761545107   -.085406187    .021320152   -.074080509 
PWidth     .736738926   -.037183175    .152647008    .116354292    
# @Etienne's comment: 
# Loadings can be obtained in R with
# t(t(princomp(iris[,-5])$loadings) * princomp(iris[,-5])$sdev) or
# t(t(prcomp(iris[,-5])$rotation) * prcomp(iris[,-5])$sdev)

Standardized (rescaled) loadings
(loadings divided by st. deviations of the respective variables)
              PC1           PC2           PC3           PC4
SLength    .897401762     .390604412   -.196566721    .058820016
SWidth    -.398748472     .825228709    .383630296   -.113247642
PLength    .997873942    -.048380599    .012077365   -.041964868
PWidth     .966547516   -.048781602    .200261695    .152648309  

Raw component scores (Centered 4-variable data multiplied by eigenvectors)
     PC1           PC2           PC3           PC4
-2.684125626    .319397247   -.027914828    .002262437 
-2.714141687   -.177001225   -.210464272    .099026550 
-2.888990569   -.144949426    .017900256    .019968390 
-2.745342856   -.318298979    .031559374   -.075575817 
-2.728716537    .326754513    .090079241   -.061258593 
-2.280859633    .741330449    .168677658   -.024200858 
-2.820537751   -.089461385    .257892158   -.048143106 
-2.626144973    .163384960   -.021879318   -.045297871 
-2.886382732   -.578311754    .020759570   -.026744736 
-2.672755798   -.113774246   -.197632725   -.056295401 
... etc.
# @Etienne's comment: 
# This is obtained in R with
# prcomp(iris[,-5])$x or princomp(iris[,-5])$scores.
# Can also be eigenvector normalized for plotting

Standardized (to unit variances) component scores, when multiplied
by loadings return original centered variables.

需要强调的是,如果需要解释的话,通常是载荷而不是特征向量,我们通常通过载荷来解释主成分(或因子分析中的因子)。载荷是标准化组件对模型变量的回归系数。同时,由于组成部分不相互关联,因此它们是此类组成部分与变量之间的协方差。标准化(重定标)的载荷(如相关性)不能超过1,并且由于变量不等方差的影响已消除,因此更易于解释。

它是负载,而不是本征向量,是通常显示在双标图侧由端与成分得分; 后者通常以列归一化显示。


线性判别式虹膜数据

There is 3 classes and 4 variables: min(3-1,4)=2 discriminants can be extracted.
Only the extraction (no classification of data points) will be done.

Eigenvalues and canonical correlations
(Canonical correlation squared is SSbetween/SStotal of ANOVA by that discriminant)
Dis1    32.19192920     .98482089 
Dis2      .28539104     .47119702
# @Etienne's comment:
# In R eigenvalues are expected from
# lda(as.factor(Species)~.,data=iris)$svd, but this produces
#   Dis1       Dis2
# 48.642644  4.579983
# @ttnphns' comment:
# The difference might be due to different computational approach
# (e.g. me used eigendecomposition and R used svd?) and is of no importance.
# Canonical correlations though should be the same.

Eigenvectors (here, column-normalized to SS=1: cosines of rotation of variables into discriminants)
              Dis1          Dis2
SLength  -.2087418215   .0065319640 
SWidth   -.3862036868   .5866105531 
PLength   .5540117156  -.2525615400 
PWidth    .7073503964   .7694530921

Unstandardized discriminant coefficients (proportionally related to eigenvectors)
              Dis1          Dis2
SLength   -.829377642    .024102149 
SWidth   -1.534473068   2.164521235 
PLength   2.201211656   -.931921210 
PWidth    2.810460309   2.839187853
# @Etienne's comment:
# This is obtained in R with
# lda(as.factor(Species)~.,data=iris)$scaling
# which is described as being standardized discriminant coefficients in the function definition.

Standardized discriminant coefficients
              Dis1          Dis2
SLength  -.4269548486   .0124075316 
SWidth   -.5212416758   .7352613085 
PLength   .9472572487  -.4010378190 
PWidth    .5751607719   .5810398645

Pooled within-groups correlations between variables and discriminants
              Dis1          Dis2
SLength   .2225959415   .3108117231 
SWidth   -.1190115149   .8636809224 
PLength   .7060653811   .1677013843 
PWidth    .6331779262   .7372420588 

Discriminant scores (Centered 4-variable data multiplied by unstandardized coefficients)
     Dis1           Dis2
-8.061799783    .300420621 
-7.128687721   -.786660426 
-7.489827971   -.265384488 
-6.813200569   -.670631068 
-8.132309326    .514462530 
-7.701946744   1.461720967 
-7.212617624    .355836209 
-7.605293546   -.011633838 
-6.560551593  -1.015163624 
-7.343059893   -.947319209
... etc.
# @Etienne's comment:
# This is obtained in R with
# predict(lda(as.factor(Species)~.,data=iris), iris[,-5])$x

关于在LDA中提取判别式的计算,请看这里。我们通常通过判别系数或标准判别系数来解释判别式(后者更方便,因为变量的差异会被消除)。就像在PCA中一样。但是请注意:这里的系数是按变量建模判别式的回归系数,而不是PCA那样,反之亦然。由于变量并非不相关,因此不能将系数视为变量和判别式之间的协方差。

但是,我们有另一个矩阵可以用作判别式解释的另一种来源-判别式和变量之间的组内关联。由于判别式是不相关的,例如PC,因此该矩阵在某种意义上类似于PCA的标准化负载。

总之,在PCA中,我们只有唯一的矩阵-载荷-可以帮助解释潜伏度,而在LDA中,我们有两种替代矩阵。如果需要绘图(双线绘图或其他方式),则必须决定是否要绘图系数或相关性。

而且,当然,无需提醒一下,在虹膜数据的PCA中,组件不必“知道”有3个类;因此,无需特别注意。不能指望他们区分阶级。判别者“知道”有阶级,这是他们的自然工作。


因此,在任意缩放后,我可以将“标准化判别系数”或“变量和判别式之间的组内关联相关性”与“判别分数”绘制在同一轴上,以两种不同的方式解释结果?在我的问题中,我已将“非标准化判别系数”绘制在与“判别分数”相同的轴上。
EtienneLow-Décarie2014年

1
@Etienne我加你问这个答案的底部细节stats.stackexchange.com/a/48859/3277。感谢您的慷慨。
ttnphns 2014年

1
@TLJ应该是:在变量和标准化组件之间。我已经插入了这个词。请在这里Loadings are the coefficients to predict...以及在这里[Footnote: The components' values...]。载荷是根据标准化和正交分量计算变量的系数,这取决于这些载荷与那些载荷之间的协方差。
ttnphns 2014年

1
@TLJ,“这些和那些” =变量和组件。您说您计算了原始成分分数。将每个分量标准化为方差= 1。计算变量和组件之间的协方差。那就是负荷。“标准化”或“重新定标”载荷是指载荷除以st。各个变量的偏差。
ttnphns 2014年

1
加载的平方是由组件说明的变量方差的份额。
ttnphns 2014年

4

我的理解是可以进行线性判别分析的双图,实际上是在R包ggbiplotggord中实现的,而另一个实现此功能的函数发布在此StackOverflow线程中

同样,M。Greenacre的著作“实践中的双线图”上有一章(第11章,请参见pdf),在图11.5中,它显示了虹膜数据集的线性判别分析的双线图: 在此处输入图片说明


实际上,整本书可在此处multivariatestatistics.org/biplots.html上免费在线获得(每章一个pdf)。
变形虫2015年

啊哈,甚至不需要狡猾的网站,谢谢!
Tom Wenseleers 2015年

2

我知道这个问题是一年多以前提出的,ttnphns提供了一个很好而深入的答案,但是我想我想对那些对PCA和LDA感兴趣的人(如我)添加一些评论(如我)科学,但统计背景有限(不是统计学家)。

PCA中的PC是原始变量的线性组合,可以依次最大程度地解释多维数据集中的总方差。您将拥有与原始变量一样多的PC。PCs解释的方差百分比由使用的相似性矩阵的特征值给出,而每个新PC上每个原始变量的系数由特征向量给出。PCA没有关于组的假设。PCA非常适合查看多个变量在整个数据中的值如何变化(例如,在双线图中)。解释PCA在很大程度上依赖于双图。

LDA的不同是非常重要的原因-它通过最大化组之间的方差来创建新变量(LD)。这些仍然是原始变量的线性组合,但是并没有解释每个顺序LD尽可能多的方差,而是绘制它们以使沿着该新变量的组之间的差异最大化。LDA(和MANOVA)使用平方和叉积之和之间和之内的比较矩阵,而不是相似矩阵。该矩阵的特征向量-OP最初关心的系数-描述了原始变量对新LD形成的贡献程度。

由于这些原因,与LDA相比,来自PCA的特征向量将使您更好地了解变量在整个数据云中的值如何变化,以及变量对数据集中的总方差有多重要。但是,LDA(特别是与MANOVA结合使用)将为您提供组多元质心差异的统计检验,并为各个组中的点分配误差进行估算(从某种意义上说,是多元效应量)。在LDA中,即使变量在组之间线性(且显着)变化,其在LD上的系数也可能并不表示该效应的“范围”,而是完全取决于分析中包括的其他变量。

我希望这很清楚。谢谢你的时间。见下面的图片...

PC和LD的结构不同,LD的系数可能无法使您了解数据集中原始变量的变化方式


都是正确的,我也+1了,但是我不确定您的答案如何解决原始问题,该问题非常具体地与如何绘制LDA双线图有关。
变形虫2015年

我想您是对的-我的回答是,主要是“使用通过主成分分析获得的值的双图,可以探索构成每个主成分的解释变量。使用线性判别分析也可以吗? ” -的答案是,是的,但是含义如上所述,非常不同...感谢您的评论和+1!
danno'2
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.