了解此PCA冰淇淋销售量与温度的关系图


9

我正在获取温度与冰淇淋销售的虚拟数据,并使用K均值(n个群集= 2)将其分类以区分2类(完全虚拟)。

现在,我正在对此数据进行主成分分析,我的目标是了解我所看到的。我知道PCA的目的是减少尺寸(显然不是在这种情况下)并显示元素的变化。但是,您如何阅读下面的PCA图,即在PCA图中您可以讲述温度与冰淇淋的故事?第一(X)和第二(Y)PC是什么意思?

在此处输入图片说明


1
这应该是一条评论,但我的代表不足。下面的链接是有关PCA的出色教程。尤其是,“玩具示例”在“足够简单以一张图片来理解”和“足够复杂以至于可以用作将来问题的类比”之间取得了良好的平衡。我认为阅读它可能有助于弄清PCA可以为您做什么和不能为您做什么。cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf
杰森

Answers:


18

我知道PCA的目标是降低尺寸

ķ ķ

显然不是这种情况

我不会那么确定!从第二个绘图中,看起来好像可以将数据中的许多信息投影到一条水平线上。那是1维,而不是原来的二维空间!显然,您丢失了一些信息,因为要移开Y轴,但是这种信息丢失是否可以接受,是您的要求。

关于该站点上的PCA存在大量问题,因此,我鼓励您在此处此处此处此处进行检查。如果您在此之后还有其他疑问,请发布它们,我们很乐意为您提供帮助。

作为您的实际问题:

您可以在PCA图中讲述温度与冰淇淋的关系的故事是什么?

由于新坐标轴是原始坐标的线性组合,因此...基本上没有任何内容!PCA会给您一个答案(由数字组成):

PC1个=2.5×冰淇淋-3.6×温度PC2=-1.5×冰淇淋+0.6×温度

这对您有用吗?也许。但是我猜不是:)

已编辑

我将添加资源,我认为这是有帮助的,因为交互式图表很酷。

再次编辑

ķ

ñ>ķķķ ķ


6
另外,请务必缩放变量。否则,销售额(高得多的数字)将解释大部分差异。可能是为什么PC中的设备如此不同。
Filipe

很好的答案,但您的说法“ ...您的数据可能表示为...的最佳kk维度”可能过于笼统。最大方差的方向不一定对分离两个类别有用。不知何故,它通常工作得很好,但不是因为PCA会做任何事情以针对特定目的做出最佳选择。
韦恩

“事实上,PCA只是正交表示您的数据。” 我总是被这样的事实感到惊讶,很多人都没有认识到这一点...
3x89g2

5

对于Ilan man的一个很好的回答,我想补充一下,对您的主要成分有一个非常简单的解释,尽管在这种简单的2D情况下,仅查看散点图并不会增加我们可以解释的内容。

第一个PC是温度和冰淇淋消耗量的加权总和(即两个系数均为正的线性组合)。在右侧,天气炎热,卖很多冰淇淋;在左侧,天气寒冷,卖更少的冰淇淋。那台PC可以解释您的大部分差异,并且您得到的组将这两个方面都匹配。

第二台PC测量温度和冰淇淋消耗量如何偏离第一台PC强调的紧密线性关系。在图表的上部,与相同温度下的其他日期相比,有几天出售的冰淇淋多,而在下部,与温度不同,出售的冰淇淋比预期少的日子。该PC仅解释了部分差异。

也就是说,我们可以从主要组成部分讲述一个故事,尽管只有两个变量,这是我们在没有PCA的情况下可能注意到的故事。有了更多的变量,PCA变得更加有用,因为它所讲述的故事否则很难被注意到。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.