我正在获取温度与冰淇淋销售的虚拟数据,并使用K均值(n个群集= 2)将其分类以区分2类(完全虚拟)。
现在,我正在对此数据进行主成分分析,我的目标是了解我所看到的。我知道PCA的目的是减少尺寸(显然不是在这种情况下)并显示元素的变化。但是,您如何阅读下面的PCA图,即在PCA图中您可以讲述温度与冰淇淋的故事?第一(X)和第二(Y)PC是什么意思?
我正在获取温度与冰淇淋销售的虚拟数据,并使用K均值(n个群集= 2)将其分类以区分2类(完全虚拟)。
现在,我正在对此数据进行主成分分析,我的目标是了解我所看到的。我知道PCA的目的是减少尺寸(显然不是在这种情况下)并显示元素的变化。但是,您如何阅读下面的PCA图,即在PCA图中您可以讲述温度与冰淇淋的故事?第一(X)和第二(Y)PC是什么意思?
Answers:
我知道PCA的目标是降低尺寸
显然不是这种情况
我不会那么确定!从第二个绘图中,看起来好像可以将数据中的许多信息投影到一条水平线上。那是1维,而不是原来的二维空间!显然,您丢失了一些信息,因为要移开Y轴,但是这种信息丢失是否可以接受,是您的要求。
关于该站点上的PCA存在大量问题,因此,我鼓励您在此处,此处,此处或此处进行检查。如果您在此之后还有其他疑问,请发布它们,我们很乐意为您提供帮助。
作为您的实际问题:
您可以在PCA图中讲述温度与冰淇淋的关系的故事是什么?
由于新坐标轴是原始坐标的线性组合,因此...基本上没有任何内容!PCA会给您一个答案(由数字组成):
这对您有用吗?也许。但是我猜不是:)
已编辑
我将添加此资源,我认为这是有帮助的,因为交互式图表很酷。
再次编辑
对于Ilan man的一个很好的回答,我想补充一下,对您的主要成分有一个非常简单的解释,尽管在这种简单的2D情况下,仅查看散点图并不会增加我们可以解释的内容。
第一个PC是温度和冰淇淋消耗量的加权总和(即两个系数均为正的线性组合)。在右侧,天气炎热,卖很多冰淇淋;在左侧,天气寒冷,卖更少的冰淇淋。那台PC可以解释您的大部分差异,并且您得到的组将这两个方面都匹配。
第二台PC测量温度和冰淇淋消耗量如何偏离第一台PC强调的紧密线性关系。在图表的上部,与相同温度下的其他日期相比,有几天出售的冰淇淋多,而在下部,与温度不同,出售的冰淇淋比预期少的日子。该PC仅解释了部分差异。
也就是说,我们可以从主要组成部分讲述一个故事,尽管只有两个变量,这是我们在没有PCA的情况下可能注意到的故事。有了更多的变量,PCA变得更加有用,因为它所讲述的故事否则很难被注意到。