数据缩减技术来识别国家类型


11

我教经济地理入门课程。为了帮助我的学生更好地了解当代世界经济中的国家类型以及对数据缩减技术的理解,我想构建一项作业,以创建不同国家类型的研究(例如,高收入高收入国家预期寿命长;高收入自然资源出口国的预期寿命中等;德国是第一类,而也门是第二类。这将使用可公开获得的开发计划署数据(如果我记得正确的话,其中包含有关不到200个国家的社会经济数据;抱歉,没有可用的区域数据)。

在进行此分配之前,将有另一个要求他们(使用相同的-主要是区间或比率水平-数据)检查这些相同变量之间的相关性。

我的希望是,他们将首先对不同变量之间的关系类型产生一种直觉(例如,预期寿命与[财富的各种指标]之间的正相关;财富与出口多样性之间的正相关)。然后,当使用数据缩减技术时,构成要素或因素将具有一定的直观意义(例如,构成要素/要素1体现了财富的重要性;构成要素/要素2体现了教育的重要性)。

鉴于这些是第二至四年级的学生,通常他们对分析性思维的了解通常比较有限,那么您建议哪种单一的数据缩减技术最适合第二次作业?这些是人口数据,因此推论统计(p-vlaues等)并不是真正必要的。

Answers:


10

作为一种探索性方法,PCA是此类IMO任务的不错的首选。他们也很高兴接触到它。听起来其中许多人以前从未见过主要组件。

在数据方面,我还要向您指出世界银行指标,这些指标非常完整:http : //data.worldbank.org/indicator


5

我同意JMS,在检查每个县变量之间的初始相关性和散点图后,PCA似乎是一个好主意。此主题提供了一些有用的建议,以非数学的方式介绍PCA。

我还建议使用小的多重图来可视化每个变量的空间分布(并且在gis.se网站上有一些很好的例子可以说明这个问题)。我认为如果要比较的单位面积数量有限并且使用良好的配色方案(例如,安德鲁·盖尔曼(Andrew Gelman)博客中的示例),这些效果特别好。

不幸的是,我怀疑任何“世界国家”数据集的性质都会经常导致数据稀疏(即许多缺失的国家),从而使地理可视化变得困难。但是,这种可视化技术在其他情况下也应该对您的课程有用。


+1,不错的参考。比较变量映射和PCA分数映射也可能很有趣。
JMS

使用非数学术语与PCA简介的链接很有用,因为它帮助我了解PCA和因子分析之间的细微差别。GIS /制图建议也非常有用,因为我没有考虑过可视化变量的空间分布。对于这些学生来说,这将帮助他们掌握我所不愿拥有的世界经济的基本结构。
rabidotter 2011年

1
好的情节经常胜过等等……)
JMS

4

快速补充说明:无论使用哪种以上技术,您都将需要首先检查变量的分布,因为其中许多变量将“要求”您首先使用对数对变量进行转换。这样做将比使用原始变量更好地揭示某些关系。


3
+1通常,这样的回复只应作为评论发布,但这里的建议是如此重要,它可以从所有可能的强调中受益。在适当重新表达变量之前,尤其是PCA结果可能没有任何意义。
ub

2

您可以使用CUR分解来替代PCA。对于CUR分解,您可以参考[1]或[2]。在CUR分解中,C代表选定的列,R代表选定的行,U代表链接矩阵。让我解释一下[1]中给出的CUR解构背后的直觉。

ü一世v一世

[(1/2)age − (1/ √2)height + (1/2)income]

作为来自人的特征数据集的重要的不相关“因素”或“特征”之一,并不是特别有意义或有意义的。

关于CUR的好处是,基础列是实际的列(或行),相对于PCA(使用转换后的SVD)而言,基础列更易于解释。

[1]中给出的算法易于实现,您可以通过更改错误阈值并获得不同的碱基数来使用它。

[1] MW Mahoney和P. Drineas,“用于改进数据分析的CUR矩阵分解。”,美国国家科学院院刊,第1卷。2009年1月,第106页,第697-702页。

[2] J. Sun,Y。Xie,H。Zhang和C. Faloutsos,“更少,更多:大型稀疏图的紧凑矩阵分解”,第七届SIAM数据挖掘国际会议论文集,Citeseer,2007,p 。366。


2

根据您的目标,可以通过某种聚类方法来最好地实现对组中注册表的分类。对于相对较少的情况,至少在探索阶段,通常最适合使用层次聚类,而对于更精细的解决方案,则可以考虑使用诸如K-means之类的迭代过程。根据您使用的软件,也可以使用SPSS中的过程,但是我不知道还有什么地方叫做两步聚类,该过程虽然不透明但速度很快,而且看起来效果很好。

聚类分析产生分类解决方案,该解决方案最大化组之间的方差,同时最小化所述组内部的方差。它也可能会产生易于解释的结果。



1

另一种选择是使用自组织地图(SOM)。对学生将使​​用哪种软件有任何想法吗?我知道R例如有两个SOM实现。但是,SOM可能无法通过您的“直观的组成因素”测试。(也不一定适用于PCA ...)


很抱歉延迟回复。学生将使用Minitab 16,它具有上面提到的一些更传统的数据缩减技术。我将研究自组织的地图,但是我怀疑这是否适合我在本科二年级学习的学生。
rabidotter
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.