我有以下熊猫数据框Top15
:
我创建了一个估计每人可引用文件数量的列:
Top15['PopEst'] = Top15['Energy Supply'] / Top15['Energy Supply per Capita']
Top15['Citable docs per Capita'] = Top15['Citable documents'] / Top15['PopEst']
我想知道人均引用文件数量与人均能源供应之间的相关性。因此,我使用了.corr()
方法(皮尔逊相关性):
data = Top15[['Citable docs per Capita','Energy Supply per Capita']]
correlation = data.corr(method='pearson')
我想返回一个数字,但是结果是:
.corr
直接应用于数据框,它将返回所有成对的相关性;这就是为什么您在矩阵的对角线上观察到1(每个列与自身完全相关)的原因。请参阅下面的编辑。