这只是一个小小的检查,请帮助我看看我是否误解了这个概念,以及以什么方式。
我对相关性有一个功能上的理解,但我感到有些困惑,要真正自信地解释该功能性理解背后的原理。
据我了解,统计相关性(相对于该术语的更一般用法)是一种理解两个连续变量以及它们以相似的方式趋向或不趋于上升或下降的方式。
您无法对一个连续的和一个分类变量进行相关性的原因是,由于无法计算两者之间的协方差,因此无法计算 两者之间的协方差,因为按定义,分类变量不能产生均值,因此甚至不能输入第一个统计分析的步骤。
那正确吗?
这只是一个小小的检查,请帮助我看看我是否误解了这个概念,以及以什么方式。
我对相关性有一个功能上的理解,但我感到有些困惑,要真正自信地解释该功能性理解背后的原理。
据我了解,统计相关性(相对于该术语的更一般用法)是一种理解两个连续变量以及它们以相似的方式趋向或不趋于上升或下降的方式。
您无法对一个连续的和一个分类变量进行相关性的原因是,由于无法计算两者之间的协方差,因此无法计算 两者之间的协方差,因为按定义,分类变量不能产生均值,因此甚至不能输入第一个统计分析的步骤。
那正确吗?
Answers:
相关性是标准化的协方差,即协方差和通过的标准偏差除以和。让我说明一下。
松散地说,统计可以概括为适合数据的模型,并可以评估模型描述这些数据点的程度(结果=模型+错误)。一种方法是从模型计算偏差或残差(res)的总和:
许多统计计算都基于此,包括。相关系数(见下文)。
这是制作的示例数据集R
(残差表示为红线,并在其旁边添加其值):
X <- c(8,9,10,13,15)
Y <- c(5,4,4,6,8)
通过从模型中在每个数据点单独地寻找并减去其值(例如平均值;在这种情况下X=11
和Y=5.4
),人们可以评估的模型的准确度。可以说该模型高/低估了实际价值。但是,对模型中的所有偏差进行求和时,总误差趋于为零,这两个值相互抵消,因为存在正值(模型低估了特定数据点)和负值(模型高估了特定数据)点)。为了解决这个问题,将偏差和求平方,现在称为平方和():
为了方便起见,可以采用样本方差的平方根,即样本标准偏差:
现在,协方差评估两个变量是否相互关联。正值表示当一个变量偏离均值时,另一个变量沿相同方向偏离。
X
Y
长话短说,是的,您的感觉是对的,但我希望我的回答可以提供一些背景信息。
您是(几乎)的权利。协方差(以及相关性)也只能在数值变量之间计算。这包括连续变量,也包括离散数值变量。
仅在给定变量有用的数字代码的情况下,分类变量才可以用于计算相关性,但这不太可能获得实际的优势-也许对某些两级分类变量可能有用,但是其他工具可能更适合。