跟进这个问题,您将如何向仅理解均值的人解释协方差?谈到向外行人解释协方差的问题,我想到了一个类似的问题。
如何向统计学新手解释协方差和相关性之间的区别?似乎两者均指代链接到另一个变量的一个变量的更改。
与提到的问题类似,缺少公式将是可取的。
跟进这个问题,您将如何向仅理解均值的人解释协方差?谈到向外行人解释协方差的问题,我想到了一个类似的问题。
如何向统计学新手解释协方差和相关性之间的区别?似乎两者均指代链接到另一个变量的一个变量的更改。
与提到的问题类似,缺少公式将是可取的。
Answers:
协方差的问题在于它们难以比较:当您计算一组身高和体重的协方差时(分别以米和千克表示),您将获得与以其他单位进行计算时不同的协方差(这对于使用或不使用公制的人来说已经是一个问题了!),而且,很难说(例如)身高和体重是否比“脚趾和手指的长度”更“弯曲” ,仅仅是因为计算协方差的“比例”是不同的。
解决此问题的方法是“标准化”协方差:将协方差除以代表两个协变量中的多样性和小数位数的值,最后得到一个确保在-1和1:之间的值。无论原始变量位于什么单位,您都将始终获得相同的结果,这也将确保您可以在一定程度上比较两个变量是否比两个变量“相关”更多。
注意:以上假设读者已经了解协方差的概念。
cm
,你的Y是在s
,那么你。然后,您可以将结果乘以单位转换系数。在R中尝试:cov(cars$speed,cars$dist) == cov(cars$speed/5,cars$dist/7)*(7*5)
这些类型的问题的要求使我感到有些奇怪。这是一个数学概念/公式,但是我想在完全没有数学符号的情况下谈论它。我也认为应该指出,我认为应该在大多数人接受高等教育之前将理解公式的实际代数教授给大多数人(不需要了解矩阵代数,只需简单的代数就足够了)。
因此,首先,不是完全忽略公式,而是在一些神奇和启发式的类推方式中谈论公式,而是让我们看一下公式,并尝试以小步骤来解释各个组件。当查看公式时,协方差和相关性方面的差异应该变得清楚。尽管从类推和启发式的角度来讲,我怀疑这会掩盖两个相对简单的概念以及它们在许多情况下的差异。
因此,让我们从样本协方差的公式开始(我刚刚从维基百科获取并采用了这些公式);
为了使每个人都快上一步,让我们在公式中明确定义所有元素和运算。
在这一点上,我可能会介绍一个简单的示例,可以说一下元素和操作。因此,例如,让我们组成一个表格,其中每一行对应一个观察值(和y分别标记为正确)。可能会使这些示例更具体(例如,x代表年龄,y代表体重),但是对于我们在此处的讨论并不重要。
x y
---
2 5
4 8
9 3
5 6
0 8
此时,如果您觉得公式中的sum运算可能尚未完全理解,则可以在更简单的上下文中再次引入它。只需说,与本示例中的说法相同;
x
--
2
4
9
5
+ 0
--
20
现在乱七八糟应及时清理,我们可以以自己的方式代入公式的第二部分,。现在,假设人都已经知道是什么意思, ˉ X和 ¨ Ÿ代表,我会说,是虚伪的我自己的评论较早的帖子,人们可以仅仅将意味着简单的启发式的条件(如:中间的分布)。这样一来,您就可以一次执行一次此过程。声明(X 我 - ˉ X)仅检查每个观察值之间的偏差/距离,以及该特定属性的所有观察值的平均值。因此,当观察值离平均值较远时,此操作将被赋予较高的值。然后可以参考给定的示例表,并简单地演示对观测值向量的操作。
x x_bar (x - x_bar)
2 4 -2
4 4 0
9 4 5
5 4 1
0 4 -4
向量的运算相同,但只是为了增强,您也可以表示该运算。
y y_bar (y - y_bar)
5 6 -1
8 6 2
3 6 -3
6 6 0
8 6 2
现在,术语和(ÿ 我 - ˉ ÿ不应该是明确的,我们可以去到下一个操作,这些结果相乘,(X 我 - ˉ X)⋅ (ÿ 我 - ˉ ÿ)。正如gung在评论中指出的那样,这通常被称为叉积(如果正在引入用于统计的基本矩阵代数,那么这可能是一个有用的例子,可以复习)。
请注意相乘时会发生什么,如果两个观察值均在均值上方较远处,则所得观察值将具有更大的正值(如果两个观察值均在均值以下相距较大距离,则同样如此)等于正数)。还要注意,如果一个观察值高于平均值,而另一个观察值低于平均值,则结果值将很大(以绝对值表示)而为负(正数乘以负数等于负数)。最后请注意,当一个值非常接近任一观察值的均值时,将两个值相乘将得出较小的数字。同样,我们可以在表格中显示此操作。
(x - x_bar) (y - y_bar) (x - x_bar)*(y - y_bar)
-2 -1 2
0 2 0
5 -3 -15
1 0 0
-4 2 -8
现在,如果房间里有统计学家,他们应该在这一点上沸腾了。我们可以看到协方差是什么以及如何进行计算的所有独立元素。现在,我们要做的就是总结上表中的最终结果,除以和voila,协方差不再是神秘的(所有方差仅定义一个希腊符号)。
(x - x_bar)*(y - y_bar)
-----------------------
2
0
-15
0
+ -8
-----
-21
-21/(5-1) = -5.25
在这一点上,您可能想加强5的来源,但这应该很简单,就像回到表中并计算观察值的数量一样(再次让样本和总体之间的差值落在另一个时间)。
)。并且您使用协方差引入的所有相同概念都适用(即,如果一个序列中有许多值与均值相差很远,那么它将具有很高的方差)。在这里可能要注意,一个序列也不能具有负方差(从逻辑上讲,应该从前面给出的数学公式得出)。
我了解在某些情况下这种水平的治疗是不合适的。参议院需要执行摘要。在这种情况下,您可以回顾一下人们在其他示例中一直在使用的简单启发式方法,但是罗马并不是一天之内就建立起来的。对于要求执行摘要的参议院来说,如果您有那么少的时间,也许您应该相信我的话,而不必进行类比和要点。
取决于存在正相关还是负相关,将相关性缩放到-1和+1之间,并且是无量纲的。但是,协方差的范围从两个独立变量的零到Var(X)(如果两组数据相等)。COV(X,Y)的单位是X的单位乘以Y的单位。
The units of COV(X,Y) are the units of X times the units of Y.
,需要详细说明吗?