@Silverfish要求扩大PolatAlemdar的答案,没有给出答案,所以我将在这里尝试扩大答案。
为什么叫方方距离?应急表中的卡方检验是基于
这样做是为了保持这种形式,并把它作为一个距离度量。这给出了OP的第三个公式,其中xi解释为观察值,yi作为期望值,这解释了PolatAlemdar的评论“它用于离散概率分布”,例如,拟合优度检验。第三种形式不是距离函数,因为它在变量x和y中是不对称的。为了进行直方图比较,我们需要一个在x和y上对称的距离函数,这两种形式都可以给出。它们之间的差异只是一个常数1
χ2=∑cells(Oi−Ei)2Ei
xiyixyxy,这是不重要的,只要您始终选择一种形式即可(尽管该版本具有额外的系数
112如果要与非对称形式进行比较,则
2更好。请注意,这些公式与平方欧几里德距离的相似性,不是巧合,卡方距离是一种
12加权的欧氏距离。因此,OP中的公式通常放在根符号下以获取
距离。在下文中,我们将遵循此步骤。
卡方距离也用于对应分析。要查看与此处使用的表单的关系,令为具有R行和C列的列联表的像元。表示行总数为x + j = ∑ i x i j j,列总数为x i + = ∑ j x i j j。行之间的卡方的距离升,ķ由下式给出
χ 2(升,ķ )=xijRCx+j=∑ixijxi+=∑jxijl,k
χ2(l,k)=∑j1x+j(xljxl+−xkjxk+)2−−−−−−−−−−−−−−−−−−−⎷
对于只有两行(两个直方图)的情况,这些将恢复OP的第一个公式(对根符号取模)。
EDIT
在下面的评论中回答问题:迈克尔·格林纳克雷(Chapman&Hall)撰写的一本关于卡方距离的长期讨论的书是《实践中的对应分析(第二版)》。这是一个很好的名称,因为它与列联表中使用的方格相似。它有什么分布?我从来没有研究过,但可能(在某些条件下)它大约具有卡方分布。证明应该与列联表类似,大多数有关对应分析的文献都没有纳入分布理论。包含一些可能与此理论相关的论文是http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0101-74382016000100023。另见/stats//search?q=%22chisquare+distance%22,以获取本网站上的其他一些相关帖子。