Answers:
对于概率总和为1的概率(比例或份额),家庭封装了该区域中的多个度量建议(索引,系数等)。从而
返回观察到的不同单词的数量,这是最简单的思考方式,无论其忽略概率之间的差异。如果仅作为上下文,这总是有用的。在其他领域,这可能是一个部门中的公司数量,在站点中观察到的物种数量,等等。通常,我们将此称为不同项目的数量。
返回吉尼-图灵-辛普森-赫芬达尔-赫希曼-格林伯格平方概率之和,也称为重复率或纯度或匹配概率或纯合度。它经常被报告为其互补物或互补物,有时以其他名称(例如杂质或杂合性)命名。在这种情况下,是随机选择的两个单词相同的概率,而其补码是两个单词不同的概率。倒数 解释为相等数量的同等常见类别;有时称为等价数字。可以通过注意到相同的常见类别(因此每个概率)暗示因此概率的倒数仅为。选择一个名字最有可能背叛您工作的领域。每个领域都尊重自己的前辈,但我赞扬匹配概率是简单且几乎是自定义的。
返回香农熵,通常用表示,并且已经在先前的答案中直接或间接地发出信号。熵这个名字一直停留在这里,原因很多,但又不是很好,甚至有时会引起物理学上的嫉妒。请注意,是此度量的等效数字,就像用类似的方式指出的那样,相同的常见类别产生,因此会返回。熵具有许多出色的特性。“信息论”是一个很好的搜索词。
该配方可在IJ Good中找到。1953年。物种的种群频率和种群参数的估计。Biometrika 40:237-264。 www.jstor.org/stable/2333344。
根据口味,先例或方便性,对数的其他底数(例如10或2)同样可能,上面的某些公式仅暗示简单的变化。
第二种方法的独立重新发现(或重新发明)在多个学科中是多种多样的,并且上面的名称远未完整。
将家庭中的常规措施结合在一起,不仅在数学上具有吸引力。它强调可以根据对稀有物品和普通物品的相对权重来选择度量,因此可以减少因少量大量明显随意的提案而产生的对装饰品的印象。在某些领域,文学甚至被论文甚至书籍所削弱,这些论断是基于薄弱的主张,即作者偏爱的某种措施是每个人都应该使用的最佳措施。
我的计算表明,示例A和B除了第一个度量标准外没有太大区别:
----------------------------------------------------------------------
| Shannon H exp(H) Simpson 1/Simpson #items
----------+-----------------------------------------------------------
A | 0.656 1.927 0.643 1.556 14
B | 0.684 1.981 0.630 1.588 9
----------------------------------------------------------------------
(有些人可能会注意到,这里命名的辛普森(Edward Hugh Simpson,1922-)与辛普森悖论这个名字所授予的名字相同。他做得很出色,但他并不是第一个发现这两个东西的人他被命名,这就是斯蒂格勒的悖论,反过来....)
我不知道是否有一种通用的方法,但是在我看来,这类似于经济学中的不平等问题。如果您将每个单词视为一个单独的单词,并且将其数量视为可与收入比较的单词,则有兴趣比较单词袋在每个具有相同计数(完全相等)的单词或两个具有所有计数的单词的极值之间的位置其他人都为零 复杂的是“零”不会出现,通常定义的一袋单词中的数字不能少于1。
A的基尼系数为0.18,B的基尼系数为0.43,这表明A比B更“等于”。
library(ineq)
A <- c(3, 2, 2, rep(1, 11))
B <- c(9, 2, rep(1, 7))
Gini(A)
Gini(B)
我也对其他答案感兴趣。显然,老式的计数差异也是一个起点,但是您必须以某种方式对其进行缩放,以使其与不同大小的包装袋可比,因此每个单词的平均计数不同。
本文介绍了语言学家使用的标准分散措施。它们被列为单词散布量度(它们测量单词在各个部分,页面等之间的散布),但可以想象用作词频散布量度。标准的统计数字似乎是:
经典是:
其中是文本中单词的总数,是不同单词的数量,是文本中第i个单词的出现次数。
文本还提到了两种其他的分散度度量,但是它们依赖于单词的空间定位,因此这不适用于单词袋模型。
我首先要做的是计算香农的熵。您可以使用R包infotheo
,函数entropy(X, method="emp")
。如果natstobits(H)
环绕它,您将获得此源的熵(以位为单位)。