如何测量词频数据中的离散度?


10

如何量化字数向量中的离散量?我正在寻找一种统计数据,该统计数据对于文档A而言会很高,因为它包含许多不经常出现的单词,而对于文档B而言却很低,因为它包含一个经常出现的单词(或几个单词)。

更一般而言,如何测量名义数据中的离散或“扩散”?

文本分析社区中是否有标准的方法?

在此处输入图片说明

在此处输入图片说明

Answers:


10

对于概率总和为1的概率(比例或份额),家庭封装了该区域中的多个度量建议(索引,系数等)。从而pipia[ln(1/pi)]b

  1. a=0,b=0返回观察到的不同单词的数量,这是最简单的思考方式,无论其忽略概率之间的差异。如果仅作为上下文,这总是有用的。在其他领域,这可能是一个部门中的公司数量,在站点中观察到的物种数量,等等。通常,我们将此称为不同项目数量

  2. a=2,b=0返回吉尼-图灵-辛普森-赫芬达尔-赫希曼-格林伯格平方概率之和,也称为重复率或纯度或匹配概率或纯合度。它经常被报告为其互补物或互补物,有时以其他名称(例如杂质或杂合性)命名。在这种情况下,是随机选择的两个单词相同的概率,而其补码是两个单词不同的概率。倒数 解释为相等数量的同等常见类别;有时称为等价数字。可以通过注意到相同的常见类别(因此每个概率1pi21/pi2k1/k)暗示因此概率的倒数仅为。选择一个名字最有可能背叛您工作的领域。每个领域都尊重自己的前辈,但我赞扬匹配概率是简单且几乎是自定义的。pi2=k(1/k)2=1/kk

  3. a=1,b=1返回香农熵,通常用表示,并且已经在先前的答案中直接或间接地发出信号。这个名字一直停留在这里,原因很多,但又不是很好,甚至有时会引起物理学上的嫉妒。请注意,是此度量的等效数字,就像用类似的方式指出的那样,相同的常见类别产生,因此会返回。熵具有许多出色的特性。“信息论”是一个很好的搜索词。Hexp(H)kH=k(1/k)ln[1/(1/k)]=lnkexp(H)=exp(lnk)k

该配方可在IJ Good中找到。1953年。物种的种群频率和种群参数的估计。Biometrika 40:237-264。 www.jstor.org/stable/2333344

根据口味,先例或方便性,对数的其他底数(例如10或2)同样可能,上面的某些公式仅暗示简单的变化。

第二种方法的独立重新发现(或重新发明)在多个学科中是多种多样的,并且上面的名称远未完整。

将家庭中的常规措施结合在一起,不仅在数学上具有吸引力。它强调可以根据对稀有物品和普通物品的相对权重来选择度量,因此可以减少因少量大量明显随意的提案而产生的对装饰品的印象。在某些领域,文学甚至被论文甚至书籍所削弱,这些论断是基于薄弱的主张,即作者偏爱的某种措施是每个人都应该使用的最佳措施。

我的计算表明,示例A和B除了第一个度量标准外没有太大区别:

----------------------------------------------------------------------
          |  Shannon H      exp(H)     Simpson   1/Simpson      #items
----------+-----------------------------------------------------------
        A |      0.656       1.927       0.643       1.556          14
        B |      0.684       1.981       0.630       1.588           9 
----------------------------------------------------------------------

(有些人可能会注意到,这里命名的辛普森(Edward Hugh Simpson,1922-)与辛普森悖论这个名字所授予的名字相同。他做得很出色,但他并不是第一个发现这两个东西的人他被命名,这就是斯蒂格勒的悖论,反过来....)


这是一个绝妙的答案(比1953年的好论文要容易得多;))。谢谢!
分贝”

7

我不知道是否有一种通用的方法,但是在我看来,这类似于经济学中的不平等问题。如果您将每个单词视为一个单独的单词,并且将其数量视为可与收入比较的单词,则有兴趣比较单词袋在每个具有相同计数(完全相等)的单词或两个具有所有计数的单词的极值之间的位置其他人都为零 复杂的是“零”不会出现,通常定义的一袋单词中的数字不能少于1。

A的基尼系数为0.18,B的基尼系数为0.43,这表明A比B更“等于”。

library(ineq)

A <- c(3, 2, 2, rep(1, 11))
B <- c(9, 2, rep(1, 7))
Gini(A)
Gini(B)

我也对其他答案感兴趣。显然,老式的计数差异也是一个起点,但是您必须以某种方式对其进行缩放,以使其与不同大小的包装袋可比,因此每个单词的平均计数不同。


打个招呼-基尼系数也是我的第一个想法!不过,在Google Scholar搜索中,我找不到将其与文本数据一起使用的很多先例。我想知道NLP /文本检索社区是否对这种事情有更标准的衡量标准……
dB'18年

当心:据我估计,基尼至少已被命名为三种不同的度量。在每种情况下,历史都是可以辩护的,但是人们需要查看所使用的公式。
尼克·考克斯

1
好点@NickCox-我正在考虑用于不平等的这一点,我认为这是最常见的用法:ellisp.github.io/blog/2017/08/05/weighted-gini我见过不同的方法在这种情况下,估算/计算它,但所有描述都具有相同的基本定义。我知道机器学习的人会用它来做一些不同的事情,但是还没有看到他们的借口……
Peter Ellis

1
@Db”我发现这个文件在文本应用程序中使用基尼系数:proceedings.mlr.press/v10/sanasam10a/sanasam10a.pdf (我喜欢这个答案的接受一个,只是因为它区分你A的最好的工作, B!)
达伦·库克

5

本文介绍了语言学家使用的标准分散措施。它们被列为单词散布量度(它们测量单词在各个部分,页面等之间的散布),但可以想象用作词频散布量度。标准的统计数字似乎是:

  1. 最大-最小
  2. 标准偏差
  3. 变异系数CV
  4. 卡方χ2

经典是:

  1. 贾拉德D=1CVn1
  2. Rosengren的S=N(i=1nni)2n
  3. Carroll的D2=(log2Ni=1nnilog2niN)/log2(n)
  4. Lyne的D3=1χ24N

其中是文本中单词的总数,是不同单词的数量,是文本中第i个单词的出现次数。Nnni

文本还提到了两种其他的分散度度量,但是它们依赖于单词的空间定位,因此这不适用于单词袋模型。

  • 注意:我更改了文章的原始表示法,以使公式与标准表示法更加一致。

您能定义和吗?我怀疑它们是或已经定义好的符号。fxi
尼克·考克斯

有趣且非常广泛,但这是单个单词分散的度量。它们与单个单词在不同文本中的频率的变化有关(而不是单个文本中不同单词的频率)。这种差异应予以澄清。vi
Sextus Empiricus

1
为什么源代码中的方程式没有被完全复制(这不仅是表达式中标签的更改,而且还是表达式的更改,或者至少不是标签/变量的一致更改)?
Sextus Empiricus

@NickCox感谢您理解这一点,我更正了公式以仅包括定义的数量。
克里斯诺瓦克

@MartijnWeterings是正确的,尽管本文似乎只概括了单词频率,但本文最初只涉及单词离散度度量。以防万一我在答案中包含了该信息。我更改了原始符号,使它们适用于单词模型包(用N替换f并用n_i替换v_i)。我添加了一个注释来表示这一点,但是如果您认为它仍然令人误解,则可以在答案中提供更长的理由。
克里斯诺瓦克


3

可以使用的相等性的一种可能度量方法是缩放的Shannon熵。如果您有一个比例矢量则此度量由下式给出:p(p1,...,pn)

H¯(p)pilnpilnn.

这是一个标度度量,范围为,其极值出现在相等或不相等的极值处。香农熵是信息的量度,而缩放版本允许对具有不同类别数量的案例进行比较。0H¯(p)1

  • 极度不平等:所有计数都在类中。在这种情况下,我们有,这使我们。kpi=I(i=k)H¯(p)=0

  • 极端平等:所有类别的所有计数均相等。在这种情况下,我们有,这使我们。pi=1/nH¯(p)=1

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.