摘要
我在详细信息部分分享我的想法。我认为它们对于确定我们真正想要实现的目标很有用。
我认为这里的主要问题是您尚未定义等级相似性的含义。因此,没有人知道哪种度量等级之间的差异的方法更好。
有效地,这使我们可以基于猜测来模棱两可地选择一种方法。
我真正建议的是首先定义数学优化目标。只有这样,我们才能确定我们是否真的知道自己想要什么。
除非我们这样做,否则真的不知道我们想要什么。我们可能几乎知道我们想要什么,但几乎知道 知道。≠
我在“ 详细信息 ”中的文字本质上是朝着达到等级相似性的数学定义迈出的一步。一旦确定了这一点,我们就可以自信地前进,选择衡量这种相似性的最佳方法。
细节
根据您的评论之一:
- “ 目的是看两组的排名是否不同 ”,彼得·弗洛姆(Peter Flom)。
在严格解释目标的同时要回答此问题:
- 行列是如果不同,任何项目,存在使得,其中是项目的秩通过组和是同一项目的等级,但是按组。我一个我 ≠ b 我一个我我一个b 我 b我∈ { 1 ,2 ,... ,25 }一世一种一世≠ b一世一种一世一世abib
- 否则,队伍没有不同。
但是我不认为您真的想要这种严格的解释。因此,我认为您真正要说的是:
这里的一种解决方案是简单地测量最小编辑距离。即,在组的已排序列表上需要进行的最小编辑数量是多少,以使其与组相同。bab
编辑可以定义为交换两个项目,成本为分,这取决于需要多少跳。因此,如果需要将项目与项目交换(为了在组和之间获得相同的排名),那么此编辑的成本为。1 3 a b 3n13ab3
但是这种方法合适吗?为了回答这个问题,让我们更深入地看一下:
它没有规范化。如果说,基团的行列之间的距离是,而基团的行列之间的距离为,这并不一定意味着比更相似彼此是彼此之间(这也可能意味着排名的项目要大得多)。3 Ç ,d 123 一个,b Ç ,d Ç ,da,b3c,d123a,bc,dc,d
假定每次编辑的成本相对于跳数是线性的。这对于我们的应用程序域是正确的吗?难道是一个逻辑关系更适合?还是指数的?
它假定所有项目都同等重要。例如,对排名项目(说)的分歧与对排名项目(说)的分歧相同。在您的域中这是真的吗?例如,如果我们要对书籍进行排名,那么对TAOCP之类的著名书籍的排名是否持不同意见,而对诸如TAOUP之类的可怕书籍的排名则持不同意见是否同样重要?515
一旦解决了以上问题,并达到了两个等级之间相似度的合适衡量标准,我们将需要提出更有趣的问题,例如:
- 什么是观察这种差异,或者更极端差异的可能性,如果两组之间的差异和只是由于随机的机会?bab
the best ways to compare these rankings
- 什么,你想类型差异体重的2组的知道吗?