“ A”与“ B”和“ C”有关。在这种情况下,我如何证明“ B”和“ C”也可能相关?
例:
以下是有关百老汇最近一部戏剧的一些头条新闻:
- 大卫·马梅特(David Mamet)的格伦加里(Glengarry)格伦·罗斯(Glen Ross),由阿尔·帕西诺(Al Pacino)主演,在百老汇开幕
- Al Pacino在“ Glengarry Glen Ross”中:评论家们怎么看?
- 阿尔·帕西诺(Al Pacino)在百老汇(Broadway turn)赢得了平淡的评论
- 剧院评论:Glengarry Glen Ross正在努力推销明星
- Glengarry Glen Ross;嘿,谁杀死了Klieg灯?
问题:
对这些记录进行模糊字符串匹配将建立一些关系,但不会建立其他关系,即使人类读者可以从更大的数据集中从上下文中选择它们。
我如何找到暗示#3与#4相关的关系?它们都可以很容易地连接到#1,但不能互相连接。
这种数据或结构是否有(可查询的)名称?我在寻找哪种算法?
目标:
给定1,000个标题,系统会自动提示这5个项目可能都是同一件事。
老实说,我编写程序已经很久了,我不知如何正确表达这个问题。(如果有道理,我不知道不知道)。
这是一个个人项目,我正在用Python编写它。在此先感谢您的任何帮助,建议和指示!