假设一组由许多数据源组成的结构松散的数据(例如Web表/链接的打开数据)。数据后面没有通用的模式,每个数据源都可以使用同义词属性来描述值(例如“国籍”与“ bornIn”)。
我的目标是找到一些“重要”属性,以某种方式“定义”它们描述的实体。因此,当我为这样的属性找到相同的值时,我将知道这两个描述很可能是关于同一实体(例如同一个人)的。
例如,属性“ lastName”比属性“国籍”更具区分性。
我怎样才能(统计地)找到比其他更重要的属性?
一个简单的解决方案是获取每个属性值的平均IDF,并将其作为属性的“重要性”因素。一种类似的方法是计算每个属性出现多少个不同的值。
我已经在机器学习中看到了术语“特征”或“属性选择”,但是我不想丢弃其余的属性,我只是想给最重要的属性赋予更高的权重。