处理具有可变数量特征的数据集


14

对具有可变数量特征的数据进行分类的方法有哪些?

例如,考虑一个问题,其中每个数据点都是x和y点的向量,而每个实例的点数不相同。我们可以将每对x和y点视为一个特征吗?还是应该以某种方式总结这些点,以便每个数据点都具有固定数量的功能?


7
给定点的存在与否有助于数据分类吗?
jonsca'2

Answers:


5

您可以将这些要点视为缺失---即。让我们假设向量最多具有20(x,y)对,而特定点具有5(x,y)对,在这种情况下,将其余的对视为缺失,然后对缺失的参数应用标准过程:

这些标准程序可能是:

  • 使用可以自然方式处理缺失参数的模型,例如决策树模型应该能够解决该问题。
  • 用相应列的平均值替换missing。
  • 使用一些简单的模型来“预测”缺失值。

但是就像@jonsca points一样,如果缺少给定点有助于数据分类,您应该例如建立几个模型,每个模型都以特定数量的点来建模实例。


10

根据我对您问题的理解,数据中的点是可以互换的,并且没有任何顺序,即每个示例都有一组点。此设置不同于jb的“缺少值”设置。描述。

我知道有关此问题的两种常用方法,它们实际上是基于您的想法的。一个好的基准可能只是对一个示例中的所有点求平均,但这通常效果不佳。

  • 为了将多个点聚合到单个要素中,非常经常使用词袋(或要素袋)表示形式,例如在计算机视觉中。这个想法是将训练集中的所有点聚类(例如使用k-means),然后通过其聚类描述每个点。对于每个示例,您都会获得一个直方图,该图显示群集发生的频率。

  • 要使用所有成对的点,可以使用集合内核。这可能最适合使用SVM,但也可能适用于任何可被内核化或利用输入之间的兼容功能的学习算法。集内核基本上是一种计算两组要素相似度的方法,就像在您的设置中一样。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.