Answers:
根据我对您问题的理解,数据中的点是可以互换的,并且没有任何顺序,即每个示例都有一组点。此设置不同于jb的“缺少值”设置。描述。
我知道有关此问题的两种常用方法,它们实际上是基于您的想法的。一个好的基准可能只是对一个示例中的所有点求平均,但这通常效果不佳。
为了将多个点聚合到单个要素中,非常经常使用词袋(或要素袋)表示形式,例如在计算机视觉中。这个想法是将训练集中的所有点聚类(例如使用k-means),然后通过其聚类描述每个点。对于每个示例,您都会获得一个直方图,该图显示群集发生的频率。
要使用所有成对的点,可以使用集合内核。这可能最适合使用SVM,但也可能适用于任何可被内核化或利用输入之间的兼容功能的学习算法。集内核基本上是一种计算两组要素相似度的方法,就像在您的设置中一样。