14
高维数据中的最近邻居?
几天前,我已经问了一个问题,该问题是如何找到给定向量的最近邻居。我的向量现在是21维,在继续下一步之前,因为我既不是机器学习也不是数学领域的专家,所以我开始问自己一些基本问题: 欧几里得距离是一个很好的度量标准,可以用来首先找到最近的邻居?如果没有,我有什么选择? 另外,如何确定用于确定k个邻居的正确阈值?是否可以进行一些分析以找出该值? 以前,有人建议我使用kd-Trees,但Wikipedia页面上明确指出,对于高维,kd-Tree几乎等同于蛮力搜索。在那种情况下,有效地找到一百万个点数据集中的最近邻居的最佳方法是什么? 有人可以澄清上面的一些(或全部)问题吗?