Answers:
将其发布给以后遇到我问题的任何人-描述局部离群值因子算法的原始论文“ LOF:识别基于密度的局部离群值”(Breunig等人)建议了一种选择k值的方法。提醒一下,LOF算法会将每个点的密度与其点的密度进行比较。-最近的邻居。该论文的作者建议选择一个最小值 和最大 ,对于每个点,取每个点的最大LOF值 在那个范围内。他们提供了一些选择边界的准则。
对于最小值,LOF值以均匀分布的形式波动点。 ,均匀分布的点有时会显示为离群值,因此他们建议至少 。其次,最低-value是被视为“群集”的对象的最小大小,因此,相对于该群集,点可以是离群值。如果,并且您有一组 点和一点 ,组中的每个点将包括 在其最近的邻居中,以及 将包括这些点,使它们具有非常相似的LOF。因此,如果您要考虑一组附近的点 点作为离群值,而不是该组的一部分,则您的k值至少应为 。
对于最大值,适用类似的条件,因为它应该是群集在一起时要视为离群值的最大对象数。一群 与主集合隔离的对象可以是集群,也可以是 离群值 对于,他们将是第一个;对于,他们将成为第二。
希望这可以帮助任何有类似问题的人。全文在这里,关于最大/最小k值的讨论从第7页开始,直到第9页。(它们指的是-value作为MinPts。)