我正在开发一些软件,该软件应从多个基于GPS的报告中确定现实世界的位置(高速摄像头)。当报告位置时,用户将在驾驶,因此报告非常不准确。为了解决该问题,我必须对同一位置的报告进行聚类并计算平均值。
我的问题是关于如何将这些报告归类。我阅读了有关期望最大化算法和k均值聚类的信息,但据我了解,我需要提前确定实际位置的数量。
是否有其他算法不需要真正位置的确切数目,而是使用一些边缘条件(最小距离)?
报告包含经度,纬度和精度(以米为单位)。没有名称或其他可用于识别重复项的名称。
另一个障碍可能是这很常见,一个真实位置的报告只有一个。这使得很难将异常数据与正常数据区分开。
1
我不确定当您说“ ...据我所知,我需要提前确定真实位置的数量...”时的意思。假设我正确理解了您的意思,那么算法中就没有内在要求这个。您是否计划基于报告的数量来增加集群组件的数量?
—
帕特
第二个问题:)。如果您的报告来自驾驶的人,那么他们之间的位置可能会发生重大变化。报告是否附带时间戳记以告知您何时获取?
—
帕特
嗨,拍拍 我说的是交通拥堵或高速摄影机,以使其更加清晰。1. k均值聚类中的“ k”代表聚类数。在我的情况下,每个位置都有一个群集,但是我不知道有多少个不同的位置。2.是的,它们还包含一个时间戳。但是我不明白为什么这很重要,因为我只关心这个职位。
—
Christian Strempfer
1.啊,我明白了。因此,您有未知数量的位置,并且每个位置都会生成一个或多个报告。但是,您看到的只是一系列报告。您想根据观察到的报告推断出有多少个位置及其位置。我知道了吗?2.我担心时间戳,因为您说用户在提供报告时会开车。因此,除非连续快速提交报告,或者报告的速度非常低(可能是交通拥堵),否则单个位置看起来就像是路途上的参差不齐的报告行。时间戳可能会在这里提供帮助
—
Pat
1.是的,您已经知道了。2.这是一项手动任务,因此一次旅行中每个用户只能报告一次位置。但是您是对的,当用户无意中单击两次时,我必须处理重复项,并且在快速行驶时报告将不准确。这就是为什么我提到位置之间最小距离的边缘条件。让我们忽略可能会延伸数英里的交通拥堵,并假设位置很小。
—
Christian Strempfer,