GPS坐标(纬度和经度)可以用作线性模型的特征吗?


10

我的数据集包含许多功能,其中包括GPS坐标(纬度和经度)。我想使用这些数据集来探讨以下问题:(1)计算ETA以在起点和终点之间行驶;(2)估算特定点的犯罪数量。

我想使用线性回归模型。但是,我可以直接在线性模型中使用这些GPS坐标吗?

纬度和经度不具有序数属性,例如与人的年龄无关。例如,两个点(40.805996,-96.681473)和(41.226682,-95.986587)似乎没有任何有意义的排序。它们只是空间中的点。我当时想用分类的美国邮政编码替换它们,然后进行一键编码,但这会导致很多变量。


1
您是否必须直接使用它们?您是否听说过分区工具,例如S. Openshaw的AZP算法?如果区域相对一致,您甚至可以手动将地图中的区域划分为单独的区域/区域。
Mephy

@Mephy:那意味着我会将纬度/经度转换为区域,对吗?但是然后,我将拥有成百上千个分类区域,就像邮政编码一样。我必须全部编码一次。
stackoverflowuser2010

当然,这取决于您如何切割区域。如果选择“赤道线以南/赤道线以北”,则只有两个。许多分区算法都有一些超参数来定义数量,例如区域数或最小区域大小。
Mephy

我有同样的问题。我想预测一个人的立场。我已经对训练数据中的所有地理位置特征进行了地理隐藏。之后,使用LabelDecoder转换分类位置特征。最后,结果是可怕的。处理空间预测有什么好主意吗?
berisfu '18

Answers:


5

您不能直接使用它们,因为除非您要预测某人的“东或北距离”,否则不可能存在真正的线性关系。如评论中所述,您需要将它们转换为区域。如果要使其保持非常简单,可以使用具有少量潜在簇的kNN簇算法,然后为每个实例分配一个具有簇ID的新功能,然后对其进行一次编码。

您可能还想了解人们如何插值坐标以预测整个地图上的值。第一个示例是温度站,但您也可以想象它是犯罪的“热区”。

DOCS


2

您可以做任何您想做的事,但是除非您的模型预测温度或时差,否则我无法提出仅依赖于坐标的任何其他目标变量。

您可能想做的是使用外部数据源,并使用“国家/地区” /“邮政编码” /“气候” /其他地理特征来丰富您的数据,这将有助于您的模型发挥作用。


0

GPS坐标可以直接转换为geohash。Geohash根据位数将地球分为大小不同的“存储桶”(较短的Geohash代码创建较大的区域,较长的代码创建较小的区域)。

geohash是一个单一数字,可以用作模型中的特征。

Geohash仅适用于整个世界,邮政编码不适用。


geohasher的输出是字符串,而不是单个数字,对吗?而且,如果geohash是字符串,那么我必须对其进行一键编码,这将导致很多变量,就像使用一键编码的邮政编码一样。
stackoverflowuser2010

一个geohash是单个数字,以32为底进行编码。没有理由进行1-hot编码。选择精度等级并使用相关的数字位数。
Brian Spiering

我只看到了geohashes的字符串表示形式。但是,即使将地理哈希表表示为long int,它们之间是否存在用于线性模型的线性关系?这正是我最初的问题的重点。
stackoverflowuser2010

geohashes之间的关系是复杂的略- en.wikipedia.org/wiki/Geohash#Design
布莱恩Spiering

1
除线性编码和一键编码外,特征工程还有很多方法。例如,内核技巧或Helmert转换。
Brian Spiering
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.