处理经度/纬度特征的方法


19

我正在研究具有25个功能的虚构数据集。其中两个功能是地点的纬度和经度,其他功能是pH值,海拔高度,windSpeed等变化范围的功能。我可以对其他要素进行归一化,但是如何处理纬度/经度要素?

编辑:这是预测农业产量的问题。我认为纬度/经度非常重要,因为位置在预测中至关重要,因此造成了困境。


您能否阐明为什么不认为可以标准化这些功能?假定它们在数值上与其他特征相同,因此您可以采用均值/标准差?您是否担心对位置之间的距离进行自然测量?如果是这样,数据覆盖的区域是否很小(具有相似的值)还是全局的?
尼尔·斯莱特

@NeilSlater就直觉而言,对这些功能进行规范化对我来说没有任何意义。如果标准化,信息不会丢失吗?我有涵盖美国各县的数据集。
2016年

您认为哪些信息会丢失?它实际上可能不会丢失,但是如果您在问题中解释担心的是什么,则有人可以回答。我一无所知,无论如何,我都将归一化-对于完全全局值和某些问题(点之间的距离很重要),我可能会根据长/纬度创建3d笛卡尔坐标系特征。
尼尔·斯莱特

您在这里有什么问题?您想从数据中找出什么?相关吗?聚类?分类?预测?插值?位置对您的模型有多重要?
Spacedman

@Spacedman请参阅编辑。
2016年

Answers:


24

长时坐标存在一个问题,即它们是代表三维空间的2个要素。这意味着长坐标无处不在,这意味着两个最极端的值实际上非常接近。我已经处理了几次这个问题,在这种情况下我要做的就是将它们映射到x,y和z坐标。这意味着这三个维度上的闭合点实际上也是接近的。根据使用情况,您可以忽略高度的变化并将其映射为一个完美的球体。然后可以正确地标准化这些功能。

澄清(从评论中总结):

x = cos(lat) * cos(lon)
y = cos(lat) * sin(lon), 
z = sin(lat) 

1
那很有趣。谢谢!您能否确认这些是否是转换公式?x = R * cos(lat)* cos(lon),y = R * cos(lat)* sin(lon),z = R * sin(lat)
AllThingsScience

我目前无法访问我的代码,但看起来不错。您不需要R,因为无论如何您都将标准化;)
Jan van der Vegt

完善!谢谢。
AllThingsScience
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.