我正在研究具有25个功能的虚构数据集。其中两个功能是地点的纬度和经度,其他功能是pH值,海拔高度,windSpeed等变化范围的功能。我可以对其他要素进行归一化,但是如何处理纬度/经度要素?
编辑:这是预测农业产量的问题。我认为纬度/经度非常重要,因为位置在预测中至关重要,因此造成了困境。
您能否阐明为什么不认为可以标准化这些功能?假定它们在数值上与其他特征相同,因此您可以采用均值/标准差?您是否担心对位置之间的距离进行自然测量?如果是这样,数据覆盖的区域是否很小(具有相似的值)还是全局的?
—
尼尔·斯莱特
@NeilSlater就直觉而言,对这些功能进行规范化对我来说没有任何意义。如果标准化,信息不会丢失吗?我有涵盖美国各县的数据集。
—
2016年
您认为哪些信息会丢失?它实际上可能不会丢失,但是如果您在问题中解释担心的是什么,则有人可以回答。我一无所知,无论如何,我都将归一化-对于完全全局值和某些问题(点之间的距离很重要),我可能会根据长/纬度创建3d笛卡尔坐标系特征。
—
尼尔·斯莱特
您在这里有什么问题?您想从数据中找出什么?相关吗?聚类?分类?预测?插值?位置对您的模型有多重要?
—
Spacedman
@Spacedman请参阅编辑。
—
2016年