Questions tagged «numerical»

6
将诸如月份和小时之类的功能编码为分类或数字?
在机器学习模型中将诸如月份和小时之类的特征编码为因子或数字更好吗? 一方面,我认为数字编码可能是合理的,因为时间是向前发展的过程(第五个月紧随其后的是第六个月),但另一方面,我认为由于周期性的原因,分类编码可能更合理年和天(第12个月后跟着第一个月)。 是否有通用的解决方案或约定?

3
如何动态区分类别数据和数字数据?
我知道有人正在从事一个项目,该项目涉及摄取数据文件而与列或数据类型无关。任务是获取具有任意数量的列和各种数据类型的文件,并输出有关数字数据的摘要统计信息。 但是,他不确定如何为某些基于数字的数据动态分配数据类型。例如: CITY Albuquerque Boston Chicago 这显然不是数字数据,将存储为文本。然而, ZIP 80221 60653 25525 没有明确标记为分类。他的软件会将邮政编码分配为数字,并为其输出摘要统计信息,这对于此类数据没有意义。 我们有几个想法是: 如果一列都是整数,则将其标记为分类。这显然行不通,但这是一个主意。 如果一列的唯一值少于n个且为数字,则将其分类。这可能更接近,但是仍然可能存在数值数据丢失的问题。 维护一个实际上应该是分类的公用数字数据列表,并将列标题与此列表进行比较以进行匹配。例如,任何带有“ ZIP”的内容都是分类的。 我的直觉告诉我,无法准确地将数字数据分配为分类数据或数字数据,但我希望提出建议。非常感谢您提供的任何见解。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.