我知道有人正在从事一个项目,该项目涉及摄取数据文件而与列或数据类型无关。任务是获取具有任意数量的列和各种数据类型的文件,并输出有关数字数据的摘要统计信息。
但是,他不确定如何为某些基于数字的数据动态分配数据类型。例如:
CITY
Albuquerque
Boston
Chicago
这显然不是数字数据,将存储为文本。然而,
ZIP
80221
60653
25525
没有明确标记为分类。他的软件会将邮政编码分配为数字,并为其输出摘要统计信息,这对于此类数据没有意义。
我们有几个想法是:
- 如果一列都是整数,则将其标记为分类。这显然行不通,但这是一个主意。
- 如果一列的唯一值少于n个且为数字,则将其分类。这可能更接近,但是仍然可能存在数值数据丢失的问题。
- 维护一个实际上应该是分类的公用数字数据列表,并将列标题与此列表进行比较以进行匹配。例如,任何带有“ ZIP”的内容都是分类的。
我的直觉告诉我,无法准确地将数字数据分配为分类数据或数字数据,但我希望提出建议。非常感谢您提供的任何见解。