10
编辑逗号分隔值(CSV)文件的策略
在进行数据分析项目时,我经常将数据存储在逗号或制表符分隔(CSV,TSV)数据文件中。虽然数据通常属于专用的数据库管理系统。对于我的许多应用程序来说,这会做得过多。 我可以在Excel(或大概是其他电子表格程序)中编辑CSV和TSV文件。这样有好处: 电子表格可轻松输入数据 还有几个问题: 使用CSV和TSV文件会导致许多警告消息,提示丢失各种功能以及仅保存活动工作表的方式等等。因此,如果您只想打开文件并进行一些更改,则很烦人。 它执行许多“理应智能”的转换。例如,如果输入12/3,它将认为您要输入日期。 更新:我应该提到日期示例只是许多示例之一;大多数问题似乎与不当转换有关。特别是,看起来像数字或日期的文本字段会引起问题。 另外,我可以在标准文本编辑器中直接使用文本文件。这样可以确保我输入的是记录的内容。但是,这是输入数据的一种非常尴尬的方式(列不对齐;仅将数据输入到多个单元格中很难;等等)。 题 使用CSV或TSV数据文件的最佳策略是什么?也就是说,什么策略可以使输入和操作数据变得容易,同时又确保您输入的内容得到了正确的解释?