在上一个问题中,我询问了用于编辑CSV文件的工具。
加文 链接到邓肯·默多克(Duncan Murdoch)对R Help的评论, 暗示数据交换格式比CSV是一种更可靠的数据存储方式。
对于某些应用程序,需要专用的数据库管理系统。但是,对于小规模的数据分析项目,更轻量的东西似乎更合适。
考虑以下用于评估文件格式的条件:
- 可靠:输入的数据应与输入的内容保持真实;数据应在不同软件中一致打开;
- 简单:如果文件格式易于理解并且理想情况下可以通过简单的文本编辑器读取,那将是很好的选择;编写简单的程序来读写格式应该很容易。
- open:格式应该是开放的
- 可互操作的:许多系统应支持文件格式
我发现制表符和逗号分隔的值格式无法满足可靠性要求。尽管我想我可以责怪导入和导出程序,而不是文件格式。我经常发现自己不得不对选项进行一些调整,
read.table
以防止某些奇怪的字符破坏数据帧的加载。
问题
- 哪种文件格式最能满足这些需求?
- 数据交换格式是否是更好的选择?还是有自己的问题?
- 还有其他更可取的格式吗?
- 我是否在不公平地评估TSV和CSV?是否有一组简单的技巧来处理此类文件,从而使文件格式更可靠?
write.DIF()
所以恐怕它是一条单向街。