我已经强调了所有给出的答案,但让我们称呼猫为猫:在许多工作空间中,几乎不可能说服管理层对“异国情调”软件工具(即对他们来说是异国情调)的投资是必要的,更不用说雇用可以设定条件的人了并维护它。我已经告诉很多客户,他们会从雇用具有软件和数据库背景的统计学家那里受益匪浅,但是普遍的回答是“不能做”。
因此,只要这不会发生,您就可以使用Excel进行一些简单的操作,使生活更轻松。首先,这无疑是版本控制。可以在此处找到有关使用Excel进行版本控制的更多信息。
有关使用Excel的一些注意事项
人们经常使用EXCEL,他们喜欢EXCEL的配方功能。但是,这是EXCEL工作表中错误的最重要来源,而就我的经验而言,这也是尝试读取EXCEL文件时出现问题的最重要原因。我拒绝使用包含公式的表。
我还强迫与我一起工作的每个人以纯格式提供EXCEL表格,这意味着:
- 第一行包含不同变量的名称
- 电子表格开始于单元格A1中
- 所有数据都放在列中,没有中断且没有格式。
- 如果可能,数据也将以.csv格式保存。编写一个VBA脚本以提取数据,将其重新格式化并放入.csv文件中并不难。这还可以更好地控制版本,因为您每天都可以对数据进行.csv转储。
如果数据始终具有通用结构,则最好使用基础VB宏开发模板以添加数据并生成数据集进行分析。通常,这可以避免每个员工都想出自己的“天才”数据存储系统,并且可以使用此功能编写代码。
这就是说,如果您可以说服所有人使用SQL(以及用于输入数据的前端),则可以将R直接链接到该SQL。这将大大提高性能。
数据结构与管理
通常,存储在数据库(或EXCEL工作表,如果坚持)中的数据应该是绝对最小值,这意味着可以从其他变量中计算出的任何变量都不应包含在数据库中。请注意,如果计算乏味且耗时较长,有时也可以存储那些派生或转换后的变量,这将是有益的。但是这些应该存储在单独的数据库中,如果有必要链接到原始数据库。
还应该考虑被认为是一种情况(因此是一排)的情况。例如,人们倾向于通过为每个时间点创建一个新变量来产生时间序列。尽管这在EXCEL中是有意义的,但读取这些数据需要对数据矩阵进行一些翻转。比较组时相同:应该有一个组指标和一个响应变量,而不是每个组的响应变量。这样,数据结构也可以标准化。
我经常遇到的最后一件事是使用不同的指标。长度以米或厘米为单位,温度以摄氏度,开尔文或法伦海特为单位,...在任何前端或任何模板中均应指示变量的测量单位。
即使完成了所有这些操作,您仍然希望在实际开始分析之前就有一个数据控制步骤。同样,这可以是每天(例如,隔夜)在新条目上运行的任何脚本,并且可以立即标记问题(超出范围,类型错误,字段丢失等),以便可以尽快对其进行纠正。如果您必须返回两个月前所做的输入,以查找错误和原因,那么最好获得一些好的“ Sherlock技能”来纠正它。
我的2美分