Answers:
在chl的列表中,重点是坦率的数据处理错误,我将添加对更小错误的检查,以解决以下问题(没有特定顺序,当然也不完整):
假设数据库完整性,数据是否合理?它们是否大致符合预期或传统模型,还是会让熟悉类似数据的人感到惊讶?
数据内部是否一致?例如,如果一个字段应该是其他两个字段的总和,是吗?
数据的完整性如何?它们是在数据收集计划阶段指定的吗?是否有未计划的其他数据?如果是这样,他们为什么在那里?
大多数分析都以简约的方式隐式或显式地对数据进行建模,并包括与一般描述有所不同的可能性。每个这样的模型都提出了自己的特殊方法来识别异常值-这些数据与一般描述大相径庭。是否在探索和分析的每个阶段都试图识别和理解异常值?
在许多情况下,分析人员有可能将其他数据引入分析中以进行质量检查和洞察。例如,自然科学,社会科学以及商业领域的许多数据集都包含(至少是隐式的)位置信息:人口普查区域的标识符;国家,州,县的名称;客户邮政编码;等等。即使(也许尤其是)空间相关性不是EDA或建模的要素,分析人员也可以将数据与位置的地理表示结合起来,并映射它们以查找模式和异常值。
可能渗入分析的最隐蔽的错误之一是数据丢失。在提取字段,汇总数据,重新格式化数据集等时,如果从大型数据集中删除一项或两项,则通常没有任何标记。但是有时候,重要的东西一旦被发现,就会变得非常尴尬。为了防止此类情况,需要例行进行简单的检查(例如比较计数前和计数后以及数据总数)。
另一个潜在的错误与数字计算中的类型转换有关。例如,最近我不得不从浮点字段构造一个键(用于匹配两个数据文件)。该软件(Stata)将字段作为一个精度浮点数导入到一个文件中,但由于某种原因,作为另一个精度浮点数导入了另一个文件中。在大多数情况下,值都匹配,但在某些情况下,由于舍入不同,它们不匹配。结果丢失了一些数据。我仅由于(6)的应用才抓住了这一点。通常,需要检查字段数据类型的一致性:整数与浮点数,字符串长度等。
如果在任何分析阶段都使用过电子表格,请预料最糟糕的情况。问题在于,即使是有误的按键也可能会无形地破坏数据。当结果很关键时,需要不断地往返(导出到电子表格,进行分析,导入并系统地进行比较)以确保没有发生任何不良事件。
每当更新数据库时,都值得暂停并与旧数据库进行系统的完整比较,以确保在此过程中不会丢失,更改或损坏任何数据库。
在较高的级别上,无论何时执行估算(例如回归,PCA等),都可能值得使用另一种技术来执行,以检查代码中的敏感性甚至错误。例如,通过某种形式的稳健回归来遵循OLS回归并比较系数。对于重要的结果,使用两个(或更多)不同的软件平台来获得答案可能会令人感到安慰。
任何人都可以执行的最好的常规“一致性检查”可能是尽早绘制所有图形。
我想这与某种形式的有关数据完整性的质量控制有关,更具体地说,您要定期检查工作数据库是否未损坏(由于在传输,复制或进行更新或完整性检查后出错)。这也可能意味着确保对您的中间计算进行了双重检查(手动检查或通过统计软件中的其他代码或宏进行检查)。
其他信息可以在这里找到:ICH E6(R1)参考指南,关于EMEA的良好临床实践指南,良好临床实验室实践指南或临床研究研究者工具箱。
增加其他优点
使用Excel时,我总是将案例编号作为每一行的第一列,然后将其复制到最后一列。Excel似乎很高兴一次仅排序几列,如果您不小心选择所有列,则会引起混乱。您甚至可能不知道发生了这种情况。能够检查行的第一列和最后一列中的案例编号是否一致是一种有用的预防措施。
我总是回顾异常值。
建议关键人员分开输入两次数据。
从纸质文档输入数据时,最好使用引用标识符以能够参考返回条目所依据的确切文档和行,数据条目表格的编号对此有帮助。
编辑-另一个项目-我知道编辑电子表格会遇到很多问题,但是使用它们清理数据输入要容易得多。但是,我也保留了未经编辑的原始版本,以便可以验证所有更改或在最坏的情况下恢复所有更改。