好的,合理的警告-这是一个不涉及数字的哲学问题。我一直在思考错误将如何随着时间逐渐潜入数据集中,以及分析人员应如何处理这些错误,或者它是否真的很重要?
就背景而言,我正在一项长期研究中进行分析,该研究涉及大约7-8年内可能由25个人收集的许多数据集-没有人将所有数据整合到一个一致的结构中(这是我的职责)。我一直在进行大量数据输入(从旧实验室笔记本的影印本抄录),并且不断发现其他人犯的小抄录错误,并且发现难以或无法读取的数据条目-主要是因为墨水随着时间的流逝而消失。我正在使用上下文对数据的含义做出“最佳猜测”,如果我不太确定,则将数据完全指出。但是我一直在考虑这样一个事实,每次复制数据时,错误的频率不可避免地会增加,直到原始数据完全丢失为止。
因此,这使我想到:除了仪器/测量错误和记录错误之外,还有一个基本的“数据处理错误”组件会随着时间的推移以及对数据的更多处理而增加(注意:这可能是由于这只是说明热力学第二定律的另一种方式,对吗?数据熵将一直增加)。因此,我想知道是否应该引入某种“校正”来说明数据集的寿命历史(类似于Bonferroni校正)?换句话说,我们是否应该假设较旧或复制较多的数据集的准确性较低;如果是,则应相应地调整发现结果吗?
但是,我的另一种想法是错误是数据收集和数据处理的固有部分,并且既然所有统计测试都是使用真实数据开发的,那么这些错误源可能已经被分析所“价”了吗?
另外,值得一提的另一点是,由于数据错误是随机的,因此降低发现强度的可能性远大于改善发现的强度-换句话说,数据处理错误将导致类型2错误,而不是类型1错误。 。因此,在许多情况下,如果您使用的是旧的/有问题的数据并且仍然发现了一种影响,则可以增加您对这种影响是真实存在的信心(因为它足够强大,可以承受向数据集添加随机误差的影响)。因此,出于这个原因,也许“校正”应该采取另一种方式(增加“查找”所需的Alpha水平),还是不给我们带来麻烦?
无论如何,很抱歉如此冗长和晦涩,我不确定如何更简洁地提出这个问题。感谢您的支持。