数据处理错误是否已经“纳入”统计分析?


10

好的,合理的警告-这是一个不涉及数字的哲学问题。我一直在思考错误将如何随着时间逐渐潜入数据集中,以及分析人员应如何处理这些错误,或者它是否真的很重要?

就背景而言,我正在一项长期研究中进行分析,该研究涉及大约7-8年内可能由25个人收集的许多数据集-没有人将所有数据整合到一个一致的结构中(这是我的职责)。我一直在进行大量数据输入(从旧实验室笔记本的影印本抄录),并且不断发现其他人犯的小抄录错误,并且发现难以或无法读取的数据条目-主要是因为墨水随着时间的流逝而消失。我正在使用上下文对数据的含义做出“最佳猜测”,如果我不太确定,则将数据完全指出。但是我一直在考虑这样一个事实,每次复制数据时,错误的频率不可避免地会增加,直到原始数据完全丢失为止。

因此,这使我想到:除了仪器/测量错误和记录错误之外,还有一个基本的“数据处理错误”组件会随着时间的推移以及对数据的更多处理而增加(注意:这可能是由于这只是说明热力学第二定律的另一种方式,对吗?数据熵将一直增加)。因此,我想知道是否应该引入某种“校正”来说明数据集的寿命历史(类似于Bonferroni校正)?换句话说,我们是否应该假设较旧或复制较多的数据集的准确性较低;如果是,则应相应地调整发现结果吗?

但是,我的另一种想法是错误是数据收集和数据处理的固有部分,并且既然所有统计测试都是使用真实数据开发的,那么这些错误源可能已经被分析所“价”了吗?

另外,值得一提的另一点是,由于数据错误是随机的,因此降低发现强度的可能性远大于改善发现的强度-换句话说,数据处理错误将导致类型2错误,而不是类型1错误。 。因此,在许多情况下,如果您使用的是旧的/有问题的数据并且仍然发现了一种影响,则可以增加您对这种影响是真实存在的信心(因为它足够强大,可以承受向数据集添加随机误差的影响)。因此,出于这个原因,也许“校正”应该采取另一种方式(增加“查找”所需的Alpha水平),还是不给我们带来麻烦?

无论如何,很抱歉如此冗长和晦涩,我不确定如何更简洁地提出这个问题。感谢您的支持。


7
这是个好问题(+1)。但有一点:将您提到的大多数数据错误视为“随机”可能是一个重大错误。例如,与其他数字相比,在转录过程中,数字“ 0”,“ 5”,“ 6”和“ 8”的互换性往往要多得多(其中一些可能会误读为“。”,反之亦然)。)。此外,通常会快速识别并修复对突出数据值(例如极端值)所做的更改。尽管这些数据损坏过程肯定有机会,但是正确表征它们可能是一个重要问题。
ub

1
您为什么不将数据处理错误视为测量错误的一部分,并进行相应处理?如果要衡量游乐园骑手的人数,我需要部署20人来观察大门,那么我可以考虑将这20人团队作为一种衡量工具
Aksakal 2014年

@whuber,它仍然是随机搭配了8个和5个,虽然它可能不具有相等的概率混淆了5和7
Aksakal

1
@whuber,这是我没想到的一个引人入胜的点(某些类型的转录错误的频率不相等)。您能否将我引向任何来源以了解更多信息?这使我想知道是否可以基于数字频率开发数据质量测试?我听说过基于数字频率对欺诈性/伪造数据进行的类似测试,因此我想如果您提到的趋势一致,那么可能会发生类似的事情。
Jas Max 2014年

@whuber,再想一想。您提到0、5、6、8时常会感到困惑-因为它们看起来很相似?这使我意识到,不同的错误源将具有特征性的替换错误-例如,如果您正在听数据(记录某人的讲话),那么我认为5和9可能会更经常地混淆。如果错误的来源是熵(墨水褪色或电子移动),那么我认为替代将更加随机,但也可能是唯一的。如果这些模式成立,也许您可​​以根据数字频率调查大数据集中的错误源。
Jas Max

Answers:


3

我对@Aksakal的建议表示赞同:如果分析人员认为测量误差潜在重要,则可以并且应该将其明确建模为数据生成过程的一部分。

我看到一些考虑因素与引入基于数据集年龄的通用校正因子相抵触。

首先,年龄可能无法很好地代表数据恶化的程度。显然,重要的因素是复制,压缩和保存技术以及验证正确转录所花费的精力和精力。一些古老的文本(例如《圣经》)已经保存了几个世纪,而且退化程度似乎为零。您的VHS示例虽然合法,但实际上是不寻常的,因为每个复制事件总是会引入错误,并且没有简单的方法来检查和纠正转录错误- 如果人们使用便宜的,广泛使用的技术进行复制和存储。我希望通过投资于更昂贵的系统来大大降低引入错误的程度。

最后一点更笼统:数据保存和传播是经济活动。传输质量在很大程度上取决于部署的资源。这些选择将反过来取决于数据对进行复制和传输的人的重要性。

经济因素也适用于分析师。在进行分析时,总会有更多因素需要考虑。在什么条件下数据转录错误将足够大且足够重要,值得考虑?我的直觉是:这种情况并不常见。此外,如果认为潜在的数据降级足够重要,可以在您的分析中加以解决,那么可能很重要的一点就是要努力对流程进行显式建模,而不是插入通用的“更正”步骤。

最后,无需开发这样的通用校正因子de novo。已经有大量的统计理论和实践可用于分析数据集,对于这些数据集,测量误差被认为是重要的。

总而言之:这是一个有趣的想法。但是我认为这不会刺激分析实践的任何变化。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.