数据处理错误是否已经“纳入”统计分析？

好的，合理的警告-这是一个不涉及数字的哲学问题。我一直在思考错误将如何随着时间逐渐潜入数据集中，以及分析人员应如何处理这些错误，或者它是否真的很重要？

就背景而言，我正在一项长期研究中进行分析，该研究涉及大约7-8年内可能由25个人收集的许多数据集-没有人将所有数据整合到一个一致的结构中（这是我的职责）。我一直在进行大量数据输入（从旧实验室笔记本的影印本抄录），并且不断发现其他人犯的小抄录错误，并且发现难以或无法读取的数据条目-主要是因为墨水随着时间的流逝而消失。我正在使用上下文对数据的含义做出“最佳猜测”，如果我不太确定，则将数据完全指出。但是我一直在考虑这样一个事实，每次复制数据时，错误的频率不可避免地会增加，直到原始数据完全丢失为止。

因此，这使我想到：除了仪器/测量错误和记录错误之外，还有一个基本的“数据处理错误”组件会随着时间的推移以及对数据的更多处理而增加（注意：这可能是由于这只是说明热力学第二定律的另一种方式，对吗？数据熵将一直增加）。因此，我想知道是否应该引入某种“校正”来说明数据集的寿命历史（类似于Bonferroni校正）？换句话说，我们是否应该假设较旧或复制较多的数据集的准确性较低；如果是，则应相应地调整发现结果吗？

但是，我的另一种想法是错误是数据收集和数据处理的固有部分，并且既然所有统计测试都是使用真实数据开发的，那么这些错误源可能已经被分析所“价”了吗？

另外，值得一提的另一点是，由于数据错误是随机的，因此降低发现强度的可能性远大于改善发现的强度-换句话说，数据处理错误将导致类型2错误，而不是类型1错误。。因此，在许多情况下，如果您使用的是旧的/有问题的数据并且仍然发现了一种影响，则可以增加您对这种影响是真实存在的信心（因为它足够强大，可以承受向数据集添加随机误差的影响）。因此，出于这个原因，也许“校正”应该采取另一种方式（增加“查找”所需的Alpha水平），还是不给我们带来麻烦？

无论如何，很抱歉如此冗长和晦涩，我不确定如何更简洁地提出这个问题。感谢您的支持。

dataset error

— 贾斯·麦克斯（Jas Max）
source

这是个好问题（+1）。但有一点：将您提到的大多数数据错误视为“随机”可能是一个重大错误。例如，与其他数字相比，在转录过程中，数字“ 0”，“ 5”，“ 6”和“ 8”的互换性往往要多得多（其中一些可能会误读为“。”，反之亦然）。）。此外，通常会快速识别并修复对突出数据值（例如极端值）所做的更改。尽管这些数据损坏过程肯定有机会，但是正确表征它们可能是一个重要问题。

— ub

您为什么不将数据处理错误视为测量错误的一部分，并进行相应处理？如果要衡量游乐园骑手的人数，我需要部署20人来观察大门，那么我可以考虑将这20人团队作为一种衡量工具

— Aksakal 2014年

@whuber，它仍然是随机搭配了8个和5个，虽然它可能不具有相等的概率混淆了5和7

— Aksakal

@whuber，这是我没想到的一个引人入胜的点（某些类型的转录错误的频率不相等）。您能否将我引向任何来源以了解更多信息？这使我想知道是否可以基于数字频率开发数据质量测试？我听说过基于数字频率对欺诈性/伪造数据进行的类似测试，因此我想如果您提到的趋势一致，那么可能会发生类似的事情。

— Jas Max 2014年

@whuber，再想一想。您提到0、5、6、8时常会感到困惑-因为它们看起来很相似？这使我意识到，不同的错误源将具有特征性的替换错误-例如，如果您正在听数据（记录某人的讲话），那么我认为5和9可能会更经常地混淆。如果错误的来源是熵（墨水褪色或电子移动），那么我认为替代将更加随机，但也可能是唯一的。如果这些模式成立，也许您可以根据数字频率调查大数据集中的错误源。

— Jas Max

我对@Aksakal的建议表示赞同：如果分析人员认为测量误差潜在重要，则可以并且应该将其明确建模为数据生成过程的一部分。

我看到一些考虑因素与引入基于数据集年龄的通用校正因子相抵触。

首先，年龄可能无法很好地代表数据恶化的程度。显然，重要的因素是复制，压缩和保存技术以及验证正确转录所花费的精力和精力。一些古老的文本（例如《圣经》）已经保存了几个世纪，而且退化程度似乎为零。您的VHS示例虽然合法，但实际上是不寻常的，因为每个复制事件总是会引入错误，并且没有简单的方法来检查和纠正转录错误- 如果人们使用便宜的，广泛使用的技术进行复制和存储。我希望通过投资于更昂贵的系统来大大降低引入错误的程度。

最后一点更笼统：数据保存和传播是经济活动。传输质量在很大程度上取决于部署的资源。这些选择将反过来取决于数据对进行复制和传输的人的重要性。

经济因素也适用于分析师。在进行分析时，总会有更多因素需要考虑。在什么条件下数据转录错误将足够大且足够重要，值得考虑？我的直觉是：这种情况并不常见。此外，如果认为潜在的数据降级足够重要，可以在您的分析中加以解决，那么可能很重要的一点就是要努力对流程进行显式建模，而不是插入通用的“更正”步骤。

最后，无需开发这样的通用校正因子de novo。已经有大量的统计理论和实践可用于分析数据集，对于这些数据集，测量误差被认为是重要的。

总而言之：这是一个有趣的想法。但是我认为这不会刺激分析实践的任何变化。

— 亚瑟·小
source