我遇到了以下问题,我很典型地进行侦察。
我有一些大数据,例如几百万行。我对它进行了一些非平凡的分析,例如,由几个子查询组成的SQL查询。我得到一些结果,例如,说明属性X随时间增加。
现在,有两种可能的结果可能导致这种情况:
- X确实随着时间增加
- 我的分析中有错误
如何测试第一次发生而不是第二次发生?逐步调试器(即使存在)也无济于事,因为中间结果仍然可以包含数百万行。
我唯一能想到的就是以某种方式生成一个小的合成数据集,该数据集具有我要测试的属性,并将其作为单元测试进行分析。有工具可以做到这一点吗?特别是但不限于SQL。