Answers:
通过PCA之类的方法减少维数将有助于您理解对于表示数据至关重要的维数。
要检查分类错误的实例,您可以对数据进行基本的k均值聚类,以了解原始数据适合拟议类别的程度。尽管不是自动的,但在此阶段进行可视化会有所帮助,因为您的视觉大脑本身就是一个强大的分类器。
就完全丢失的数据而言,统计数据已经有许多技术可以应对这种情况,包括估算,从现有集合或另一集合中获取数据以填补空白。
您无法真正从循环中删除有知识的人并期望获得合理的结果。这并不意味着该人必须单独查看每个项目,而是最终需要一些实际知识才能知道数据摘要/图表是否合理。(例如:变量A可以为负,变量B可以大于变量A,还是分类变量C有4或5个选择?)
一旦您对数据有了熟练的了解,您就可以制定一系列规则来自动测试数据。问题是,您可能没有想到会出现其他错误。(例如,在数据收集过程中出现编程错误,将变量A复制到变量C。)