统计测试用于从数据进行推断,它告诉您事物之间的关系。结果是具有现实意义的东西。例如,就方向和程度而言,吸烟与肺癌的关系如何。它仍然没有告诉您事情为什么发生。要回答为什么发生事情,我们还需要考虑与其他变量的相互关系,并进行适当的调整(请参见Pearl,J.(2003)因果关系:模型,推理和推论)。
监督学习是为了进行预测,它告诉您将会发生什么。例如,鉴于一个人的吸烟状况,我们可以预测他/他是否会患肺癌。在简单的情况下,它仍然可以告诉您“如何”,例如通过查看算法确定的吸烟状态临界值。但是,更复杂的模型难以解释或无法解释(具有很多功能的深度学习/增强功能)。
无监督学习通常用于促进以上两个方面。
- 对于统计测试,通过发现数据的一些未知基础子集(聚类),我们可以推断变量之间关联的异质性。例如,吸烟增加了A组而非B组患肺癌的几率。
- 对于监督学习,我们可以创建新功能来提高预测准确性和鲁棒性。例如,通过识别与罹患肺癌几率相关的子组(聚类)或特征组合(降维)。
当特征/变量的数量变大时,统计测试和监督学习之间的差异将变得更大。统计测试不一定能从中受益,例如,它取决于您是否要通过控制其他因素来进行因果推理,还是要如上所述确定关联中的异质性。如果功能相关,则监督学习的效果会更好,它将变得更像黑盒。
当样本数量增加时,我们可以获得用于统计测试的更精确的结果,对于有监督的学习可以获得更准确的结果,而对于无监督的学习可以获得更加可靠的结果。但这取决于数据的质量。质量差的数据可能会给结果带来偏差或噪音。
有时我们想知道“如何”和“为什么”为干预行动提供信息,例如,通过识别吸烟会导致肺癌,可以制定政策来应对。有时,我们想知道“什么”可以为决策提供信息,例如找出谁可能患上肺癌并给予早期治疗。在《科学》杂志上刊登了有关预测及其局限性的特刊( http://science.sciencemag.org/content/355/6324/468)。“在多学科的工作中解决问题时,似乎最一致地实现了成功,这些工作将人类对上下文的理解与处理能力的数据量达到了TB级。”例如,在我看来,使用假设检验发现的知识可以通过通知我们来帮助监督学习。首先我们应该收集哪些数据/功能。另一方面,监督学习可以通过告知哪些变量来帮助生成假设