机器学习中相关性与因果关系是什么?


13

众所周知,“关联不等于因果关系”,但是机器学习似乎几乎完全基于关联。我正在使用一个系统,根据学生过去的表现来评估学生对问题的表现。与其他任务(例如Google搜索)不同的是,这似乎不是一种容易玩的系统-因此,因果关系在这方面并不重要。

显然,如果我们想做实验以优化系统,我们将不得不考虑相关性/因果关系的区别。但是,从仅构建一个系统来选择可能具有适当难度级别的问题的角度来看,这种区别是否重要?


请在“相关不等于因果关系”中定义或至少提及您所说的相关因果关系是什么
seteropere 2014年

Answers:


11

并非所有AI都在相关性上起作用,贝叶斯信念网络是围绕A导致B的概率而建立的。

我正在使用一个系统,根据学生过去的表现来评估学生对问题的表现。

我认为您不需要因果关系。过去的表演不会导致当前的表演。回答前一个问题不会导致回答后一个问题。

但是,从仅构建一个系统来选择可能具有适当难度级别的问题的角度来看,这种区别是否重要?

不,不是您的例子。我认为相关性(甚至是简单的推断)将很好地解决您的问题。给每个问题分配一个难度分数,然后以越来越困难的水平(这是大多数考试的工作方式)向学生提供问题,然后当学生开始弄错它们时,您可以降低难度。这是一种反馈算法,类似于对多层感知器中的神经元执行的错误最小化。诸如此类的非平凡的输入空间决定了一个难题!

AI中因果关系的一个更好的例子是:

我的车在减速。我的加速器在地板上。噪音不大。仪表板上有指示灯。我用完燃料的可能性是多少?

在这种情况下,燃料不足会导致汽车减速。这正是贝叶斯信任网络解决的问题。


“我认为您不需要为此做因果。过往的表现不会导致当前的表现。对早期问题的回答不会导致对后续问题的回答。” -学生完成一项练习的事实可能会使他们在另一项练习中表现更好(我们向他们提供提示等)。
Casebash 2014年

但是我想您是对的,它不是相关性与因果关系,而是相关性是否与因果关系相关(即,特定班级的学生在几何课上做得很好,因为老师更详细地介绍了它,而对那些完成了往往具有较高绩效的最困难的主题,因为它们是唯一能够
胜任的主题

啊! 有趣的是:完成一项练习并知道其结果是改善问题的原因。但这在这里是不可观察的。您正在观察的唯一一件事就是相关的考试题。相关性并不坏,可以很好地说两个统计过程之间存在关联。
罗伯·

A原因B是信念网络的一种解释。
seteropere 2014年

6

机器学习似乎几乎完全基于相关性

我不这样认为,至少在一般情况下不是这样。例如,就PAC分析VC维分析而言,机器学习算法的主要假设是训练/测试数据来自与将来数据相同的分布。

因此,在您的系统中,您必须假设,每个学生都施加某种条件概率分布,该条件概率分布针对特定主题的特定类型的问题生成答案。您必须做出的另一个更棘手的假设是,此分布不会改变(或不会快速改变)。


2

我同意先前的回答。

但是,如果您对一般的相关性/因果关系感兴趣,则可能需要查看以下两项:

  • 珀尔(是的,那珀尔)制作了极少数体面的书籍之一。
  • 强化学习多武装匪徒问题都是基于演员试图在未知环境中推断最佳行动方案的,即他们必须学习哪些“行动”将为他们提供最佳“奖励”,从而隐式地找出因果关系关系。

2

除其他答案外,还有一个有趣的话题-如果您手动选择特征,则可能需要考虑“巧合”以减少过度拟合,即避免在训练数据中碰巧被关联的特征在一般情况下,t /不应相互关联-根本没有因果关系。

作为一个粗略的例子,让我们假设您获取历史考试结果的数据表,并尝试预测失败/通过标准;您只需将所有可用的数据字段作为要素包括在内,并且表格恰好也有学生生日。现在,训练数据中可能存在有效的相关性,即2月12日出生的学生几乎总是通过,而2月13日出生的学生几乎总是失败...但是由于没有因果关系,因此应排除在外。

在现实生活中,它有些微妙,但有助于区分将数据适合于应学习的有效信号的相关性。和相关性只是训练集中随机噪声引起的模式。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.