贝叶斯:“您好,机器学习者!”
常客:“您好,机器学习者!”
机器学习:“我听说你们很擅长。这是一些数据。”
F:“是的,让我们写下一个模型,然后计算MLE。”
B:“嘿,F,那不是您昨天告诉我的!我有一些单变量数据,我想估计方差,然后我计算了MLE。然后您猛扑我,告诉我除以而不是在nn−1n。”
F:“是的,谢谢你提醒我。我经常认为我应该对所有内容都使用MLE,但是我对无偏估计量感兴趣,等等。”
ML:“恩,这是什么哲理?对我有帮助吗?”
F:“好吧,一个估算器是一个黑盒子,您将数据放入其中,它就会给您一些数字。我们常客并不关心盒子的构造方式,设计原理是什么。例如,我不知道如何推导规则。”÷(n−1)
ML:“那么,你在乎什么?”
F:“评估”。
ML:“我喜欢那种声音。”
F:“黑匣子是黑匣子。如果有人声称某个特定的估计量是的无偏估计量,则我们依次尝试多个值,并基于某个假定模型从每个值生成许多样本,然后将其推入估计值,然后找到平均估计值。如果我们可以证明期望的估计值等于所有值的真实值,那么我们说它是无偏的。”θ θθθθ
ML:“听起来很棒!听起来常客是务实的人。您可以根据结果来判断每个黑匣子。评估是关键。”
F:“的确如此!我知道你们也采取了类似的方法。交叉验证,或者其他什么?但这对我来说听起来很混乱。”
ML:“凌乱?”
F:“对真实数据测试估计器的想法对我来说很危险。您使用的经验数据可能会遇到各种各样的问题,并且可能无法按照我们同意进行评估的模型进行操作。”
ML:“什么?我以为你说过你证明了一些结果?对于所有,你的估计器总是无偏的。”θ
F:“是的。虽然您的方法可能对评估中使用的一个数据集(包含训练和测试数据的数据集)有效,但我可以证明我的方法将一直有效。”
ML:“对于所有数据集?”
外:“不。”
ML:“所以我的方法已经在一个数据集上进行了交叉验证。您还没有在任何真实的数据集上进行测试吗?”
外:“是的。”
ML:“那使我处于领先地位!我的方法比您的方法更好。它可以90%地预测癌症。只有当整个数据集的行为均符合您所假设的模型时,您的'证明'才有效。”
外:“嗯,是的,我想。”
ML:“并且该间隔的覆盖率为 95%。但是,如果间隔20%的时间仅包含的正确值,我应该不会感到惊讶吗?”θ
F:“是的。除非数据真的是正常的(或其他),否则我的证明是无用的。”
ML:“因此,我的评估更值得信赖和更全面?它仅适用于到目前为止我尝试过的数据集,但至少它们是真实的数据集,疣和所有数据集。您曾经在尝试声称您更'保守'。 ”和“彻底”,并且您对模型检查和相关内容感兴趣。”
B :(插词)“嘿,抱歉,打扰了。我很乐意介入并保持平衡,也许还展示了其他一些问题,但是我真的很喜欢看我的常客同事的蠕动。”
外:“哇!”
ML:“好吧,孩子们。这全都与评估有关。估算器是一个黑匣子。数据传入,数据出来。我们根据估算器在评估中的表现批准或不批准估算器。我们不在乎关于使用的“配方”或“设计原则”。”
F:“是的。但是,对于哪种评估很重要,我们有不同的想法。ML将对真实数据进行训练和测试。而我将进行更通用的评估(因为它涉及广泛适用的证明),并且也更加有限(因为我不知道您的数据集是否实际上是根据我在设计评估时使用的建模假设得出的。)”
ML:“您使用什么评估,B?”
F :(插词)“嘿。别让我发笑。他什么都没有评价。他只是运用主观信念并坚持下去。等等。”
B:“这是常见的解释。但是也可以通过首选的评估来定义贝叶斯主义。然后我们可以使用这样的思想:我们都不关心黑匣子中的内容,我们只关心不同的评估方法。”
B继续说:“经典的例子:医学检查。血液检查的结果是阳性还是阴性。在健康人群中,经常性患者会对阴性结果感兴趣的比例是多少。类似地,生病的人比例是多少得到积极的评价。常客会为正在考虑的每种血液检测方法计算这些,然后建议我们使用得分最高的检测。”
F:“是的。您还想要什么?”
B:“那些获得阳性测试结果的人呢?他们想知道'那些获得阳性结果的人,有多少人会患病?” 和“那些获得负面结果的人中,有多少人健康?” ”
ML:“是的,这似乎是一个更好的问题。”
外:“ HERESY!”
B:“我们再来一次。他不喜欢这要去的地方。”
ML:“这是关于'先验'的,不是吗?”
F:“邪恶”。
B:“无论如何,是的,您是正确的ML。要计算正病患者的比例,您必须执行以下两项操作之一。一种选择是对很多人进行测试,然后观察例如,其中有多少人继续死于这种疾病。”
ML:“这听起来像我所做的。使用培训并测试。”
B:“但是,如果您愿意对人口中的疾病率做出假设,那么您可以提前计算这些数字。常客也可以预先进行计算,但无需使用此人口水平的疾病率。”
F:“更多无基础的假设。”
B:“哦,闭嘴。早些时候,您被发现了。ML发现您和任何人一样都喜欢无根据的假设。除非您的所有假设都成立,否则您的“证明”覆盖率不会在现实世界中堆积。为什么我以前的假设如此不同呢?您称我为疯狂,但您却假装您的假设是保守,可靠,无假设的分析的结果。”
B(续):“无论如何,ML,正如我所说的那样。贝叶斯喜欢另一种评估。我们对基于观测数据的条件更感兴趣,并据此计算估计器的准确性。如果不使用,我们将无法执行此评估但是有趣的是,一旦我们决定采用这种形式的评估,并且一旦选择了我们的先验,我们就会有自动的“配方”来创建合适的估算器。常客没有这样的秘诀。对于复杂模型没有偏倚的估算器,他没有任何自动的方法来构建合适的估算器。”
ML:“您呢?您可以自动建立估算器吗?”
B:“是的。我没有一种自动的方法来创建无偏估计量,因为我认为偏向是评估估计量的一种不好方法。但是鉴于我喜欢的数据条件估计,并且我喜欢可以将先验和可能性联系起来,给我一个估计量。”
ML:“所以无论如何,让我们来回顾一下。我们都有不同的方法来评估我们的方法,而且我们可能永远不会就最好的方法达成一致。”
B:“好吧,这不公平。我们可以将它们混合并匹配。如果我们当中有人拥有良好的标签训练数据,我们可能应该对其进行检验。通常我们所有人都应该检验尽可能多的假设。还有一些'常客'证明可能也很有趣,可以在某些假定的数据生成模型下预测性能。”
F:“是的,让我们在评估时务实。实际上,我将不再痴迷于无限样本属性。我一直在要求科学家给我无限样本,但他们仍然没有这样做。是时候让我再次关注有限的样本了。”
ML:“所以,我们还有最后一个问题。关于如何评估我们的方法,但是我们如何创建方法,我们争论了很多。”
B:“啊。就像我之前提到的那样,我们的贝叶斯方法有更强大的通用方法。它可能很复杂,但是我们总是可以编写某种算法(可能是MCMC的一种简单形式)来从后验中采样。 ”
F(插词):“但是可能会有偏差。”
B:“您的方法也可能如此。我需要提醒您,MLE经常有偏差吗?有时,您很难找到无偏的估计量,即使您确实有一个愚蠢的估计量(对于某些非常复杂的模型),也会说出方差为负。您称其为无偏。是的,无偏,但是有用,不!”
ML:“伙计们。你又在咆哮。让我问你一个问题,F。当你俩都在同一个问题上工作时,你有没有将你的方法的偏见与B方法的偏见进行比较?”
F:“是的。事实上,我不愿意承认这一点,但是B的方法有时具有比我的估算者低的偏见和MSE!”
ML:“这里的教训是,尽管我们对评估有些不同意见,但是我们没有人垄断如何创建具有所需属性的评估器。”
B:“是的,我们应该多读一点彼此的作品。我们可以互相启发评估者。我们可能会发现,其他的评估者在解决我们自己的问题时非常有效。”
F:“而且我应该停止对偏见的痴迷。无偏估计器可能会有荒谬的差异。我想我们所有人都必须对我们在评估方式和希望在估计器中看到的属性做出的选择承担责任。我们不能落后于一种哲学。尝试所有可能的评估。我将继续潜入贝叶斯文学,为评估者提供新的思路!”
B:“实际上,很多人并不真正了解自己的哲学。我什至不确定自己。如果我使用贝叶斯方法,然后证明一些不错的理论结果,那并不意味着我“是一名常客?”常客不在乎上述有关性能的证明,他不在乎配方,如果我代替(或同样)进行一些培训和测试,是否意味着我是机器学习者? ”
ML:“看来我们当时都差不多。”