当L2是用于计算后验损失的良好损失函数时,将是一个例子?


9

L2损失以及L0和L1损失,是在通过最小后验预期损失进行后验总结时非常常用的三个“默认”损失函数。原因之一可能是它们相对容易计算(至少对于1d分布),L0导致众数,L1导致中位数,L2导致均值。在教学时,我可以提出L0和L1是合理的损失函数(而不仅仅是“默认”)的情况,但是我正在努力解决L2是合理的损失函数的情况。所以我的问题是:

出于教学目的,当L2是用于计算最小后验损失的良好损失函数时,将是一个示例吗?

对于L0,很容易想到下注的情况。假设您已经计算出了即将到来的足球比赛的进球总数的后验,并且如果您正确地猜到了进球数而输了,那么您将下注赢钱。那么L0是一个合理的损失函数。

我的L1示例有些人为。您正在遇见一个朋友,该朋友将到达许多机场之一,然后乘汽车旅行给您,问题是您不知道哪个机场(并且因为她在空中,所以无法给您的朋友打电话)。考虑到她可能进入哪个机场的后部,在哪里放置自己的好地方,以便当她到达时她和你之间的距离变小?在这里,如果简化假设她的汽车将以恒定的速度直接行驶到您的位置,那么使预期的L1损失最小化的观点似乎是合理的。也就是说,一小时的等待是30分钟等待的两倍。


警告:L0不会导致出现连续问题的模式
西安

嗯,是的,我知道说L0->模式有点草率。
RasmusBååth2015年

2
观察平方反比定律,如果您放置了多个光源,以便我们可以选择的任何空间点都会从除最近光源之外的所有光源得到微不足道的光,使用L2损耗就等于希望最小化该数量,每个流明的秒数。不过,我想不出为什么要这样做,而不是最大化每秒的流明。
偶然统计师

Answers:


4
  1. L2很简单。如果您使用线性回归,SVD等标准矩阵方法,则默认情况下会得到此结果。在拥有计算机之前,L2是镇上唯一遇到很多问题的游戏,这就是为什么每个人都使用ANOVA,t检验等的原因与使用其他损失函数获得精确答案相比,通过许多更高级的方法(例如高斯过程)使用L2损失获得精确答案也要容易得多。

  2. 相关地,您可以使用二阶泰勒逼近来准确获得L2损耗,而对于大多数损耗函数(例如,交叉熵)而言,情况并非如此。这使得使用牛顿法等二阶方法进行优化变得容易。出于相同的原因,许多用于处理其他损失函数的方法仍在后台使用L2损失方法(例如,迭代地加权最小二乘法,积分嵌套拉普拉斯逼近法)。

  3. L2与高斯分布密切相关,并且中心极限定理使高斯分布变得通用。如果您的数据生成过程(有条件地)是高斯,则L2是最有效的估计器。

  4. 由于总方差定律,L2损耗会很好地分解。这使得带有潜在变量的某些图形模型特别容易拟合。

  5. L2严重地影响了可怕的预测。这可能是好事,也可能是坏事,但这通常是很合理的。如果一个小时的等待导致许多人错过约会,则平均而言,其等待时间可能是30分钟的等待时间的四倍。


2
嗯,我所追求的更像是一个决策情境,其中L2将是合理的损失函数。类似于与我的问题中的两个示例相似的场景,但适用于L2。
RasmusBååth'3

1
@RasmusBååth我不确定确切地平方损失的参数(除了它与#3中的高斯数据生成过程的联系之外),但是#5是某种加速损失函数的参数。对于二阶,任何这样的函数将匹配L2损耗。
戴维·哈里斯

@ DavidJ.Harris实际上,#5是不正确的。在这种情况下,您要做的是使用L1 abs(xy)损失来最大程度地减少挫败感=时间²。如您所建议,将(xy)²损失用作时间损失实际上会给您带来次优的结果。
伊尔默

@ÍhorMé我想我一定误会你了。听起来您是在说使平方误差最小的最佳方法是最小化绝对损耗,而不是L2范数。
David J. Harris

@ DavidJ.Harris是的,我想指出的是,这实际上是最小化“不良”(= diffdiff²)的问题,而不是花费在等待上的时间,但实际上,我认为我误解了思想实验。现在,我正在重新阅读它,L2是从最小化时差到最小化“不良”的合法方法。但是,我必须说,最好是程序员首先正确地识别出他想最小化的“坏处”,然后获得该值,然后通过L1最小化。在这种情况下,您首先要获得(时间差)²,然后最小化L1损耗。仅当您知道自己在做什么时才使用L2。
伊霍尔Mé
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.