统计和大数据 loss-functions

1

在几次kaggle比赛中，得分基于“ logloss”。这与分类错误有关。这是一个技术性的答案，但我正在寻找一个直观的答案。我真的很喜欢答案这个有关马氏距离的问题，但PCA并不是logloss。我可以使用分类软件提供的价值，但我不太了解。为什么用它代替真实/错误的阳性/阴性率？您能帮我，以便我可以向外婆或该领域的新手解释吗？我也喜欢并同意以下报价：除非您可以向祖母解释 - 否则您不会真正理解某些东西在发布到这里之前，我尝试自行回答。我没有发现直观或真正有用的链接包括： http://www.r-bloggers.com/making-sense-of-logarithmic-loss/ https://www.quora.com/What-is-an-intuitive-explanation-for-the-log-loss-function https://lingpipe-blog.com/2010/11/02/evaluating-with-probabilistic-truth-log-loss-vs-0-1-loss/ https://www.kaggle.com/wiki/LogarithmicLoss 这些信息丰富，准确。它们是为技术读者准备的。他们没有画简单的图画，也没有给出简单易用的例子。他们不是为我祖母写的。

10 interpretation intuition loss-functions

4

训练神经网络进行回归总是可以预测均值

我正在训练一个简单的卷积神经网络进行回归，其中的任务是预测图像中盒子的（x，y）位置，例如：网络的输出有两个节点，一个用于x，一个用于y。网络的其余部分是标准的卷积神经网络。损失是盒子的预测位置和地面真实位置之间的标准均方误差。我正在训练10000张这些图像，并在2000年进行验证。我的问题是，即使经过大量培训，损失也不会真正减少。观察网络的输出后，我注意到对于两个输出节点，网络都倾向于输出接近零的值。这样，盒子位置的预测始终是图像的中心。预测中存在一些偏差，但始终在零附近。下面显示了损失：我已经运行了比此图所示更多的时期，并且损失仍然从未减少。有趣的是，损失实际上增加了一点。因此，似乎网络只是在预测训练数据的平均值，而不是学习合适的数据。关于这可能是什么的任何想法？我使用Adam作为优化器，初始学习率为0.01，并将relus作为激活如果您对我的某些代码（Keras）感兴趣，请参见以下代码： # Create the model model = Sequential() model.add(Convolution2D(32, 5, 5, border_mode='same', subsample=(2, 2), activation='relu', input_shape=(3, image_width, image_height))) model.add(Convolution2D(64, 5, 5, border_mode='same', subsample=(2, 2), activation='relu')) model.add(Convolution2D(128, 5, 5, border_mode='same', subsample=(2, 2), activation='relu')) model.add(Flatten()) model.add(Dense(100, activation='relu')) model.add(Dense(2, activation='linear')) # Compile the model adam = Adam(lr=0.01, beta_1=0.9, …

9 machine-learning neural-networks optimization deep-learning loss-functions

1

“对数损失”是指对数损失还是对数损失？

我知道我已经看过这两种方式，所以两者之间有区别吗？哪个更常用？

9 logistic terminology logarithm loss-functions

2

贝叶斯估计量之间的比较

考虑二次损失，先验给定其中。令的可能性。找到贝叶斯估计器。 π （θ ）L （θ ，δ）= （θ - δ）2L(θ,δ)=(θ−δ)2L(\theta,\delta)=(\theta-\delta)^2π（θ ）π(θ)\pi(\theta)˚F （X | θ ）= θ X θ - 1 我[ 0 ，1 ]（X ），θ > 0 δ ππ（θ ）〜ù（0 ，1 / 2 ）π(θ)∼U(0,1/2)\pi(\theta)\sim U(0,1/2)F（X | θ ）= θ Xθ - 1一世[ 0 ，1 ]（x ），θ > 0f(x|θ)=θxθ−1I[0,1](x),θ>0f(x|\theta)=\theta x^{\theta-1}\mathbb{I}_{[0,1]}(x), \theta>0δπδπ\delta^\pi …

9 self-study bayesian estimation hierarchical-bayesian loss-functions

1

当L2是用于计算后验损失的良好损失函数时，将是一个例子？

L2损失以及L0和L1损失，是在通过最小后验预期损失进行后验总结时非常常用的三个“默认”损失函数。原因之一可能是它们相对容易计算（至少对于1d分布），L0导致众数，L1导致中位数，L2导致均值。在教学时，我可以提出L0和L1是合理的损失函数（而不仅仅是“默认”）的情况，但是我正在努力解决L2是合理的损失函数的情况。所以我的问题是：出于教学目的，当L2是用于计算最小后验损失的良好损失函数时，将是一个示例吗？对于L0，很容易想到下注的情况。假设您已经计算出了即将到来的足球比赛的进球总数的后验，并且如果您正确地猜到了进球数而输了，那么您将下注赢钱。那么L0是一个合理的损失函数。我的L1示例有些人为。您正在遇见一个朋友，该朋友将到达许多机场之一，然后乘汽车旅行给您，问题是您不知道哪个机场（并且因为她在空中，所以无法给您的朋友打电话）。考虑到她可能进入哪个机场的后部，在哪里放置自己的好地方，以便当她到达时她和你之间的距离变小？在这里，如果简化假设她的汽车将以恒定的速度直接行驶到您的位置，那么使预期的L1损失最小化的观点似乎是合理的。也就是说，一小时的等待是30分钟等待的两倍。

9 bayes teaching decision-theory loss-functions

Questions tagged «loss-functions»