统计和大数据

2

在训练像素分割神经网络（例如全卷积网络）时，您如何决定使用交叉熵损失函数还是Dice系数损失函数？我意识到这是一个简短的问题，但不确定要提供什么其他信息。我看了一堆有关这两个损失函数的文档，但是无法直观地了解何时使用它们。

27 neural-networks loss-functions cross-entropy

2

Merkle＆Steyvers（2013）写道：为了正式定义适当的评分规则，令为具有真正成功概率的伯努利试验的概率预测。正确的评分规则是如果其期望值最小的度量。FFfdddpppF= pF=pf = p 我认为这很好，因为我们希望鼓励预报员生成诚实地反映其真实信念的预报，而又不想给他们不利的动机以其他方式这样做。在现实世界中，有没有适合使用不正确评分规则的示例？参考文献 Merkle，EC和Steyvers，M.（2013年）。选择严格正确的评分规则。决策分析，10（4），292-304

27 classification forecasting scoring-rules

1

反向模式自动微分的分步示例

不知道这个问题是否属于这里，但它与优化中的梯度方法密切相关，在这里似乎很热门。无论如何，如果您认为其他社区对此主题有更好的专业知识，请随时迁移。简而言之，我正在寻找反向模式自动微分的分步示例。关于该主题的文献不多，并且在不了解其背后的理论的情况下，很难理解现有的实现（例如TensorFlow中的内容）。因此，如果有人能详细显示我们传入的内容，我们如何处理它以及从计算图中得出的内容，我将非常感激。我最难解决的几个问题：种子 -为什么我们完全需要它们？反向差异化规则 -我知道如何进行差异化，但是我们如何向后退？例如，在从示例本节，我们怎么知道w2¯=w3¯w1w2¯=w3¯w1\bar{w_2}=\bar{w_3}w_1？我们只使用符号还是通过实际值？例如，在相同的示例，是wiwiw_i和wi¯wi¯\bar{w_i}符号或值？

27 optimization derivative tensorflow automatic-differentiation

5

深层神经网络可以在没有归一化的情况下近似乘积函数吗？

假设我们要f = x * y使用标准深层神经网络来简化回归。我记得有一些重述，告诉我们带有一个隐藏层的NN可以近似任何函数，但是我尝试过并且没有规范化，即使是这种简单的乘法，NN也无法近似。只有数据的对数归一化才有帮助，m = x*y => ln(m) = ln(x) + ln(y). 但这看起来像个骗子。NN是否可以在没有对数归一化的情况下做到这一点？显然，（对我来说）是坚定的人-是的，所以问题是这种NN的类型/配置/布局应该是什么？

27 regression machine-learning neural-networks deep-learning

4

如何确定分类器的最佳阈值并生成ROC曲线？

假设我们有一个SVM分类器，如何生成ROC曲线？（理论上类似）（因为我们使用每个阈值生成TPR和FPR）。我们如何确定此SVM分类器的最佳阈值？

27 machine-learning svm

1

什么是消融研究？有没有系统的方法来执行它？

什么是消融研究？有没有系统的方法来执行它？例如，我在线性回归中有预测变量，我将其称为模型。nnn 我将如何对此进行消融研究？我应该使用什么指标？全面的资料或教科书将不胜感激。

27 regression machine-learning neural-networks

1

为什么PCA对异常值敏感？

该SE上有许多帖子讨论了主成分分析（PCA）的可靠方法，但是我无法找到一个很好的解释，说明为什么 PCA首先对异常值敏感。

26 machine-learning pca outliers

3

比其他分析更早进行特权分析的贝叶斯理由是什么？

背景和经验示例我有两个研究；我进行了一个实验（研究1），然后进行了复制（研究2）。在研究1中，我发现了两个变量之间的相互作用。在研究2中，这种交互作用方向相同，但意义不大。以下是研究1模型的摘要： Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 5.75882 0.26368 21.840 < 2e-16 *** condSuppression -1.69598 0.34549 -4.909 1.94e-06 *** prej -0.01981 0.08474 -0.234 0.81542 condSuppression:prej 0.36342 0.11513 3.157 0.00185 ** 并研究2的模型： Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 5.24493 0.24459 21.444 <2e-16 *** prej 0.13817 0.07984 …

26 bayesian

5

概率论是否是对整合/求和的非负函数的研究？

这可能是一个愚蠢的问题，但是概率论是对整合/求和的功能的研究吗？编辑。我忘了非负性。那么，概率论是否是对整合/求和的非负函数的研究？

26 probability mathematical-statistics measure-theory

3

为什么不将Beta / Dirichlet回归视为广义线性模型？

前提是来自R封装betareg1小插图的报价。此外，该模型与广义线性模型（GLM； McCullagh and Nelder 1989）具有一些共同的属性（例如线性预测变量，链接函数，色散参数），但这不是该框架的特殊情况（即使对于固定色散也不是））这个答案也暗示了这一事实： [...]这是一种回归模型，当响应变量以Beta形式分发时适用。您可以将其视为类似于广义线性模型。这正是您正在寻找的（重点是我的）问题标题说明了一切：为什么不将Beta / Dirichlet回归视为广义线性模型（不是）？据我所知，广义线性模型定义的模型建立在对期望变量的期望之上，这些期望变量以独立变量为条件。 fff是链接函数的期望映射，ggg是概率分布，YYY结果和XXX的predictiors，ββ\beta是线性参数和σ2σ2\sigma^2的方差。 f(E(Y∣X))∼g(βX,Iσ2)f(E(Y∣X))∼g(βX,Iσ2)f\left(\mathbb E\left(Y\mid X\right)\right) \sim g(\beta X, I\sigma^2) 不同的GLM会强加（或放宽）均值和方差之间的关系，但是必须是指数族中的概率分布，这是一种理想的属性，如果我没有记错的话，应该可以提高估计的鲁棒性。但是，Beta和Dirichlet分布是指数族的一部分，所以我没有主意。ggg [1] Cribari-Neto，F.和Zeileis，A.（2009）。R中的Beta回归。

26 generalized-linear-model beta-regression dirichlet-regression

5

为什么我们采用方差的平方根来创建标准偏差？

抱歉，如果在其他地方都没有找到答案，我找不到它。我想知道为什么我们要特别求方差的平方根来创建标准偏差？将平方根产生有用的值是什么？

26 variance standard-deviation

1

为什么非零中心激活函数在反向传播中会成为问题？

我在这里阅读以下内容：乙状结肠输出不是零中心的。这是不希望的，因为神经网络中处理的后续层中的神经元（即将对此进行详细介绍）将接收到非零中心的数据。这对梯度下降期间的动力学有影响，因为如果进入神经元的数据始终为正（例如，元素，在），则权重的梯度将在反向传播期间变为全部为正，或全部为负（取决于整个表达式的梯度 x>0x>0x > 0f=wTx+bf=wTx+bf = w^Tx + bwwwfff）。这可能会在权重的梯度更新中引入不希望的之字形动力学。但是，请注意，一旦将这些梯度添加到一批数据中，权重的最终更新就可以具有可变的符号，从而在某种程度上缓解了此问题。因此，这是一个不便，但是与上面的饱和激活问题相比，后果不那么严重。为什么让所有（在元素上）都导致全正或全负梯度？x>0x>0x>0www

26 neural-networks deep-learning backpropagation

7

两个骰子卷-顺序相同的数字

我目前正在Coursera上学习统计推理课程。在一项作业中，出现以下问题。 | Suppose you rolled the fair die twice. What is the probability of rolling the same number two times in a row? 1: 2/6 2: 1/36 3: 0 4: 1/6 Selection: 2 | You're close...I can feel it! Try it again. | Since we don't care what the outcome …

26 probability self-study conditional-probability

2

Dirichlet分布中的alpha到底是什么？

我对贝叶斯统计非常陌生，遇到了一种校正的相关度量SparCC，该度量在其算法的后端使用Dirichlet流程。我一直在尝试逐步了解算法，以真正理解正在发生的事情，但是我不确定alpha在Dirichlet分布中矢量参数的作用以及如何规范化alpha矢量参数？该实现Python使用的是NumPy：https : //docs.scipy.org/doc/numpy/reference/generated/numpy.random.dirichlet.html 文档说： alpha：数组分布的参数（k维为k维样本）。我的问题：如何将alphas影响分布?; 如何alphas被标准化？和当alphas不是整数时会发生什么？ import numpy as np import pandas as pd import matplotlib.pyplot as plt # Reproducibility np.random.seed(0) # Integer values for alphas alphas = np.arange(10) # array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) # Dirichlet Distribution dd = np.random.dirichlet(alphas) …

26 distributions bayesian dirichlet-distribution

1

统计，线性代数和机器学习中的经典符号是什么？这些符号之间有什么联系？

当我们阅读一本书时，理解符号在理解内容方面起着非常重要的作用。不幸的是，对于模型和优化问题的公式化，不同的社区有不同的符号约定。有人可以在这里总结一些配方符号并提供可能的原因吗？我在这里举一个例子：在线性代数文学中，经典著作是Strang 对线性代数的介绍。本书中最常用的符号是 Ax=bAx=b A x=b 其中是系数矩阵，是要求解的变量，是等式右侧的向量。该理由书选择这个符号是线性代数的主要目标是解决线性系统和弄清楚什么是矢量。给定这样的公式，OLS优化问题是x b xAAAxxxbbbxxx minimizex ∥Ax−b∥2minimizex ‖Ax−b‖2 \underset{x}{\text{minimize}}~~ \|A x-b\|^2 在统计学或机器学习素养（摘自《统计学学习的要素》一书中）中，人们使用不同的表示法来表示同一件事： Xβ=yXβ=yX \beta= y 其中XXX是数据矩阵，ββ\beta是要学习的学习系数或权重，yyy是响应。人们之所以使用它，是因为统计或机器学习社区中的人们是数据驱动的，因此数据和响应对他们来说是最有趣的事情，他们使用XXX和yyy来表示。现在我们可以看到所有可能的混淆：第一个方程式中的AAA与第二个方程式中的X相同XXX。在第二个方程中，XXX不需要解决。同样针对以下术语：AAA是线性代数中的系数矩阵，但它是统计中的数据。ββ\beta也称为“系数”。另外，我提到Xβ=yXβ=yX \beta=y并不是人们在机器学习中广泛使用的确切名称，人们使用半矢量化版本来汇总所有数据点。如 min∑iL(yi,f(xi))min∑iL(yi,f(xi)) \min \sum_i \text{L}(y_i,f(x_i)) 我认为这样做的原因是，当谈论随机梯度下降和其他不同的损失函数时，它是很好的。同样，对于线性回归以外的其他问题，简洁的矩阵符号也消失了。逻辑回归的矩阵符号任何人都可以对不同文献的符号进行更多的总结吗？我希望这个问题的明智答案可以为阅读不同文学作品的人们提供良好的参考。请不要受到我的示例 Ax=bAx=bA x=b和Xβ=yXβ=yX \beta=y。还有很多。如为什么会有两种不同的逻辑损失表述/符号？

26 machine-learning probability self-study optimization