统计和大数据 neural-networks

2

tanh激活功能为： Ť 一个Ñ ħ （X ） = 2 ＆CenterDot;＆σ（2 x ） − 1tanh(x)=2⋅σ(2x)−1tanh \left( x \right) = 2 \cdot \sigma \left( 2 x \right) - 1 其中，S形函数，被定义为：。σ （x ）= e xσ（x ）σ(x)\sigma(x) σ（x ）= eX1 + eXσ(x)=ex1+ex\sigma(x) = \frac{e^x}{1 + e^x} 问题：使用这两个激活函数（tanh与sigma）之间真的有关系吗？在哪种情况下哪个功能更好？

82 machine-learning neural-networks optimization cost-maximization

4

为什么神经网络变得更深而不是更广泛？

近年来，卷积神经网络（或一般来说可能是深层神经网络）变得越来越深，最先进的网络从7层（AlexNet）到1000层（Residual Nets）在4的空间中年份。深度网络提高性能的原因在于，可以学习更复杂的非线性函数。如果有足够的训练数据，这将使网络更容易区分不同的类别。但是，趋势似乎并没有随着每一层中参数的数量而变化。例如，尽管层数增加了很多，但是卷积层中的特征图的数量或完全连接层中的节点的数量仍然大致相同，并且大小仍然相对较小。但是从我的直觉来看，似乎增加每层参数的数量将使每一层都有更丰富的数据源，从中可以学习其非线性函数；但是这个想法似乎已经被忽略了，只支持简单地增加更多的层，每个层都有少量的参数。因此，尽管网络已变得“更深”，但它们并没有变得“更广泛”。为什么是这样？

73 machine-learning classification neural-networks deep-learning conv-neural-network

3

为什么神经网络研究人员关心时代？

随机梯度下降的时期被定义为对数据的单次通过。对于每个SGD微型批次，将绘制样本，计算梯度并更新参数。在时代设置中，样本被抽取而无需替换。kkk 但这似乎没有必要。为什么不从每个迭代的整个数据集中随机抽取绘制每个SGD minibatch ？在大量的时期中，或多或少经常看到样本的微小偏差似乎并不重要。kkk

69 neural-networks deep-learning gradient-descent

6

神经网络中好的初始权重是什么？

我刚刚听说，从范围选择神经网络的初始权重是一个好主意，其中是给定神经元的输入数量。假设对这些集合进行了归一化-均值0，方差1（不知道这是否重要）。d(−1d√,1d√)(−1d,1d)(\frac{-1}{\sqrt d} , \frac{1}{\sqrt d})ddd 为什么这是个好主意？

68 neural-networks normalization

3

使用递归神经网络进行时间序列分析的正确方法

递归神经网络与“常规”神经网络不同，因为它们具有“内存”层。由于这一层，在时间序列建模中应该使用递归NN。但是，我不确定我是否正确理解如何使用它们。假设我有以下时间序列（从左到右）：，[0, 1, 2, 3, 4, 5, 6, 7]我的目标是i使用点i-1和i-2作为输入来预测-th个点（每个i>2）。在“常规”非重复ANN中，我将按以下方式处理数据： target| input 2| 1 0 3| 2 1 4| 3 2 5| 4 3 6| 5 4 7| 6 5 然后，我将创建一个具有两个输入和一个输出节点的网络，并使用上面的数据对其进行训练。如果是递归网络，如何改变这一过程（如果有的话）？

67 time-series machine-learning neural-networks

4

我应该在神经网络中的哪里放置辍学层？

关于在神经网络中的何处放置缺失层，是否有任何通用指南？

64 neural-networks dropout

5

神经网络中多类别，多标签分类任务的损失函数是什么？

我正在训练一个神经网络，以将一组对象分类为n类。每个对象可以同时属于多个类（多类，多标签）。我读到，对于多类问题，通常建议使用softmax和分类交叉熵代替mse作为损失函数，并且我或多或少地了解了为什么。对于我的多标签问题，使用softmax当然是没有意义的，因为每种类别的概率都应该彼此独立。因此，我的最后一层就是S型单元，将其输入压缩到每个类的概率范围为0..1。现在我不确定应该使用什么损失函数。观察分类交叉熵的定义，我认为它不适用于此问题，因为它将仅考虑应为1的神经元输出，而忽略其他神经元的输出。二进制交叉熵听起来更合适，但是我只看到它曾经针对单个输出神经元的二进制分类问题提到过。我正在使用python和keras进行培训，以防万一。

64 neural-networks python loss-functions keras cross-entropy

12

为什么神经网络需要这么多的训练实例来执行？

一个2岁的人类孩子需要大约5辆汽车才能以合理的准确性识别它，而不论其颜色，制造等如何。我儿子2岁时，即使他已经看过，也能够识别电车和火车。一些。由于他通常会彼此混淆，因此显然他的神经网络还没有足够的训练，但仍然可以训练。缺少人工神经网络是什么使它们无法更快地学习呢？转移学习是答案吗？

64 neural-networks neuroscience

3

神经网络和深度信念网络有什么区别？

我给人的印象是，当人们指的是“深层信仰”网络时，它基本上是一个神经网络，但规模很大。这是正确的吗，还是深度信仰网络是否还暗示算法本身是不同的（即，没有前馈神经网络，但可能带有反馈回路）？

62 machine-learning neural-networks deep-learning deep-belief-networks

9

规范化和特征缩放如何以及为什么起作用？

我看到许多机器学习算法在均值抵消和协方差均衡方面效果更好。例如，神经网络趋向于收敛更快，而K-Means通常可以更好地利用预处理特征进行聚类。我看不出这些预处理步骤背后的直觉会导致性能提高。有人可以向我解释吗？

60 machine-learning neural-networks covariance normalization

3

前馈神经网络和递归神经网络有什么区别？

前馈神经网络和递归神经网络有什么区别？你为什么要用一个呢？是否存在其他网络拓扑？

58 machine-learning neural-networks terminology rnn topologies

10

验证误差小于训练误差？

我在这里和这里都发现了两个关于这个问题的问题，但是还没有明显的答案或解释。在我的卷积神经网络中，验证错误小于训练错误时，我仍然执行相同的问题。这意味着什么？

57 machine-learning mathematical-statistics neural-networks cross-validation

4

PCA和自动编码器有什么区别？

PCA和自动编码器都可以进行降维，那么它们之间有什么区别？在什么情况下我应该使用另一个？

56 machine-learning pca neural-networks autoencoders

8

用于深度学习的R库

我想知道是否有用于深度学习神经网络的良好R库？我知道还有的nnet，neuralnet以及RSNNS，但没有这些似乎实现深度学习方法。我对无监督学习，然后进行有监督学习，以及使用辍学防止共同适应特别感兴趣。 / edit：几年后，我发现h20深度学习软件包设计精良且易于安装。我也喜欢mxnet软件包，该软件包安装起来有点困难，但支持像covnets这样的东西，可以在GPU上运行，而且速度非常快。

56 r neural-networks deep-learning rbm deep-belief-networks

2

什么是全局最大池化层？与最大池化层相比，它的优势是什么？

有人可以解释什么是全局最大池化层以及为什么以及何时将其用于训练神经网络。与普通的最大池化层相比，它们有什么优势吗？

55 neural-networks conv-neural-network pooling

Questions tagged «neural-networks»