Questions tagged «neural-networks»

人工神经网络(ANN)是一类广泛的基于生物神经网络的计算模型。它们包括前馈NN(包括“深度” NN),卷积NN,递归NN等。

2
神经网络:对于二进制分类,使用1或2个输出神经元?
假设我要进行二进制分类(属于A类或B类)。在神经网络的输出层中可以执行以下操作: 使用1个输出节点。输出0(<0.5)被视为A类,输出1(> = 0.5)被视为B类(在S型情况下) 使用2个输出节点。输入属于具有最高值/概率(argmax)的节点的类别。 是否有书面论文对此进行了讨论?要搜索哪些特定关键字? 这个问题已经在此站点上问过,例如,看到此链接时没有真实答案。我需要做出选择(硕士论文),因此我想深入了解每种解决方案的优点/缺点/局限性。

1
训练损失再次上升和下降。怎么了?
我的训练损失下降,然后又上升。这很奇怪。交叉验证损失跟踪训练损失。到底是怎么回事? 我有两个堆叠的LSTMS,如下所示(在Keras上): model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) model.compile(loss='binary_crossentropy', optimizer='adadelta') 我训练了100个纪元: model.fit(X_train, np.array(y_train), batch_size=1024, nb_epoch=100, validation_split=0.2) 训练127803个样本,验证31951个样本 这就是损失的样子:

4
具有跳过层连接的神经网络
我对神经网络的回归感兴趣。 具有零隐藏节点+跳过层连接的神经网络是线性模型。 相同的神经网络又有隐藏的节点呢?我想知道跳过层连接的作用是什么? 直观地讲,如果您包括跳过层连接,那么最终模型将是线性模型+某些非线性部分的总和。 向神经网络添加跳过层连接有什么优点或缺点?

8
为什么拥有机器学习的原理和数学理论如此重要?
我一直在想,为什么进行原理/理论机器学习如此重要?从个人的角度来看,我可以理解为什么有原则的机器学习如此重要: 人类喜欢了解自己在做什么,我们就会找到美丽和满足感。 从理论上讲,数学很有趣 当存在指导事物设计的原则时,花在随机猜测,怪异的试验和错误上的时间会更少。例如,如果我们了解神经网络是如何工作的,也许我们可以花更多的时间设计它们,而不是现在投入大量的试验和错误。 最近,如果原则很明确,理论也很明确,那么(希望)对系统更加透明。这很好,因为如果我们了解系统在运行什么,那么AI就有很多人大肆宣传的风险会立即消失。 原则似乎是总结世界可能具有的重要结构以及何时使用一种工具而非另一种工具的一种简洁方法。 但是,这些理由是否真的足以证明对机器学习进行深入的理论研究是正确的?对理论的最大批评之一是,由于很难做到,他们通常最终会研究一些非常有限的案例,或者必须提出的假设实质上使结果无用。我想我曾经在Tor的创造者在麻省理工学院的一次演讲中听到过这一点。他听到的对托尔的一些批评只是理论上的争论,但从本质上讲,人们却无法证明有关现实生活中真实场景的事物,因为它们是如此复杂。 在这个拥有如此强大的计算能力和数据的新时代,我们可以使用真实的数据集和测试集来测试我们的模型。我们可以通过经验主义来观察事物是否起作用。如果我们能够获得能够与工程学和经验主义相结合的AGI或系统,那么仍然值得为机器学习追求原理和理论上的证明,尤其是当量化界限如此难以实现时,而直觉和定性答案则更容易实现用数据驱动的方法来实现?这种方法在古典统计学中不可用,这就是为什么我认为理论在那个时代如此重要的原因,因为数学是我们可以确保事物正确的唯一方法,或者它们可以按照我们认为的方式实际起作用。 我个人一直很喜欢并且认为理论和原则性方法很重要。但是,凭借能够尝试使用实际数据进行处理的能力和计算能力,使我感到怀疑的是,理论追求的高努力(可能是低回报)仍然值得吗? 机器学习的理论和原则追求真的那么重要吗?


6
神经网络如何识别图像?
该问题是从Stack Overflow 迁移而来的,因为可以通过交叉验证来回答。 迁移 7年前。 我正在尝试学习神经网络如何在图像识别上工作。我看过一些例子,变得更加困惑。在20x20图像的字母识别示例中,每个像素的值成为输入层。因此有400个神经元。然后是神经元的隐藏层和26个输出神经元。然后训练网络,然后工作,并不完美。 我对神经网络感到困惑的是,它如何了解图像中的内容。您无需进行阈值,分割或测量,网络就可以通过某种方式学习比较图像并进行识别。现在对我来说就像魔术。从哪里开始学习神经网络?

10
为什么不抛弃神经网络和深度学习呢?[关闭]
已关闭。这个问题是基于观点的。它当前不接受答案。 想改善这个问题吗?更新问题,以便通过编辑此帖子以事实和引用的形式回答。 2年前关闭。 深度学习和神经网络通常存在的基本问题。 适合训练数据的解决方案是无限的。我们没有一个只有一个人就能满足的精确数学方程式,并且可以说是最好的概括。简而言之,我们不知道哪种概括最好。 优化权重并不是一个凸面的问题,因此我们永远都不会知道最终会遇到全局最小值还是局部最小值。 那么,为什么不抛弃神经网络而寻找更好的ML模型呢?我们了解什么,并且与一组数学方程式一致?线性和SVM没有数学上的缺点,并且与一组数学方程式完全一致。为什么不只是沿着同一条线思考(虽然不需要线性),并且提出一个比线性和SVM,神经网络和深度学习更好的新ML模型?

6
对于凸问题,随机梯度下降(SGD)中的梯度是否始终指向全局极值?
给定凸成本函数,使用SGD进行优化,我们将在优化过程中的某个点处具有一个梯度(矢量)。 我的问题是,给定凸面上的点,梯度是否仅指向函数增加/减少最快的方向,或者梯度始终指向成本函数的最优/极端? 前者是本地概念,后者是全球概念。 SGD最终可以收敛到成本函数的极值。我想知道给定凸面上任意点的渐变方向与指向全局极值的方向之间的差异。 梯度的方向应该是函数在该点上最快增减的方向,对吗?

3
堆叠多个LSTM有什么优势?
有什么优势,为什么一个人在深度网络中使用多个并排堆叠的LSTM?我正在使用LSTM将一系列输入表示为单个输入。因此,一旦有了这种单一表示形式,为什么还要再次通过呢? 我之所以这样问是因为我在自然语言生成程序中看到了这一点。

1
为什么将整流线性单位视为非线性?
为什么将整流线性单位(ReLU)的激活函数视为非线性? F(x )= 最大(0 ,x )f(x)=max(0,x) f(x) = \max(0,x) 当输入为正时,它们是线性的,并且据我了解,要释放深层网络的代表性力量,必须进行非线性激活,否则整个网络可以用一个层表示。

3
亚当优化器被认为对其超参数值具有鲁棒性的原因是什么?
我正在阅读有关深度学习的Adam优化器的内容,并在Bengio,Goodfellow和Courville撰写的新书《深度学习》中遇到了以下句子: 尽管有时需要将学习速率从建议的默认值更改,但通常认为Adam对超级参数的选择相当可靠。 如果确实如此,那么这很重要,因为超参数搜索对于深度学习系统的统计性能非常重要(至少以我的经验)。因此,我的问题是,为什么亚当·鲁伯特(Adam Robust)拥有如此重要的参数?特别是和β 2?β1β1\beta_1β2β2\beta_2 我已经阅读了Adam的论文,但没有提供任何解释说明为什么它可以与这些参数一起使用,或者其坚固性为何。他们有其他理由吗? 另外,因为我读的文件,似乎中超参数的数量,他们试图在那里非常小,只2和β 2只有3个。这怎么可能彻底的实证研究,如果它仅适用于2×3超参数?β1β1\beta_1β2β2\beta_2

4
我们可以从人工神经网络中学到什么关于人脑?
我知道我的问题/标题不是很具体,所以我将尝试澄清一下: 人工神经网络的设计相对严格。当然,通常,它们会受到生物学的影响,并尝试建立真实神经网络的数学模型,但是我们对真实神经网络的理解不足以建立精确的模型。因此,我们无法构思出精确的模型或“接近”真实神经网络的任何事物。 据我所知,所有人工神经网络都与真实神经网络相距甚远。标准,经典的全连接MLP在生物学中不存在。递归神经网络缺乏实际的神经可塑性,RNN的每个神经元都具有相同的“反馈结构”,而真实的神经元则保存并共享它们的信息而不是单独地。卷积神经网络是有效且流行的,但是(例如)人脑中的图像处理仅由几个卷积层组成,而现代解决方案(如GoogLeNet)已经使用了数十个卷积层……尽管它们为计算机产生了很好的结果,它们甚至不接近人类的表现。尤其是当我们想到“每层性能”时,与真实的神经网络相比,我们需要大量的层并减少数据。 此外,据我所知,与真实神经网络的巨大适应性相比,即使是模块化的,自扩展/自重构的人工神经网络也相当“固定和静态”。生物神经元通常具有成千上万的树突,将神经元连接到各种各样的不同区域和其他神经元。人工神经网络更加“直接”。 那么,我们能从人工神经网络学到关于人脑/真实神经网络的任何信息吗?还是只是尝试创建一种性能要比经典的静态算法更好的软件(甚至在此类算法失败的地方做些事情)? 有人可以提供(最好是科学的)有关此主题的资源吗? 编辑:高度赞赏更多答案(:

2
自动编码器无法学习有意义的功能
我有50,000张图片,例如这两张图片: 它们描绘了数据图。我想从这些图像中提取特征,因此我使用了Theano(deeplearning.net)提供的自动编码器代码。 问题是,这些自动编码器似乎没有学习任何功能。我已经尝试过RBM,它是相同的。 MNIST数据集提供了不错的功能,但我的数据似乎没有任何结果。我在下面附上示例: 在MNIST上创建的过滤器: 通过对数据进行训练而创建的过滤器: 我使用了隐藏层大小和训练时期的许多不同排列方式,但结果始终相同。 为什么不起作用?为什么自动编码器不能从这些图像中提取特征? 编辑: 对于有类似问题的任何人。解决方法非常简单,原因也很愚蠢。我只是忘了重新调整RGB编码的像素值以使其浮动在0-1的范围内。 重新调整值可以解决问题。

2
克里热夫斯基的'12 CNN如何在第一层获得253,440个神经元?
在Alex Krizhevsky等人中。利用深层卷积神经网络对图像网络进行分类,它们会枚举每层神经元的数量(请参见下图)。 网络的输入为150,528维,网络其余层的神经元数量为253,440–186,624–64,896–64,896–43,264– 4096–4096–1000。 3D视图 第一层之后所有层的神经元数量是清楚的。一种简单的计算神经元的方法是简单地乘以该层的三个维度(planes X width X height): 第2层: 27x27x128 * 2 = 186,624 第3层: 13x13x192 * 2 = 64,896 等等 但是,看一下第一层: 第1层: 55x55x48 * 2 = 290400 请注意,这与论文中所指定的不 253,440一样! 计算输出大小 计算卷积输出张量的另一种方法是: 如果输入图像是3D张量nInputPlane x height x width,输出图像尺寸将是nOutputPlane x owidth x oheight,其中 owidth = (width - kW) / dW …

2
dropout和drop connect有什么区别?
dropout和drop connect有什么区别? AFAIK,在训练过程中,dropout会随机丢弃隐藏的节点,但会使其处于测试状态,而drop connect会断开连接。 但是,删除连接是否不等于删除隐藏节点?节点(或连接)不是一组权重吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.