Questions tagged «neural-networks»

人工神经网络(ANN)是一类广泛的基于生物神经网络的计算模型。它们包括前馈NN(包括“深度” NN),卷积NN,递归NN等。

1
输出层中的交叉熵或对数似然
我阅读了此页面:http : //neuralnetworksanddeeplearning.com/chap3.html 它说具有交叉熵的S形输出层与具有对数似然的softmax输出层非常相似。 如果我在输出层中使用具有对数似然的S型或具有交叉熵的softmax会发生什么?可以吗 因为我看到交叉熵(eq.57)之间的方程式几乎没有区别: C=−1n∑x(ylna+(1−y)ln(1−a))C=−1n∑x(yln⁡a+(1−y)ln⁡(1−a))C = -\frac{1}{n} \sum\limits_x (y \ln a + (1-y) \ln (1-a)) 和对数似然(eq.80): C=−1n∑x(lnaLy)C=−1n∑x(ln⁡ayL)C =-\frac{1}{n} \sum\limits_x(\ln a^L_y)


2
卷积神经网络:输出中的中枢神经元难道不是代表过多的吗?
[这个问题也在堆栈溢出时提出] 简短的问题 我正在研究卷积神经网络,我相信这些网络不会等效地对待每个输入神经元(像素/参数)。假设我们有一个深层网络(许多层),对某些输入图像进行卷积。图像“中间”的神经元具有通往许多深层神经元的许多独特途径,这意味着中间神经元的微小变化会对输出产生强烈影响。但是,图像边缘的神经元只有途径(或取决于确切的实现方式,为1阶),这些途径中的信息会流过该图。看来这些“代表性不足”。111111 我对此感到担忧,因为对边缘神经元的辨别与网络的深度(层数)成指数关系。即使添加最大池化层也不会阻止指数增长,只有完整的连接才能使所有神经元处于平等的地位。但是,我不相信我的推理是正确的,因此我的问题是: 我对吗,这种影响发生在深度卷积网络中吗? 有没有关于这一点的理论,文献中是否曾提及过? 有办法克服这种影响吗? 因为我不确定是否可以提供足够的信息,所以我将详细说明问题说明以及为什么我认为这是一个问题。 更详细的解释 想象一下,我们有一个将图像作为输入的深度神经网络。假设我们在图像上应用了一个像素的卷积滤波器,每次我们将卷积窗口都移动4个像素。这意味着输入中的每个神经元都会将其激活发送给第2层中的16 × 16 = 265个神经元。这些神经元中的每一个都可能将其激活发送给另一个265,这样,我们的最高神经元就可以在265 2个输出神经元中表示,依此类推。64×6464×6464\times 6444416×16=26516×16=26516 \times 16 = 26522226526526526522652265^2 111 333 https://www.dropbox.com/s/7rbwv7z14j4h0jr/deep_conv_problem_stackxchange.png?dl=0 为什么这是个问题? 乍看之下,这种影响似乎并不是问题:原则上,权重应该以网络能够正常工作的方式自动调整。而且,在图像识别中,图像的边缘并不是那么重要。在日常的图像识别测试中,这种效果可能并不明显,但是由于两个原因,它仍然使我感到担忧:1.推广到其他应用程序;以及 2.在非常深的网络中出现的问题。 1.可能还有其他应用程序,例如语音或声音识别,其中最中间的神经元并不是最重要的。在这个领域中通常会应用卷积,但是我找不到任何提及我所关注的效果的论文。 1010102651026510265^{10} 现在想象一下,我们会少量扰动所有神经元。与边缘神经元相比,中枢神经元将导致输出变化更大幅度几个数量级。我相信对于一般应用程序和非常深的网络,应该找到解决问题的方法吗?



2
术语“饱和非线性”是什么意思?
我正在阅读具有深度卷积神经网络的ImageNet分类论文,在第3节中,他们解释了卷积神经网络的体系结构,并解释了如何使用以下方法: 非饱和非线性f(x)=max(0,x).f(x)=max(0,x)。f(x) = max(0, x). 因为训练起来更快。在那篇论文中,他们似乎将饱和非线性称为CNN中使用的更传统的函数,S形和双曲正切函数(即F(X )= 吨一个Ñ ħ (X )F(X)=Ť一种ñH(X)f(x) = tanh(x)和F(x )= 11 + e− x= (1 + e− x)− 1F(X)=1个1个+Ë-X=(1个+Ë-X)-1个f(x) = \frac{1}{1 + e^{-x}} = (1 + e^{-x})^{-1}为饱和)。 他们为什么将这些功能称为“饱和”或“非饱和”?这些功能在什么意义上是“饱和”或“非饱和”的?这些术语在卷积神经网络的背景下意味着什么?它们是否用于其他机器学习(和统计)领域?

5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 


3
R:尽管数据集中没有NaN,随机森林仍在“外部函数调用”错误中抛出NaN / Inf [关闭]
我正在使用插入符号在数据集上运行交叉验证的随机森林。Y变量是一个因素。我的数据集中没有NaN,Inf或NA。但是,当运行随机森林时,我得到 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

3
现在不能说深度学习模型可以解释吗?是节点功能吗?
对于统计模型和机器学习模型,可解释性有多个级别:1)整个算法,2)一般的算法部分3)特定输入的算法部分,这三个级别分别分为两个部分,一种用于训练,另一种用于功能评估。最后两个部分比第一个部分更接近。我问的是#2,通常可以更好地理解#3。(如果这些不是“可解释性”的含义,那我应该怎么想?) 就可解释性而言,逻辑回归是最容易解释的一种。为什么此实例超过阈值?因为该实例具有此特定的正特征,并且在模型中具有较大的系数。太明显了! 神经网络是难以解释的模型的经典示例。所有这些系数是什么意思?它们全都以如此复杂的疯狂方式加起来,以至于很难说出任何特定系数在做什么。 但是随着所有深层神经网络的出现,感觉事情变得越来越清晰。DL模型(例如视觉)似乎在早期层中捕获了诸如边缘或方向之类的东西,而在后来的层中,似乎某些节点实际上是语义上的(例如众所周知的“祖母细胞”)。例如: (摘自“了解深度学习”) 这是一个图形(许多在那里的,用手演示文稿中创建让我很怀疑)。但是有证据表明有人认为这是有效的。 也许在过去,没有足够的层次供我们查找可识别的功能。这些模型是成功的,只是事后分析特定模型并不容易。 但是也许图形只是一厢情愿的想法。也许神经网络是真正难以理解的。 但是,许多带有标有图片的节点的图形也确实令人信服。 DL节点真的对应功能吗?


2
骰子系数损失函数与交叉熵
在训练像素分割神经网络(例如全卷积网络)时,您如何决定使用交叉熵损失函数还是Dice系数损失函数? 我意识到这是一个简短的问题,但不确定要提供什么其他信息。我看了一堆有关这两个损失函数的文档,但是无法直观地了解何时使用它们。

5
深层神经网络可以在没有归一化的情况下近似乘积函数吗?
假设我们要f = x * y使用标准深层神经网络来简化回归。 我记得有一些重述,告诉我们带有一个隐藏层的NN可以近似任何函数,但是我尝试过并且没有规范化,即使是这种简单的乘法,NN也无法近似。只有数据的对数归一化才有帮助,m = x*y => ln(m) = ln(x) + ln(y). 但这看起来像个骗子。NN是否可以在没有对数归一化的情况下做到这一点?显然,(对我来说)是坚定的人-是的,所以问题是这种NN的类型/配置/布局应该是什么?


1
为什么非零中心激活函数在反向传播中会成为问题?
我在这里阅读以下内容: 乙状结肠输出不是零中心的。这是不希望的,因为神经网络中处理的后续层中的神经元(即将对此进行详细介绍)将接收到非零中心的数据。这对梯度下降期间的动力学有影响,因为如果进入神经元的数据始终为正(例如, 元素,在),则权重的梯度 将在反向传播期间变为全部为正,或全部为负(取决于整个表达式的梯度 x>0x>0x > 0f=wTx+bf=wTx+bf = w^Tx + bwwwfff)。这可能会在权重的梯度更新中引入不希望的之字形动力学。但是,请注意,一旦将这些梯度添加到一批数据中,权重的最终更新就可以具有可变的符号,从而在某种程度上缓解了此问题。因此,这是一个不便,但是与上面的饱和激活问题相比,后果不那么严重。 为什么让所有(在元素上)都导致全正或全负梯度?x>0x>0x>0www

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.