Questions tagged «deep-learning»

机器学习领域,主要是通过深度神经网络来学习数据的分层表示。

2
“深度学习”与多层/分层建模之间有什么区别?
“深度学习”只是多层次/层次建模的另一个术语吗? 我比后者更熟悉后者,但是据我所知,主要区别不在于它们的定义,而是它们在其应用程序域中的使用和评估方式。 看起来,典型的“深度学习”应用程序中的节点数量更多,并且使用通用的层次结构形式,而多级建模的应用程序通常使用层次结构关系来模仿正在建模的生成过程。在应用统计(层次建模)域中使用通用层次结构将被视为现象的“不正确”模型,而对特定领域的层次结构进行建模可能被视为颠覆了制造通用深度学习机器的目标。 这两件事是否真的是同一台机器,但使用两种不同的名称,以两种不同的方式使用?

7
验证准确性为何会波动?
我有一个四层的CNN,可以使用MRI数据预测对癌症的反应。我使用ReLU激活来引入非线性。列车精度和损耗分别单调增加和减少。但是,我的测试准确性开始出现剧烈波动。我尝试过更改学习率,减少层数。但是,这并不能阻止波动。我什至阅读了这个答案,并尝试按照该答案中的说明进行操作,但是再没有碰运气了。谁能帮我弄清楚我要去哪里错了?



5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 


1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
现在不能说深度学习模型可以解释吗?是节点功能吗?
对于统计模型和机器学习模型,可解释性有多个级别:1)整个算法,2)一般的算法部分3)特定输入的算法部分,这三个级别分别分为两个部分,一种用于训练,另一种用于功能评估。最后两个部分比第一个部分更接近。我问的是#2,通常可以更好地理解#3。(如果这些不是“可解释性”的含义,那我应该怎么想?) 就可解释性而言,逻辑回归是最容易解释的一种。为什么此实例超过阈值?因为该实例具有此特定的正特征,并且在模型中具有较大的系数。太明显了! 神经网络是难以解释的模型的经典示例。所有这些系数是什么意思?它们全都以如此复杂的疯狂方式加起来,以至于很难说出任何特定系数在做什么。 但是随着所有深层神经网络的出现,感觉事情变得越来越清晰。DL模型(例如视觉)似乎在早期层中捕获了诸如边缘或方向之类的东西,而在后来的层中,似乎某些节点实际上是语义上的(例如众所周知的“祖母细胞”)。例如: (摘自“了解深度学习”) 这是一个图形(许多在那里的,用手演示文稿中创建让我很怀疑)。但是有证据表明有人认为这是有效的。 也许在过去,没有足够的层次供我们查找可识别的功能。这些模型是成功的,只是事后分析特定模型并不容易。 但是也许图形只是一厢情愿的想法。也许神经网络是真正难以理解的。 但是,许多带有标有图片的节点的图形也确实令人信服。 DL节点真的对应功能吗?


5
深层神经网络可以在没有归一化的情况下近似乘积函数吗?
假设我们要f = x * y使用标准深层神经网络来简化回归。 我记得有一些重述,告诉我们带有一个隐藏层的NN可以近似任何函数,但是我尝试过并且没有规范化,即使是这种简单的乘法,NN也无法近似。只有数据的对数归一化才有帮助,m = x*y => ln(m) = ln(x) + ln(y). 但这看起来像个骗子。NN是否可以在没有对数归一化的情况下做到这一点?显然,(对我来说)是坚定的人-是的,所以问题是这种NN的类型/配置/布局应该是什么?

1
为什么非零中心激活函数在反向传播中会成为问题?
我在这里阅读以下内容: 乙状结肠输出不是零中心的。这是不希望的,因为神经网络中处理的后续层中的神经元(即将对此进行详细介绍)将接收到非零中心的数据。这对梯度下降期间的动力学有影响,因为如果进入神经元的数据始终为正(例如, 元素,在),则权重的梯度 将在反向传播期间变为全部为正,或全部为负(取决于整个表达式的梯度 x>0x>0x > 0f=wTx+bf=wTx+bf = w^Tx + bwwwfff)。这可能会在权重的梯度更新中引入不希望的之字形动力学。但是,请注意,一旦将这些梯度添加到一批数据中,权重的最终更新就可以具有可变的符号,从而在某种程度上缓解了此问题。因此,这是一个不便,但是与上面的饱和激活问题相比,后果不那么严重。 为什么让所有(在元素上)都导致全正或全负梯度?x>0x>0x>0www

4
具有跳过层连接的神经网络
我对神经网络的回归感兴趣。 具有零隐藏节点+跳过层连接的神经网络是线性模型。 相同的神经网络又有隐藏的节点呢?我想知道跳过层连接的作用是什么? 直观地讲,如果您包括跳过层连接,那么最终模型将是线性模型+某些非线性部分的总和。 向神经网络添加跳过层连接有什么优点或缺点?

2
变分自动编码器中如何权衡KLD损耗与重构损耗
在我见过的VAE的几乎所有代码示例中,损失函数的定义如下(这是张量流代码,但是我看到theano,torch等类似。它也适用于卷积网络,但这也不太相关) ,仅影响轴的总和): # latent space loss. KL divergence between latent space distribution and unit gaussian, for each batch. # first half of eq 10. in https://arxiv.org/abs/1312.6114 kl_loss = -0.5 * tf.reduce_sum(1 + log_sigma_sq - tf.square(mu) - tf.exp(log_sigma_sq), axis=1) # reconstruction error, using pixel-wise L2 loss, for each batch rec_loss = …


10
为什么不抛弃神经网络和深度学习呢?[关闭]
已关闭。这个问题是基于观点的。它当前不接受答案。 想改善这个问题吗?更新问题,以便通过编辑此帖子以事实和引用的形式回答。 2年前关闭。 深度学习和神经网络通常存在的基本问题。 适合训练数据的解决方案是无限的。我们没有一个只有一个人就能满足的精确数学方程式,并且可以说是最好的概括。简而言之,我们不知道哪种概括最好。 优化权重并不是一个凸面的问题,因此我们永远都不会知道最终会遇到全局最小值还是局部最小值。 那么,为什么不抛弃神经网络而寻找更好的ML模型呢?我们了解什么,并且与一组数学方程式一致?线性和SVM没有数学上的缺点,并且与一组数学方程式完全一致。为什么不只是沿着同一条线思考(虽然不需要线性),并且提出一个比线性和SVM,神经网络和深度学习更好的新ML模型?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.