Questions tagged «neural-networks»

人工神经网络(ANN)是一类广泛的基于生物神经网络的计算模型。它们包括前馈NN(包括“深度” NN),卷积NN,递归NN等。

2
通常做法是将批次的平均损失而不是总和减到最小?
Tensorflow有一个有关对CIFAR-10进行分类的示例教程。在本教程中,批次中的平均交叉熵损失最小。 def loss(logits, labels): """Add L2Loss to all the trainable variables. Add summary for for "Loss" and "Loss/avg". Args: logits: Logits from inference(). labels: Labels from distorted_inputs or inputs(). 1-D tensor of shape [batch_size] Returns: Loss tensor of type float. """ # Calculate the average cross entropy loss across the …


2
从'69的数据中进行一般学习的最新状态
我试图了解1969年著名的Minsky和Papert所著的“ Perceptrons”的上下文,这对神经网络至关重要。 据我所知,除感知器外,没有其他通用的有监督学习算法:决策树仅在70年代后期才开始真正变得有用,随机森林和SVM都是90年代。似乎已经知道折刀法了,但k-cross验证(70s)或bootstrap(1979?)还不知道。 维基百科说,尽管上世纪40年代首次尝试描述混合理论,但内曼-皮尔森(Neyman-Pearson)和费舍尔(Fisher)的经典统计框架仍存在分歧。 因此,我的问题是:解决根据数据进行预测的一般问题的最新方法是什么?

3
神经网络中的tanh与乙状结肠
对于我仍在加快步伐这一事实,我预先表示歉意。我试图了解使用tanh(映射-1到1)与sigmoid(映射0到1)进行神经元激活功能的优缺点。从我的阅读来看,这听起来像是一件微不足道的事情。在实践中,针对我的问题,我发现S型曲线更容易训练,而且奇怪的是,S型曲线似乎可以更好地找到一般的解决方案。我的意思是,当完成了S型曲线的训练后,它在参考(未经训练)的数据集上表现良好,而tanh版本似乎能够在训练数据上获得正确的答案,而对参考的表现却很差。这是针对相同的网络体系结构。 我的直觉是,使用乙状结肠,神经元几乎完全关闭更容易,因此不为后续层提供任何输入。tanh在这里比较困难,因为它需要完全取消其输入,否则它总是为下一层提供一个值。也许这种直觉是错误的。 长帖子。底线是什么,这应该有很大的不同吗?


3
卷积神经网络中的卷积步骤做什么?
由于它们在计算机视觉中的应用,我正在研究卷积神经网络(CNN)。我已经熟悉标准的前馈神经网络,所以我希望这里的某些人可以帮助我在理解CNN方面采取额外的步骤。我对CNN的看法如下: 在传统的前馈神经网络中,我们拥有训练数据,其中每个元素都包含一个特征向量,该特征向量在“输入层”中输入到神经网络,因此在图像识别中,我们可以将每个像素作为一个输入。这些是我们的特征向量。或者,我们可以手动创建其他(可能较小)的特征向量。 CNN的优势在于它可以生成更强大的特征向量,这些特征向量对于图像失真和位置更加不变。如下图所示(来自本教程),CNN生成特征图,然后将其输入到标准神经网络中(因此,这实际上是一个巨大的预处理步骤)。 我们获得这些“更好”特征的方法是通过交替进行卷积和子采样。我了解子采样的工作原理。对于每个特征图,只取像素的一个子集,否则我们可以对像素值求平均值。 但是我主要困惑的是卷积步骤是如何工作的。我很熟悉概率论中的卷积(两个随机变量之和的密度),但是它们在CNN中如何工作,为什么有效? 我的问题与此类似,但是特别是,我不确定为什么第一步卷积有效。

2
VC维度用于测量神经网络的复杂性的替代方法是什么?
我遇到了一些测量神经网络复杂性的基本方法: 幼稚和非正式:计算神经元,隐藏的神经元,层或隐藏层的数量 VC维度(Eduardo D. Sontag [1998]“神经网络的VC维数” [ pdf ]。) 等效于TC0dTCd0TC^0_d过程粒度和渐近计算复杂性度量。 还有其他选择吗? 首选: 如果复杂性度量可用于在相同规模上测量来自不同范式的神经网络(以测量反向传播,动力学神经网络,级联相关性等)。例如,VC维度可用于网络(甚至是神经网络以外的其他事物)上的不同类型,而神经元的数量仅在激活函数,信号(基本和尖峰)以及其他函数非常特定的模型之间有用。网络的属性是相同的。 如果它与网络可学习的功能复杂性的标准度量有很好的对应关系 如果很容易在特定网络上计算度量标准(尽管这不是必须的)。 笔记 该问题基于对CogSci.SE 的更一般的问题。


3
多层感知器与深度神经网络
这是一个术语问题。有时我看到人们将深度神经网络称为“多层感知器”,这是为什么呢?我教过的感知器是一种单层分类器(或回归器),它使用特定的权重训练方法(不是反向传播)具有二进制阈值输出。如果感知器的输出与目标输出不匹配,则将输入矢量添加或减去权重(取决于感知器给出的是假阳性还是假阴性)。这是一种非常原始的机器学习算法。训练过程似乎无法推广到多层案例(至少并非没有修改)。深度神经网络是通过反向传播训练的,它使用链规则通过网络的所有权重传播成本函数的梯度。 所以,问题是。“多层感知器”与“深度神经网络”是否一样?如果是这样,为什么要使用该术语?似乎不必要地造成混淆。另外,假设术语在某种程度上是可互换的,那么当我指的是由完全连接的层(无卷积层或递归连接)组成的前馈网络时,我仅看到术语“多层感知器”。这个术语有多广泛?例如,当提到Inception网络时,会使用术语“多层感知器”吗?使用NLP中使用的LSTM模块的循环网络怎么样?

5
Yolo损失函数说明
我试图了解Yolo v2损失函数: λcoord∑i=0S2∑j=0B1objij[(xi−x^i)2+(yi−y^i)2]+λcoord∑i=0S2∑j=0B1objij[(wi−−√−w^i−−√)2+(hi−−√−h^i−−√)2]+∑i=0S2∑j=0B1objij(Ci−C^i)2+λnoobj∑i=0S2∑j=0B1noobjij(Ci−C^i)2+∑i=0S21obji∑c∈classes(pi(c)−p^i(c))2λcoord∑i=0S2∑j=0B1ijobj[(xi−x^i)2+(yi−y^i)2]+λcoord∑i=0S2∑j=0B1ijobj[(wi−w^i)2+(hi−h^i)2]+∑i=0S2∑j=0B1ijobj(Ci−C^i)2+λnoobj∑i=0S2∑j=0B1ijnoobj(Ci−C^i)2+∑i=0S21iobj∑c∈classes(pi(c)−p^i(c))2\begin{align} &\lambda_{coord} \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}[(x_i-\hat{x}_i)^2 + (y_i-\hat{y}_i)^2 ] \\&+ \lambda_{coord} \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}[(\sqrt{w_i}-\sqrt{\hat{w}_i})^2 +(\sqrt{h_i}-\sqrt{\hat{h}_i})^2 ]\\ &+ \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}(C_i - \hat{C}_i)^2 + \lambda_{noobj}\sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{noobj}(C_i - \hat{C}_i)^2 \\ &+ \sum_{i=0}^{S^2} \mathbb{1}_{i}^{obj}\sum_{c \in classes}(p_i(c) - \hat{p}_i(c))^2 \\ \end{align} 如果有人可以详细说明功能。

2
使用Adam Optimizer解释训练损失与迭代中的峰值
我正在使用i)SGD和ii)Adam Optimizer训练神经网络。当使用正常的SGD时,我得到了一条平滑的训练损耗与迭代曲线的曲线,如下图所示(红色的曲线)。但是,当我使用Adam Optimizer时,训练损耗曲线会有一些尖峰。这些尖峰的解释是什么? 型号详情: 14个输入节点-> 2个隐藏层(100-> 40个单位)-> 4个输出单位 我使用的默认参数为亚当beta_1 = 0.9,beta_2 = 0.999,epsilon = 1e-8和batch_size = 32。 i)与SGD ii)与Adam

3
我可以使用一个很小的验证集吗?
我了解将数据分为测试集和验证集的原因。我也了解,拆分的大小取决于情况,但通常会在50/50到90/10之间变化。 我建立了一个RNN以纠正拼写,并从大约500万个句子的数据集开始。我削减了50万个句子,然后训练剩下的〜450万个句子。训练完成后,我将使用我的验证集并计算准确性。 有趣的是,仅在我的验证集的4%之后,我的准确度为69.4%,并且该百分比在任一方向上的变化不超过0.1%。最终我只是缩短了验证时间,因为这个数字停留在69.5%。 那么,当我大概可以摆脱1%的费用时,为什么要砍掉10%的费用进行验证?有关系吗?

2
尽管损失值高,但精度高
在简单神经网络二进制分类器的训练过程中,我使用交叉熵得到了很高的损失值。尽管如此,验证集的准确性仍然具有很高的价值。有什么意义吗?损失与准确性之间没有严格的关联吗? 我在训练和验证这些值时:0.4011-acc:0.8224-val_loss:0.4577-val_acc:0.7826。这是我实现NN的首次尝试,而我刚刚接触过机器学习,因此无法正确评估这些结果。

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
RNN建模的可行序列长度是多少?
我正在研究使用递归神经网络(RNN)的LSTM(长期短期记忆)版本对时间序列数据进行建模。随着数据序列长度的增加,网络的复杂性也随之增加。因此,我很好奇准确建模的序列长度是多少? 我想使用相对简单的LSTM版本,而又不难实施最新技术。我的时间序列中的每个观测值可能都有4个数字变量,观测值的数量在100.000到1.000.000之间。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.