统计和大数据 neural-networks

2

Tensorflow有一个有关对CIFAR-10进行分类的示例教程。在本教程中，批次中的平均交叉熵损失最小。 def loss(logits, labels): """Add L2Loss to all the trainable variables. Add summary for for "Loss" and "Loss/avg". Args: logits: Logits from inference(). labels: Labels from distorted_inputs or inputs(). 1-D tensor of shape [batch_size] Returns: Loss tensor of type float. """ # Calculate the average cross entropy loss across the …

17 neural-networks loss-functions tensorflow

1

神经网络文献中的张量：那里最简单的定义是什么？

在神经网络文献中，经常遇到“张量”一词。它与向量不同吗？从矩阵？您是否有任何具体示例可以阐明其定义？我对它的定义有些困惑。维基百科无济于事，有时我的印象是，它的定义取决于所使用的特定机器学习环境（TensorFlow，Caffee，Theano）。

16 neural-networks terminology definition tensor

2

从'69的数据中进行一般学习的最新状态

我试图了解1969年著名的Minsky和Papert所著的“ Perceptrons”的上下文，这对神经网络至关重要。据我所知，除感知器外，没有其他通用的有监督学习算法：决策树仅在70年代后期才开始真正变得有用，随机森林和SVM都是90年代。似乎已经知道折刀法了，但k-cross验证（70s）或bootstrap（1979？）还不知道。维基百科说，尽管上世纪40年代首次尝试描述混合理论，但内曼-皮尔森（Neyman-Pearson）和费舍尔（Fisher）的经典统计框架仍存在分歧。因此，我的问题是：解决根据数据进行预测的一般问题的最新方法是什么？

16 classification neural-networks history

3

神经网络中的tanh与乙状结肠

对于我仍在加快步伐这一事实，我预先表示歉意。我试图了解使用tanh（映射-1到1）与sigmoid（映射0到1）进行神经元激活功能的优缺点。从我的阅读来看，这听起来像是一件微不足道的事情。在实践中，针对我的问题，我发现S型曲线更容易训练，而且奇怪的是，S型曲线似乎可以更好地找到一般的解决方案。我的意思是，当完成了S型曲线的训练后，它在参考（未经训练）的数据集上表现良好，而tanh版本似乎能够在训练数据上获得正确的答案，而对参考的表现却很差。这是针对相同的网络体系结构。我的直觉是，使用乙状结肠，神经元几乎完全关闭更容易，因此不为后续层提供任何输入。tanh在这里比较困难，因为它需要完全取消其输入，否则它总是为下一层提供一个值。也许这种直觉是错误的。长帖子。底线是什么，这应该有很大的不同吗？

16 neural-networks

1

卷积神经网络中特征图的数量

在学习卷积神经网络时，我对下图有疑问。 1）第1层中的C1有6个特征图，是否意味着有6个卷积核？每个卷积核用于基于输入生成特征图。 2）第2层中的S1具有6个特征图，C2具有16个特征图。基于S1中的6个特征图来获得这16个特征图的过程是什么样的？

16 machine-learning neural-networks deep-learning pattern-recognition conv-neural-network

3

卷积神经网络中的卷积步骤做什么？

由于它们在计算机视觉中的应用，我正在研究卷积神经网络（CNN）。我已经熟悉标准的前馈神经网络，所以我希望这里的某些人可以帮助我在理解CNN方面采取额外的步骤。我对CNN的看法如下：在传统的前馈神经网络中，我们拥有训练数据，其中每个元素都包含一个特征向量，该特征向量在“输入层”中输入到神经网络，因此在图像识别中，我们可以将每个像素作为一个输入。这些是我们的特征向量。或者，我们可以手动创建其他（可能较小）的特征向量。 CNN的优势在于它可以生成更强大的特征向量，这些特征向量对于图像失真和位置更加不变。如下图所示（来自本教程），CNN生成特征图，然后将其输入到标准神经网络中（因此，这实际上是一个巨大的预处理步骤）。我们获得这些“更好”特征的方法是通过交替进行卷积和子采样。我了解子采样的工作原理。对于每个特征图，只取像素的一个子集，否则我们可以对像素值求平均值。但是我主要困惑的是卷积步骤是如何工作的。我很熟悉概率论中的卷积（两个随机变量之和的密度），但是它们在CNN中如何工作，为什么有效？我的问题与此类似，但是特别是，我不确定为什么第一步卷积有效。

16 neural-networks deep-learning conv-neural-network convolution

2

VC维度用于测量神经网络的复杂性的替代方法是什么？

我遇到了一些测量神经网络复杂性的基本方法：幼稚和非正式：计算神经元，隐藏的神经元，层或隐藏层的数量 VC维度（Eduardo D. Sontag [1998]“神经网络的VC维数” [ pdf ]。）等效于TC0dTCd0TC^0_d过程粒度和渐近计算复杂性度量。还有其他选择吗？首选：如果复杂性度量可用于在相同规模上测量来自不同范式的神经网络（以测量反向传播，动力学神经网络，级联相关性等）。例如，VC维度可用于网络（甚至是神经网络以外的其他事物）上的不同类型，而神经元的数量仅在激活函数，信号（基本和尖峰）以及其他函数非常特定的模型之间有用。网络的属性是相同的。如果它与网络可学习的功能复杂性的标准度量有很好的对应关系如果很容易在特定网络上计算度量标准（尽管这不是必须的）。笔记该问题基于对CogSci.SE 的更一般的问题。

16 neural-networks theory vc-dimension pac-learning

2

神经网络预测入门

我需要一些资源来开始使用神经网络进行时间序列预测。我很警惕地执行一些论文，然后发现他们已经大大夸大了他们方法的潜力。因此，如果您有使用这些方法的经验，那么建议它会更加出色。

16 time-series neural-networks forecasting references

3

多层感知器与深度神经网络

这是一个术语问题。有时我看到人们将深度神经网络称为“多层感知器”，这是为什么呢？我教过的感知器是一种单层分类器（或回归器），它使用特定的权重训练方法（不是反向传播）具有二进制阈值输出。如果感知器的输出与目标输出不匹配，则将输入矢量添加或减去权重（取决于感知器给出的是假阳性还是假阴性）。这是一种非常原始的机器学习算法。训练过程似乎无法推广到多层案例（至少并非没有修改）。深度神经网络是通过反向传播训练的，它使用链规则通过网络的所有权重传播成本函数的梯度。所以，问题是。“多层感知器”与“深度神经网络”是否一样？如果是这样，为什么要使用该术语？似乎不必要地造成混淆。另外，假设术语在某种程度上是可互换的，那么当我指的是由完全连接的层（无卷积层或递归连接）组成的前馈网络时，我仅看到术语“多层感知器”。这个术语有多广泛？例如，当提到Inception网络时，会使用术语“多层感知器”吗？使用NLP中使用的LSTM模块的循环网络怎么样？

16 neural-networks perceptron

5

Yolo损失函数说明

我试图了解Yolo v2损失函数： λcoord∑i=0S2∑j=0B1objij[(xi−x^i)2+(yi−y^i)2]+λcoord∑i=0S2∑j=0B1objij[(wi−−√−w^i−−√)2+(hi−−√−h^i−−√)2]+∑i=0S2∑j=0B1objij(Ci−C^i)2+λnoobj∑i=0S2∑j=0B1noobjij(Ci−C^i)2+∑i=0S21obji∑c∈classes(pi(c)−p^i(c))2λcoord∑i=0S2∑j=0B1ijobj[(xi−x^i)2+(yi−y^i)2]+λcoord∑i=0S2∑j=0B1ijobj[(wi−w^i)2+(hi−h^i)2]+∑i=0S2∑j=0B1ijobj(Ci−C^i)2+λnoobj∑i=0S2∑j=0B1ijnoobj(Ci−C^i)2+∑i=0S21iobj∑c∈classes(pi(c)−p^i(c))2\begin{align} &\lambda_{coord} \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}[(x_i-\hat{x}_i)^2 + (y_i-\hat{y}_i)^2 ] \\&+ \lambda_{coord} \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}[(\sqrt{w_i}-\sqrt{\hat{w}_i})^2 +(\sqrt{h_i}-\sqrt{\hat{h}_i})^2 ]\\ &+ \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}(C_i - \hat{C}_i)^2 + \lambda_{noobj}\sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{noobj}(C_i - \hat{C}_i)^2 \\ &+ \sum_{i=0}^{S^2} \mathbb{1}_{i}^{obj}\sum_{c \in classes}(p_i(c) - \hat{p}_i(c))^2 \\ \end{align} 如果有人可以详细说明功能。

16 neural-networks loss-functions object-detection yolo

2

使用Adam Optimizer解释训练损失与迭代中的峰值

我正在使用i）SGD和ii）Adam Optimizer训练神经网络。当使用正常的SGD时，我得到了一条平滑的训练损耗与迭代曲线的曲线，如下图所示（红色的曲线）。但是，当我使用Adam Optimizer时，训练损耗曲线会有一些尖峰。这些尖峰的解释是什么？型号详情： 14个输入节点-> 2个隐藏层（100-> 40个单位）-> 4个输出单位我使用的默认参数为亚当beta_1 = 0.9，beta_2 = 0.999，epsilon = 1e-8和batch_size = 32。 i）与SGD ii）与Adam

16 neural-networks deep-learning adam

3

我可以使用一个很小的验证集吗？

我了解将数据分为测试集和验证集的原因。我也了解，拆分的大小取决于情况，但通常会在50/50到90/10之间变化。我建立了一个RNN以纠正拼写，并从大约500万个句子的数据集开始。我削减了50万个句子，然后训练剩下的〜450万个句子。训练完成后，我将使用我的验证集并计算准确性。有趣的是，仅在我的验证集的4％之后，我的准确度为69.4％，并且该百分比在任一方向上的变化不超过0.1％。最终我只是缩短了验证时间，因为这个数字停留在69.5％。那么，当我大概可以摆脱1％的费用时，为什么要砍掉10％的费用进行验证？有关系吗？

15 machine-learning neural-networks validation

2

尽管损失值高，但精度高

在简单神经网络二进制分类器的训练过程中，我使用交叉熵得到了很高的损失值。尽管如此，验证集的准确性仍然具有很高的价值。有什么意义吗？损失与准确性之间没有严格的关联吗？我在训练和验证这些值时：0.4011-acc：0.8224-val_loss：0.4577-val_acc：0.7826。这是我实现NN的首次尝试，而我刚刚接触过机器学习，因此无法正确评估这些结果。

15 neural-networks accuracy

4

梯度提升机的精度随着迭代次数的增加而降低

我正在通过caretR中的程序包尝试使用梯度增强机算法。使用一个小的大学录取数据集，我运行了以下代码： library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

1

RNN建模的可行序列长度是多少？

我正在研究使用递归神经网络（RNN）的LSTM（长期短期记忆）版本对时间序列数据进行建模。随着数据序列长度的增加，网络的复杂性也随之增加。因此，我很好奇准确建模的序列长度是多少？我想使用相对简单的LSTM版本，而又不难实施最新技术。我的时间序列中的每个观测值可能都有4个数字变量，观测值的数量在100.000到1.000.000之间。

15 neural-networks deep-learning lstm

Questions tagged «neural-networks»