统计和大数据 tensorflow

4

我们能否将尺寸可变的图像作为卷积神经网络的输入以进行目标检测？如果可能，我们该怎么做？但是，如果我们尝试裁切图像，则会丢失图像的某些部分，如果尝试调整大小，则会丢失图像的清晰度。如果将图像清晰度作为主要考虑因素，这是否意味着使用固有的网络属性是最好的？

17 deep-learning tensorflow keras computer-vision object-detection

2

如何实现2D中的空间缺失？

这参考了论文《使用卷积网络进行有效对象本地化》，据我了解，辍学是在2D中实现的。从Keras阅读有关如何实现Spatial 2D Dropout的代码后，基本上实现了形状为[batch_size，1，1，num_channels]的随机二进制掩码。但是，此空间2D Dropout对形状为[batch_size，height，width，num_channels]的输入卷积块究竟做了什么？我目前的猜测是，对于每个像素，如果像素的任何层/通道具有负值，则该一个像素的整个通道将默认为零。它是否正确？但是，如果我的猜测是正确的，那么如何使用与原始输入块的尺寸完全相同的形状[batch_size，height，width，num_channels]的二进制掩码会产生通常的按元素丢弃（这是根据tensorflow的原始dropout实现将二进制掩码的形状设置为输入的形状）？因为这意味着如果conv块中的任何像素为负，则整个conv块将默认为0。这是我不太了解的令人困惑的部分。

14 machine-learning deep-learning tensorflow dropout

2

神经网络：一个热门变量压倒性连续吗？

我有大约20列（20个功能）的原始数据。其中有10个是连续数据，有10个是分类数据。某些分类数据可能具有50个不同的值（美国各州）。在我对数据进行预处理之后，连续的10列变成了10列准备好的列，而10个分类值变得像200个一键编码变量。我担心如果将所有这些200 + 10 = 210个特征都放入神经网络，那么200个热门特征（10个分类列）将完全占据10个连续特征。也许一种方法是将列“分组”或类似的东西。这是一个有效的问题吗？有没有标准的方法可以解决这个问题？（尽管我认为这没什么大不了，但我正在使用Keras。）

13 machine-learning neural-networks tensorflow data-preprocessing theano

5

在回归分析中，交叉熵成本是否有意义？

在回归（相对于分类）的上下文中，交叉熵成本是否有意义？如果是这样，您可以通过TensorFlow给出一个玩具示例吗？如果没有，为什么不呢？我正在阅读迈克尔·尼尔森（Michael Nielsen）的《神经网络和深度学习》中的交叉熵，它似乎可以自然地用于回归和分类，但是我不知道您如何在TensorFlow中有效地应用它。损失函数采用logit（我也不是很了解），它们在此处归类

13 regression entropy tensorflow cross-entropy

4

如何（系统地）使用梯度下降作为优化器来调整学习率？

ML / DL领域的局外人；开始了基于Tensorflow的Udacity深度学习课程；做作业3的问题4; 尝试使用以下配置调整学习率：批次大小128 步骤数：足以填满2个纪元隐藏层的大小：1024、305、75 重量初始化：使用std正常截断。sqrt（2 / n）的偏差，其中n是上一层的大小失学保持机率：0.75 正则化：不适用学习率算法：指数衰减玩弄学习率参数；在大多数情况下，它们似乎没有作用；在这里编码 ; 结果： Accuracy learning_rate decay_steps decay_rate staircase 93.7 .1 3000 .96 True 94.0 .3 3000 .86 False 94.0 .3 3000 .96 False 94.0 .3 3000 .96 True 94.0 .5 3000 .96 True 我应该如何系统地调整学习率？学习率与步数有何关系？

12 python machine-learning tensorflow deep-learning

2

小批量梯度下降如何批量更新每个示例的权重？

如果我们批量处理10个示例，我理解我们可以将每个示例的损失相加，但是反向传播在更新每个示例的权重方面如何工作？例如：示例1->损失= 2 示例2->损失= -2 这导致平均损失为0（E = 0），那么这将如何更新每个权重并收敛呢？仅仅是通过批次的随机化，我们“希望”早晚收敛？难道这还不是只为最后处理的示例计算第一组权重的梯度吗？

12 neural-networks gradient-descent backpropagation tensorflow

2

Keras：为什么损失减少而val_loss增加？

我为一组参数设置了网格搜索。我正在尝试为进行二进制分类的Keras神经网络找到最佳参数。输出为1或0。大约有200个要素。当我进行网格搜索时，我得到了一堆模型及其参数。最佳模型具有以下参数： Epochs : 20 Batch Size : 10 First Activation : sigmoid Learning Rate : 1 First Init : uniform 该模型的结果是： loss acc val_loss val_acc 1 0.477424 0.768542 0.719960 0.722550 2 0.444588 0.788861 0.708650 0.732130 3 0.435809 0.794336 0.695768 0.732682 4 0.427056 0.798784 0.684516 0.721137 5 0.420828 0.803048 0.703748 0.720707 …

12 machine-learning cross-validation deep-learning tensorflow theano

2

Tensorflow`tf.train.Optimizer`如何计算梯度？

我正在关注Tensorflow mnist教程（https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/mnist/mnist_softmax.py）。本教程使用tf.train.Optimizer.minimize（特别是tf.train.GradientDescentOptimizer）。我看不到任何传递参数以定义渐变的参数。 Tensor流默认情况下是否使用数值微分？有没有办法像您一样传递渐变scipy.optimize.minimize？

10 python optimization tensorflow

1

在训练过程中，神经网络通常需要一段时间来“踢”吗？

我正在尝试使用反向传播训练深度神经网络进行分类。具体来说，我使用Tensor Flow库将卷积神经网络用于图像分类。在训练过程中，我遇到一些奇怪的行为，我只是想知道这是否很典型，或者我做错了什么。因此，我的卷积神经网络有8层（5层卷积，3层完全连接）。所有权重和偏差均以较小的随机数初始化。然后，我设置步长，并使用Tensor Flow的Adam Optimizer进行小批量训练。我正在谈论的奇怪行为是，对于我的训练数据中的前10个循环，训练损失通常不会减少。权重正在更新，但训练损失大致保持在大约相同的值，有时在小批之间增加或减少。它会保持这种状态一段时间，并且我总是给人以损失永远不会减少的印象。然后，突然之间，训练损失急剧减少。例如，在训练数据的大约10个循环内，训练精度从大约20％变为大约80％。从那时起，一切最终都很好地融合在一起。每当我从头开始运行训练管道时，都会发生相同的事情，下面的图表说明了一个示例运行。因此，我想知道的是，这是通过训练深度神经网络进行的正常行为，从而需要一段时间才能“踢进”。还是我做错了某件事导致了此延迟？非常感谢！

10 machine-learning classification neural-networks conv-neural-network tensorflow

1

为什么随机傅立叶特征非负？

随机傅里叶特征提供了内核函数的近似值。它们用于各种内核方法，例如SVM和高斯进程。今天，我尝试使用TensorFlow实现，但我的一半功能却得到了负值。据我了解，这不应该发生。因此，我回到了原论文上，就像我期望的那样，该论文说这些功能应该存在于[0,1]中。但是它的解释（在下面突出显示）对我来说没有意义：余弦函数可以在[-1,1]中的任何位置产生值，并且显示的大多数点都具有负余弦值。我可能缺少明显的东西，但是如果有人可以指出它是什么，我将不胜感激。

10 machine-learning kernel-smoothing feature-construction tensorflow fourier-transform

2

WaveNet并不是真正的膨胀卷积，是吗？

在最近的WaveNet论文中，作者将他们的模型称为具有膨胀卷积的堆叠层。他们还产生以下图表，解释“常规”卷积和膨胀卷积之间的区别。常规卷积看起来像是一个卷积为2且步幅为1的卷积，重复4层。然后，他们展示了其模型所使用的体系结构，它们称为膨胀卷积。看起来像这样。他们说每一层的膨胀都增加了（1、2、4、8）。但是对我来说，这看起来像是常规卷积，滤镜大小为2，步幅为2，重复了4层。据我了解，一个过滤器大小为2，步幅为1，膨胀为（1、2、4、8、8）的膨胀卷积看起来像这样。在WaveNet图表中，没有一个过滤器会跳过可用的输入。没有孔。在我的图中，每个过滤器跳过（d-1）个可用输入。这是扩张应该不会起作用的方式吗？所以我的问题是，以下哪个命题是正确的？我不了解膨胀和/或规则卷积。 Deepmind实际上并没有实现膨胀卷积，而是跨步卷积，但是滥用了膨胀一词。 Deepmind确实实现了膨胀卷积，但没有正确实现图表。我对TensorFlow代码的理解不够流利，无法理解他们的代码到底在做什么，但是我确实在Stack Exchange上发布了一个相关的问题，其中包含一些可以回答这个问题的代码。

10 neural-networks deep-learning conv-neural-network tensorflow

1

哪种深度学习模型可以对不互斥的类别进行分类

示例：我的职位描述中有一句话：“英国Java高级工程师”。我想使用深度学习模型将其预测为2类：English 和IT jobs。如果我使用传统的分类模型，则只能预测softmax最后一层具有功能的标签。因此，我可以使用2个模型神经网络来预测两个类别的“是” /“否”，但是如果我们有更多类别，那就太贵了。那么，我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别？ “编辑”：使用传统方法使用3个标签，它将由[1,0,0]编码，但在我的情况下，它将由[1,1,0]或[1,1,1]编码示例：如果我们有3个标签，并且所有这些标签都适合一个句子。因此，如果softmax函数的输出为[0.45，0.35，0.2]，我们应该将其分类为3个标签或2个标签，或者可以是一个？我们这样做的主要问题是：分类为1个，2个或3个标签的最佳阈值是多少？

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

Questions tagged «tensorflow»