数据科学

10

我最近读了乔纳森·朗（Jonathan Long），埃文·谢尔哈默（Evan Shelhamer）和特雷弗·达雷尔（Trevor Darrell）撰写的用于语义分割的全卷积网络。我不了解“反卷积层”的作用/作用方式。相关部分是 3.3。向上采样是向后跨步的卷积将粗略输出连接到密集像素的另一种方法是插值。例如，简单的双线性插值通过仅依赖于输入和输出像元的相对位置的线性映射从最近的四个输入计算每个输出。从某种意义上讲，使用因子进行的上采样是具有1 / f的分数输入步幅的卷积。只要f是整数，向上采样的自然方法就是以输出步幅f向后进行卷积（有时称为反卷积）。这样的操作很容易实现，因为它简单地反转了卷积的前进和后退。yijyijy_{ij}fff˚Fffffff 因此，通过从像素方向的损失进行反向传播，在网络中执行上采样以进行端到端学习。注意，在这样的层中的去卷积滤波器不必是固定的（例如，固定为双线性上采样），而是可以学习的。一堆解卷积层和激活函数甚至可以学习非线性上采样。在我们的实验中，我们发现网络内上采样对于学习密集预测是快速有效的。我们最好的分割架构使用这些层来学习上采样，以进行第4.2节中的精确预测。我不认为我真的了解卷积层是如何训练的。我想我了解的是，内核大小为卷积层学习大小为过滤器。卷积层的内核大小为，步幅为和过滤器的输出的尺寸为。但是，我不知道卷积层的学习是如何工作的。（如果有帮助，我知道简单的MLP如何通过梯度下降来学习）。ķ × ķ ķ 小号∈ Ñ Ñkkkk×kk×kk \times kkkks∈Ns∈Ns \in \mathbb{N}nnnInput dims2⋅nInput dims2⋅n\frac{\text{Input dim}}{s^2} \cdot n 因此，如果我对卷积层的理解是正确的，我不知道如何将其逆转。有人可以帮我理解反卷积层吗？

187 neural-network convnet convolution

30

公开可用的数据集

数据科学中的常见问题之一是以某种方式清洗（半结构）的格式从各种来源收集数据，并结合各种来源的指标以进行更高级别的分析。查看其他人的努力，尤其是本网站上的其他问题，看来该领域的许多人正在做一些重复的工作。例如，分析推文，facebook帖子，Wikipedia文章等是许多大数据问题的一部分。其中一些数据集可以使用提供商站点提供的公共API进行访问，但是通常，这些API中缺少一些有价值的信息或指标，每个人都必须一次又一次地进行相同的分析。例如，尽管群集用户可能取决于不同的用例和功能选择，但是对Twitter / Facebook用户进行基本群集在许多大数据应用程序中可能很有用，API既未提供该功能，也未在独立数据集中公开提供此功能。是否有任何索引或公共可用的数据集托管站点包含有价值的数据集，可用于解决其他大数据问题？我的意思是像GitHub（或一组站点/公共数据集或至少一个完整的清单）这样的数据科学。如果没有，那么没有这样的数据科学平台的原因是什么？数据的商业价值，需要经常更新数据集吗？我们是否可以没有一个开放源代码的模型来共享为数据科学家设计的数据集？

167 open-source dataset

13

用于混合数值和分类数据的K-Means聚类

我的数据集包含许多数字属性和一个类别。说NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr，其中CategoricalAttr采用的三个可能的值之一：CategoricalAttrValue1，CategoricalAttrValue2或CategoricalAttrValue3。我正在为Octave使用默认的k-means聚类算法实现https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/。它仅适用于数字数据。所以我的问题是：将类别属性拆分CategoricalAttr为三个数字（二进制）变量是否正确IsCategoricalAttrValue1, IsCategoricalAttrValue2, IsCategoricalAttrValue3？

133 data-mining clustering octave k-means categorical-data

17

最佳的神经网络Python库

我正在使用神经网络来解决不同的机器学习问题。我正在使用Python和pybrain，但该库几乎已停产。Python中还有其他好的替代方法吗？

130 machine-learning python neural-network

8

如何在Keras中为不平衡的班级设置班级权重？

我知道在Keras中使用class_weights参数字典进行拟合是有可能的，但是我找不到任何示例。有人愿意提供吗？顺便说一句，在这种情况下，适当的做法仅仅是根据少数群体的代表性不足来按比例增加少数群体的比例？

128 classification keras weighted-data

5

神经网络中的“垂死的ReLU”问题是什么？

参阅有关视觉识别的卷积神经网络的斯坦福课程笔记，一段内容如下： “不幸的是，ReLU单元在训练过程中可能很脆弱，并且可能“死亡”。例如，流过ReLU神经元的大梯度可能导致权重更新，从而使神经元再也不会在任何数据点上激活。如果发生这种情况，那么从该点开始流过该单元的梯度将永远为零，也就是说，ReLU单元在训练过程中可能会不可逆地死亡，因为它们可能会从数据流形上脱落下来。例如，您可能会发现多达40个如果学习率设置得太高，您的网络中的％可能是“死亡”的（即永远不会在整个训练数据集中激活的神经元）。通过适当设置学习率，这通常不会成为问题。这里的神经元死亡意味着什么？您能否以更简单的方式提供直观的说明。

118 machine-learning neural-network deep-learning

5

神经网络中的交叉熵误差函数

在MNIST对于ML初学者中，他们将交叉熵定义为 Hy′(y):=−∑iy′ilog(yi)Hy′(y):=−∑iyi′log⁡(yi)H_{y'} (y) := - \sum_{i} y_{i}' \log (y_i) yiyiy_i是类别i的预测概率值iii，y′iyi′y_i'是该类别的真实概率。问题1 yiyiy_i（在log(yi)log⁡(yi)\log(y_i)）可以为0 是否不是问题？当然，这意味着我们的分类器非常差。但是请考虑我们数据集中的错误，例如1标记为的“显而易见”错误3。它会崩溃吗？我们选择的模型（最后激活softmax）是否基本上不会为正确的类别给出概率0？问题2 我了解到交叉熵定义为 Hy′(y):=−∑i(y′ilog(yi)+(1−y′i)log(1−yi))Hy′(y):=−∑i(yi′log⁡(yi)+(1−yi′)log⁡(1−yi))H_{y'}(y) := - \sum_{i} ({y_i' \log(y_i) + (1-y_i') \log (1-y_i)}) 什么是正确的？您对这两个版本都有教科书参考吗？这些函数的特性如何不同（作为神经网络的误差函数）？

113 machine-learning tensorflow

8

scikit_learn模型中的fit和fit_transform之间的区别？

我是数据科学的新手，我不了解scikit-learn fit和fit_transform方法之间的区别。谁能简单解释为什么我们可能需要转换数据？对训练数据拟合模型并转换为测试数据意味着什么？这是否意味着例如在训练中将分类变量转换为数字并转换新功能集以测试数据？

110 python scikit-learn

6

多类别分类设置中的微观平均与宏观平均表现

我正在尝试使用3个类的多类分类设置。类分布偏斜，大多数数据属于3类中的1种。（类别标签为1,2,3，其中67.28％的数据属于类别标签1，属于类别2的数据为11.99％，其余属于类别3）我正在为此数据集训练一个多类分类器，并且获得了以下性能： Precision Recall F1-Score Micro Average 0.731 0.731 0.731 Macro Average 0.679 0.529 0.565 我不确定为什么所有的Micro平均水平。性能相等，这也是为什么Macro的平均性能如此低的原因。

102 multiclass-classification evaluation

15

适用于机器学习的Python vs R

我刚刚开始出于学术目的开发机器学习应用程序。我目前正在使用R并对其进行训练。但是，在很多地方，我都看到人们在使用Python。人们在学术界和工业界使用什么，建议是什么？

101 machine-learning r python

6

何时在LSTM上使用GRU？

GRU和LSTM之间的主要区别在于，GRU具有两个门（重置和更新门），而LSTM具有三个门（即输入，输出和忘记门）。当我们显然通过LSTM模型对网络具有更多控制权时（因为我们有三个闸门），为什么要使用GRU？在哪种情况下，GRU优于LSTM？

95 neural-network deep-learning

3

何时使用One Hot Encoding，LabelEncoder和DictVectorizor？

我已经使用分类数据构建模型已有一段时间了，在这种情况下，我基本上默认使用scikit-learn的LabelEncoder函数在构建模型之前转换此数据。我了解两者之间的区别OHE，LabelEncoder以及DictVectorizor它们在处理数据方面的区别，但是对我来说不清楚的是，您何时可能会选择将一种技术应用于另一种技术。是否存在某些算法或情况相对于其他算法有优缺点？

95 scikit-learn categorical-data feature-engineering

12

大数据有多大？

许多人以相当商业化的方式使用“ 大数据 ”一词，以表示计算中涉及大数据集，因此潜在的解决方案必须具有良好的性能。当然，大数据总是带有诸如可扩展性和效率之类的相关术语，但是究竟是什么将问题定义为大数据问题呢？计算是否必须与某些特定目的相关，例如数据挖掘/信息检索，或者如果数据集足够大，可以将用于一般图形问题的算法标记为大数据吗？此外，如何大是够大（如果这是可能的定义）？

86 bigdata scalability efficiency performance

8

选择学习率

我目前正在SGD使用反向传播为神经网络实现随机梯度下降，尽管我了解其目的，但我对如何选择学习率的值存在一些疑问。学习率是否与误差梯度的形状有关，因为它决定了下降率？如果是这样，您如何使用此信息来告知您有关价值的决定？如果不是那样，我应该选择哪种值，以及如何选择它们？似乎您希望使用较小的值来避免过冲，但是如何选择一个值以免陷入局部最小值或花很长时间下降呢？保持恒定的学习速度有意义吗？还是应该在接近梯度最小值时使用一些指标来更改其值？简而言之：如何选择SGD的学习率？

85 machine-learning neural-network deep-learning optimization hyperparameter

15

您如何可视化神经网络架构？

当写论文/做一个关于神经网络的话题的演讲时，通常会形象化网络体系结构。有什么好的/简单的方法可以自动可视化常见的体系结构？

79 machine-learning neural-network deep-learning visualization