数据科学

5

考虑到辍学会抑制模型中的某些神经元，为什么添加辍学层会改善深度/机器学习性能？

如果删除一些神经元会产生更好的性能模型，为什么不首先使用层数更少，神经元更少的简单神经网络呢？为什么要在开始时建立一个更大，更复杂的模型，而在以后取消它的一部分呢？

13 machine-learning deep-learning keras regularization dropout

3

什么是图形嵌入？

我最近遇到了图嵌入，例如DeepWalk和LINE。但是，我仍然不清楚，因为图形嵌入是什么意思以及何时使用它（应用程序）？欢迎任何建议！

13 graphs

3

为什么用于降维的自动编码器是对称的？

无论如何我都不是自动编码器或神经网络的专家，所以如果这是一个愚蠢的问题，请原谅我。为了降维或可视化高维数据中的群集，我们可以使用自动编码器通过检查具有2个节点的网络层的输出来创建（有损）2维表示。例如，使用以下架构，我们将检查第三层的输出 [ X] → N1个= 100 → N2= 25 → （N3= 2 ）→ N4= 25 → N5= 100 → [ X][X]→N1=100→N2=25→(N3=2)→N4=25→N5=100→[X][X] \rightarrow N_1=100 \rightarrow N_2=25 \rightarrow (N_3=2) \rightarrow N_4=25 \rightarrow N_5=100 \rightarrow [X] 其中是输入数据，N l是第l层中的节点数。XXXñ升NlN_l升ll 现在，我的问题是，为什么我们要一个对称的架构？难道不是深层“压缩”阶段的镜像，这意味着我们可能会有类似复杂的“解压缩”阶段，导致2节点输出不是很直观吗？换句话说，难道没有更简单的解码阶段会导致具有2个节点的层的输出也必然变得更简单吗？我的想法是，减压阶段越简单，二维表示就必须越简单（越线性？）。更复杂的减压阶段将允许更复杂的2D表示。

13 neural-network dimensionality-reduction autoencoder

3

为什么卷积总是使用奇数作为filter_size

如果我们看一下使用CNN（ConvNet）发表的论文中有90-99％。他们中的绝大多数使用奇数号的过滤器大小：{1、3、5、7}最常用。这种情况可能会导致一些问题：使用这些滤波器大小时，通常在填充为2（普通填充）的情况下卷积运算并不完美，并且在此过程中会丢失input_field的某些边缘... 问题1：为什么仅对卷积滤波器大小使用奇数？ Question2：在卷积过程中忽略一小部分input_field实际上是一个问题吗？为什么这样/不呢？

13 deep-learning convnet computer-vision convolution

2

为什么权重和偏差的初始化应选择在0附近？

我读到这个：为了训练我们的神经网络，我们将每个参数W（l）ijWij（l）和每个b（l）ibi（l）初始化为接近零的小随机值（根据Normal（0，ϵ2）Normal（0 ，ϵ2）分布一些小ϵϵ，例如0.01）从斯坦福大学深度学习教程在第7款的BP算法我不明白的是为什么权重或偏差的初始化应该在0左右？

13 deep-learning stanford-nlp randomized-algorithms

1

偏差应如何初始化和正规化？

我已经阅读了几篇有关内核初始化的论文，许多论文提到它们使用内核的L2正则化（通常使用）。λ=0.0001λ=0.0001\lambda = 0.0001 除了用恒定零初始化偏差而不对其进行正则化之外，还有人做其他事情吗？内核初始化文件 Mishkin和Matas：您需要的只是一个好的初始化 Xavier Glorot和Yoshua Bengio：了解训练深度前馈神经网络的难度他等人：深入研究整流器：在ImageNet分类上超越人类水平的性能

13 neural-network

3

神经网络是否像决策树一样具有可解释性？

在决策树中，我们可以了解树结构的输出，还可以可视化决策树如何制定决策。因此，决策树具有可解释性（可以轻松解释其输出。）我们像决策树一样在神经网络中具有可解释性吗？

13 neural-network

1

深度学习中的一维卷积层是什么？

我对2D或3D实施情况下深度学习中卷积层在图像处理中的作用和机制有很好的一般理解-他们“简单地”尝试捕获图像中的2D模式（在3D情况下为3个通道）。但是最近我在自然语言处理的背景下遇到了1D卷积层，这对我来说是一个惊喜，因为在我的理解中2D卷积尤其用于捕获无法以1D（矢量）形式显示的2D模式。图像像素。一维卷积背后的逻辑是什么？

13 deep-learning nlp convolution

1

忘记循环神经网络（RNN）中的层-

我试图找出一个RNN的“忘记”层中每个变量的尺寸，但是，我不确定自己是否走对了。下一张图片和等式来自Colah的博客文章“ Understanding LSTM Networks”：哪里： m * 1xtxtx_t是大小为向量的输入m∗1m∗1m*1 ht−1ht−1h_{t-1}是大小为向量的隐藏状态n∗1n∗1n*1 [xt,ht−1][xt,ht−1][x_t, h_{t-1}]是一个串联（例如，如果，则）xt=[1,2,3],ht−1=[4,5,6]xt=[1,2,3],ht−1=[4,5,6]x_t=[1, 2, 3], h_{t-1}=[4, 5, 6][xt,ht−1]=[1,2,3,4,5,6][xt,ht−1]=[1,2,3,4,5,6][x_t, h_{t-1}]=[1, 2, 3, 4, 5, 6] wfwfw_f是大小为矩阵的权重，其中是单元状态的数量（如果在上面的示例中，而，并且如果我们有3个单元状态，则矩阵）k∗(m+n)k∗(m+n)k*(m+n)kkkm=3m=3m=3n=3n=3n=3wf=3∗3wf=3∗3w_f=3*3 bfbfb_f是大小为向量的偏差，其中是单元状态的数量（由于上述示例中，因此是向量）。k∗1k∗1k*1kkkk=3k=3k=3bfbfb_f3∗13∗13*1 如果将设置为： wfwfw_f⎡⎣⎢1532643754865976108⎤⎦⎥[1234565678910345678]\begin{bmatrix} 1 & 2 & 3 & 4 & 5 & 6 \\ 5 & 6 & 7 & 8 & 9 & 10 …

13 neural-network rnn

3

交叉验证后如何选择分类器？

当我们进行k倍交叉验证时，是否应该仅使用测试准确性最高的分类器？通常，从交叉验证中获得分类器的最佳方法是什么？

13 machine-learning cross-validation

1

一种热编码和遗漏编码之间有什么区别？

我正在阅读演示文稿，建议您不要使用遗漏编码，但是使用一种热门编码是可以的。我以为他们都是一样的。谁能描述他们之间的区别？

13 machine-learning data-mining feature-selection feature-extraction feature-engineering

4

我们可以在训练word2vec模型时利用迁移学习的优势吗？

我正在寻找已经训练有素的模型（如Google新闻数据等）的预训练权重。我发现很难为自己训练出具有足够数量（10 GB等）数据的新模型。因此，我想从转移学习中受益，在转移学习中，我将能够获得预训练的层权重并在我的领域特定单词上对那些权重进行重新训练。因此，肯定会减少培训时间。任何帮助将不胜感激。提前致谢：）

13 machine-learning bigdata word2vec

2

符合道德且经济高效地扩展数据报废

生活中很少有什么能让我高兴的，例如从Internet上抓取结构化和非结构化数据，并在我的模型中使用它们。例如，数据科学工具包（或RDSTKR程序员）允许我使用IP或地址提取大量基于位置的良好数据，tm.webmining.plugin而R的tm软件包使抓取金融和新闻数据变得直截了当。当超越此类（半）结构化数据时，我倾向于使用XPath。但是，我一直在不断受到您允许进行的查询数量限制的限制。我认为Google将我限制为每24小时大约50,000个请求，这对于大数据是个问题。从技术角度来看，解决这些限制很容易-只需切换IP地址并清除环境中的其他标识符即可。但是，这同时引起了道德和财务方面的关注（我认为？）。有没有我忽略的解决方案？

13 text-mining scraping

3

混合属性类型对数据集进行分类的最佳方法

我想知道对由混合类型的属性（例如，文本和数字）组成的数据集进行分类的最佳方法是什么。我知道我可以将文本转换为布尔值，但是词汇量繁多，数据变得稀疏。我还尝试对属性的类型进行单独分类，并通过元学习技术将结果组合在一起，但是效果并不理想。

13 machine-learning classification

2

是否有用于抓取论文摘要的API？

如果我的论文名列表很长，如何从互联网或任何数据库中获得这些论文的摘要？论文名称类似于“针对公共卫生领域的Web挖掘中的实用性评估”。有谁知道可以给我解决方案的任何API？我试图搜寻Google Scholar，但是Google阻止了我的搜寻器。

13 data-mining machine-learning