数据科学

数据科学专业人员,机器学习专家以及有兴趣了解该领域的人员的问答


2
Keras Convolution2d()使用的默认过滤器是什么?
我是神经网络的新手,但是我相当了解线性代数和卷积数学。 我试图理解我在网上各个地方找到的示例代码,用于训练带有MNIST数据的Keras卷积NN以识别数字。我的期望是,当我创建卷积层时,必须指定一个过滤器或一组过滤器以应用于输入。但是我发现的三个样本都创建了一个这样的卷积层: model.add(Convolution2D(nb_filter = 32, nb_row = 3, nb_col = 3, border_mode='valid', input_shape=input_shape)) 这似乎将总共32个3x3滤镜应用于CNN处理的图像。但是那些过滤器是什么?我将如何数学描述它们?keras文档没有帮助。 提前致谢,
18 convnet  keras 

3
选择用于训练神经网络的优化器的准则
我已经使用神经网络已有一段时间了。但是,我经常遇到的一件事就是选择用于训练网络的优化器(使用反向传播)。我通常要做的只是从一个开始(例如标准的SGD),然后随机尝试其他一些。我想知道是否有更好的(且随机性较低)的方法来找到好的优化器,例如,从以下列表中查找: SGD(有或没有动力) 阿达达 阿达格拉德 RMSProp 亚当 我特别感兴趣的是,鉴于训练数据具有某些属性(例如,稀疏),是否有某种理论上的理由可以选拔另一个。我也可以想象某些优化器在特定领域比其他优化器工作得更好,例如,在训练卷积网络与前馈网络或分类与回归时。 如果你们中的任何人已经对如何选择优化程序制定了一些策略和/或直觉,那么我将非常感兴趣。此外,如果有一些工作提供了理论上的选择的依据,那就更好了。


4
使用Keras(Python)进行LSTM-RNN的超参数搜索
来自Keras RNN教程的文章:“ RNN 很棘手。批大小的选择很重要,损耗和优化器的选择很重要,等等。某些配置无法融合。” 因此,这是关于在Keras上调整LSTM-RNN的超参数的一个普遍问题。我想知道一种为您的RNN查找最佳参数的方法。 我从Keras'Github上的IMDB示例开始。 主要模型如下: (X_train, y_train), (X_test, y_test) = imdb.load_data(nb_words=max_features, test_split=0.2) max_features = 20000 maxlen = 100 # cut texts after this number of words (among top max_features most common words) batch_size = 32 model = Sequential() model.add(Embedding(max_features, 128, input_length=maxlen)) model.add(LSTM(128)) model.add(Dropout(0.5)) model.add(Dense(1)) model.add(Activation('sigmoid')) # try using …

7
如何根据以前的时间序列数据预测流量?
如果我有一家零售商店,并且有办法衡量每分钟有多少人进入我的商店,并对数据加盖时间戳,我如何预测未来的人流量? 我研究过机器学习算法,但不确定使用哪种算法。在我的测试数据中,与我尝试过的其他方法(例如KNN(我认为是合理的参数和距离函数))相比,逐年趋势更为准确。 似乎这似乎与财务模型类似,您可以在其中处理时间序列数据。有任何想法吗?

3
用Python提取图像特征
在我的课堂上,我必须使用两个分类器创建一个应用程序,以确定图像中的对象是多孔菌(seasponge)的示例还是其他一些对象。 但是,当我涉及python中的特征提取技术时,我完全迷失了。我的顾问说服我使用课堂上没有讲到的图像。 谁能指导我寻找有意义的文档或阅读或提出建议的方法?

5
句子相似度的最佳实用算法
我有两个句子S1和S2,它们的字数通常都在15以下。 什么是最实用,最成功的(机器学习)算法,这些算法可能易于实现(神经网络可以,除非架构像Google Inception等那样复杂)。 我正在寻找一种不会花太多时间就能正常工作的算法。您是否发现任何成功且易于使用的算法? 这可以但不必属于群集类别。我的背景是机器学习的知识,所以欢迎提出任何建议:)

2
深度学习中的局部极小值与鞍点
我听过Andrew Ng(不幸的是,在视频中我找不到)谈论关于深度学习问题中的局部最小值的理解已经发生了改变,因为它们现在被认为问题较少,因为在高维空间中(遇到深度学习),关键点更有可能是鞍点或平稳状态,而不是局部最小值。 我看过一些论文(例如本篇论文)讨论了“每个局部最小值都是一个全局最小值”的假设。这些假设都是相当技术性的,但是据我了解,它们倾向于在神经网络上施加某种使其线性的结构。 在深度学习(包括非线性体系结构)中,高原比局部极小概率更有可能是正确的说法吗?如果是这样,它背后是否有(可能是数学上的)直觉? 关于深度学习和鞍点,有什么特别之处吗?

1
NLP-为什么“不”是一个停用词?
我试图在执行主题建模之前删除停用词。我注意到一些否定词(不是,也不是,从不,等等)通常被认为是停用词。例如,NLTK,spacy和sklearn在其停用词列表中包含“ not”。但是,如果我们从下面的这些句子中删除“否”,则它们将失去重要的含义,对于主题建模或情感分析而言,这将是不准确的。 1). StackOverflow is helpful => StackOverflow helpful 2). StackOverflow is not helpful => StackOverflow helpful 谁能解释为什么这些否定词通常被视为停用词?

4
提高python中t-sne实现的速度以处理海量数据
我想对将近100万个具有200个维度的向量进行降维doc2vec。我使用TSNE从执行sklearn.manifold模块它和主要问题是时间复杂度。即使使用method = barnes_hut,计算速度仍然很低。有时甚至耗尽了内存。 我正在具有130G RAM的48核处理器上运行它。是否有一种方法可以并行运行它或利用大量资源来加快此过程。

2
什么是GELU激活?
我正在浏览使用GELU(高斯误差线性单位)的BERT论文,该论文将方程表示为 依次近似为GELU(x)=xP(X≤x)=xΦ(x).GELU(x)=xP(X≤x)=xΦ(x). GELU(x) = xP(X ≤ x) = xΦ(x).0.5x(1+tanh[2/π−−−√(x+0.044715x3)])0.5x(1+tanh[2/π(x+0.044715x3)])0.5x(1 + tanh[\sqrt{ 2/π}(x + 0.044715x^3)]) 您能简化方程式并解释它是如何近似的。

4
S形函数在神经网络中的作用导数
我试图了解S型函数的导数在神经网络中的作用。 首先,我绘制了sigmoid函数,并使用python定义了所有点。该衍生物的确切作用是什么? import numpy as np import matplotlib.pyplot as plt def sigmoid(x): return 1 / (1 + np.exp(-x)) def derivative(x, step): return (sigmoid(x+step) - sigmoid(x)) / step x = np.linspace(-10, 10, 1000) y1 = sigmoid(x) y2 = derivative(x, 0.0000000000001) plt.plot(x, y1, label='sigmoid') plt.plot(x, y2, label='derivative') plt.legend(loc='upper left') plt.show()



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.