Questions tagged «deep-learning»

机器学习研究的一个新领域,涉及用于学习数据的分层表示的技术,主要是通过深度神经网络(即具有两个或多个隐藏层的网络)完成的,但也与某种概率图形模型有关。

3
keras中的多GPU
如何在keras库(或tensorflow)中进行编程,以在多个GPU上划分训练?假设您位于具有8个GPU的Amazon ec2实例中,并且希望使用它们全部进行训练,但是您的代码仅适用于单个CPU或GPU。

4
噪声对比估计(NCE)损失的直观解释?
我从以下两个来源了解到NCE(一种候选抽样形式): Tensorflow写 原始纸 有人可以为我提供以下帮助: NCE的工作原理的简单说明(我发现上面的内容很难解析和理解,因此直观的方法可以很好地介绍此处的数学知识) 在上面的第1点之后,自然而然地描述了它与负采样有何不同。我可以看到公式略有变化,但无法理解数学。在以下情况下,我确实对否定采样有一个直观的了解word2vec-我们从词汇表中随机选择一些样本,V并仅对那些样本进行更新,因为它们|V|很大,因此可以加快速度。如果有误,请更正。 何时使用哪一个,如何决定?如果您可以包括示例(可能易于理解的应用程序),那就太好了。 NCE比负采样好吗?哪种方式更好? 谢谢。

1
论文:层归一化,循环批归一化(2016)和批归一化RNN(2015)有什么区别?
因此,最近有一层“ 图层归一化”文章。Keras 上也有一个实现。 但我记得有几篇论文标题为Recurrent Batch Normalization(Cooijmans,2016)和Batch Normalized Recurrent Neural Networks(Laurent,2015)。这三个之间有什么区别? 我不了解此“相关工作”部分: 批处理规范化先前已扩展到递归神经网络[Laurent等,2015,Amodei等,2015,Cooijmans等,2016]。先前的工作[Cooijmans等,2016]提出,通过为每个时间步保留独立的标准化统计数据,可以获得最佳的循环批标准化性能。作者表明,将循环批归一化层中的增益参数初始化为0.1,会对模型的最终性能产生重大影响。我们的工作还与体重归一化有关[Salimans和Kingma,2016]。在权重归一化中,使用输入权重的L2范数代替方差来归一化对神经元的求和输入。使用预期统计量应用权重归一化或批次归一化等效于对原始前馈神经网络进行不同的参数化。在路径归一化的SGD中研究了ReLU网络中的重新参数化[Neyshabur et al。,2015]。但是,我们提出的层归一化方法不是对原始神经网络进行重新参数化。因此,层归一化模型具有与其他方法不同的不变性,我们将在下一节中研究

5
深度学习与梯度提升:什么时候使用?
我有一个大数据集的大数据问题(例如,有5000万行和200列)。该数据集由大约100个数字列和100个分类列以及代表二进制类问题的响应列组成。每个分类列的基数小于50。 我想先验地知道我应该选择深度学习方法还是基于集成树的方法(例如,梯度增强,adaboost或随机森林)。是否有一些探索性的数据分析或其他一些技术可以帮助我确定一种方法而不是另一种方法?

3
在softmax分类器中,为什么要使用exp函数进行归一化?
为什么使用softmax而不是标准归一化?在此问题的最高答案的评论区域中,@ Kilian Batzner提出了2个问题,这也使我非常困惑。除数值上的好处外,似乎没有人给出任何解释。 我有使用交叉熵损失的原因,但这与softmax有什么关系?您说过“ softmax函数可以看作是试图最小化预测和真实之间的交叉熵”。假设我将使用标准/线性归一化,但仍将使用交叉熵损失。然后,我还将尝试最小化交叉熵。那么,除了数值收益外,softmax如何与交叉熵联系起来? 至于概率观点:查看对数概率的动机是什么?推理似乎有点像“我们在softmax中使用e ^ x,因为我们将x解释为对数概率”。出于同样的理由,我们可以在softmax中使用e ^ e ^ e ^ x,因为我们将x解释为log-log-log-概率(当然,这里夸大了)。我得到了softmax的数值好处,但是使用它的理论动机是什么?

7
为什么应重新整理数据以进行机器学习任务
在机器学习任务中,通常将数据混洗并规范化。标准化的目的很明确(具有相同范围的特征值)。但是,经过很多努力之后,我没有发现任何改组数据的有价值的原因。 我在这里阅读了这篇文章,讨论了何时需要重新整理数据,但是不清楚为什么我们应该重新整理数据。此外,我经常在诸如Adam或SGD之类的算法中看到我们需要批量梯度下降(应将数据分离为小批量,并且必须指定批量大小)。根据这篇文章,至关重要的是将每个时期的数据混排以使每个批次具有不同的数据。因此,也许数据被改组并且更重要地被更改。 我们为什么要做这个?

1
为什么xgboost比sklearn GradientBoostingClassifier快得多?
我正在尝试通过50个具有100个数字特征的示例训练一个梯度提升模型。XGBClassifier我的机器43秒内把手500棵树,而GradientBoostingClassifier只处理10棵(!)以1分2秒:(我没有理会试图种植500棵树,因为它会需要几个小时。我使用的是相同的learning_rate,并max_depth设置, 见下文。 是什么使XGBoost如此之快?它是否使用了sklearn家伙不知道的用于梯度增强的新颖实现方式?还是“偷工减料”并种植浅树? ps我知道这个讨论:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-survey,但是那里找不到答案... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

2
什么是地面真理
在机器学习的背景下,我看到了“ 地面真理 ”一词经常使用。我进行了很多搜索,并在Wikipedia中找到以下定义: 在机器学习中,术语“地面真理”是指有监督学习技术的训练集分类的准确性。在统计模型中使用它来证明或否定研究假设。术语“地面实况调查”是指为此测试收集适当的客观(可证明)数据的过程。与黄金标准比较。 贝叶斯垃圾邮件过滤是监督学习的常见示例。在该系统中,人工学习了垃圾邮件和非垃圾邮件之间的区别。这取决于用于训练算法的消息的地面真相-地面真相中的错误将与垃圾邮件/非垃圾邮件裁决中的错误相关。 关键是我真的无法理解它的意思。是,标签用于每个数据对象或目标函数赋予一个标签给每个数据对象,或者也许别的东西吗?

3
在CPU和GPU之间进行选择以训练神经网络
我已经看到了有关GPU“开销”的讨论,对于“小型”网络,在CPU(或CPU网络)上进行训练实际上可能比GPU更快。 什么是“小”? 例如,具有100个隐藏单元的单层MLP是否会“很小”? 对于循环架构,我们对“小”的定义会改变吗? 在决定在CPU或GPU上进行训练时,还应该考虑其他标准吗? 编辑1: 我刚刚找到了一篇博客文章(可能已过时?它是从2014年开始的): “ ...大多数网卡仅适用于已向CPU注册的内存,因此两个节点之间的GPU到GPU的传输将是这样的:GPU 1到CPU 1到网卡1到网卡2到CPU 2到GPU2。这意味着,如果选择一个速度较慢的网卡,则在一台计算机上可能无法实现加速;即使使用快速网卡,如果群集很大,相比时,甚至连GPU都无法获得加速。对CPU而言,因为GPU的工作速度太快,以至于网卡无法跟上它们的步伐。 这就是为什么许多大公司(例如Google和Microsoft)使用CPU而不是GPU群集来训练其大型神经网络的原因。” 因此,根据本文的观点,使用CPU可能更快。还是这样吗? 编辑2:是的,该博客文章可能非常过时,因为: 现在看来,节点内的GPU是通过PCIe总线连接的,因此通信速度约为6GiB / s。(例如:https : //www.youtube.com/watch?v=el1iSlP1uOs,大约需要35分钟)。发言者暗示这比从GPU1到CPU再到GPU2快。这意味着网卡不再是瓶颈。

7
是否有免费的云服务来训练机器学习模型?
我想用大量的训练数据来训练一个深度模型,但是我的台式机没有能力用这些丰富的数据来训练这样的深度模型。 我想知道是否有任何免费的云服务可用于训练机器学习和深度学习模型? 我还想知道是否有云服务,在哪里可以跟踪培训结果,即使我没有连接到云,培训也将继续。

1
PyTorch vs.Tensorflow折叠
既PyTorch和Tensorflow折是指处理,其中输入数据具有非均匀的长度或尺寸的情况下(即,在动态图都是有用的或需要的情况下)深学习框架。 我想知道它们之间的比较,从它们所依赖的范式(例如动态批处理)及其含义的角度来看,它们之间不能/不能实现的事情,弱点/优点等。 我打算使用此信息选择其中一个以开始探索动态计算图,但是我没有特定的任务在想。 注1:像其他的动态计算图形框架DyNet或Chainer也欢迎比较,但我想专注于PyTorch和Tensorflow折,因为我认为他们是/将是最常用的。 注意2:我在PyTorch上发现了这个hackernews线程,其中包含一些稀疏信息,但数量不多。 注意3:另一个与Tensorflow Fold 有关的hackernews线程,包含一些有关它们如何比较的信息。 注意4:相关的Reddit线程。 注5:Tensorflow Fold的github中的相关bug指出了一个重要限制:评估期间无法进行条件分支。 注释6:在pytorch论坛上讨论有关所使用算法(例如动态批处理)的可变长度输入。

1
Keras如何计算准确性?
Keras如何从类别概率计算准确性?假设,例如,测试集中有100个样本,它们可以属于两个类别之一。我们也有一个类概率列表。Keras使用什么阈值将样本分配给两个类别中的任何一个?



2
在Keras中合并两种不同的模型
我正在尝试将两个Keras模型合并为一个模型,但是我无法实现这一点。 例如在附图中,我想获取尺寸为8 的中间层,并将其用作模型(再次为尺寸8的)层输入,然后将模型和模型合并为一个模型。B 1 B A BA2A2A2B1B1B1BBBAAABBB 我正在使用功能模块独立创建模型和模型如何完成这项任务?乙AAABBB 注意:是模型的输入层,而是模型的输入层。A B 1 BA1A1A1AAAB1B1B1B乙B

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.