Questions tagged «machine-learning»

建立“随经验自动改进的计算机系统”的方法和原理。


2
如何选择神经网络的特征?
我知道这个问题尚无明确答案,但让我们假设我有一个庞大的神经网络,其中包含大量数据,并且我想在输入中添加新功能。“最佳”方法是使用新功能测试网络并查看结果,但是有没有方法可以测试该功能是否异常有用?像相关度量(http://www3.nd.edu/~mclark19/learn/CorrelationComparison.pdf)等?

3
一类具有不平衡,异质负面背景的歧视性分类?
我正在努力改进现有的监督分类器,以将{蛋白质}序列归为特定类别(神经肽激素前体)或不属于特定类别。 在大约1300万个蛋白质序列的背景下(“未知/注释不充分的背景”),或大约100,000个经过审查的相关蛋白质,已知的“阳性”蛋白质带有多种属性(但很少有显式注释的蛋白质) “负”方式)。 我以前的实现将其视为二进制分类问题:阳性集=标记为Neuropeptides的蛋白质。阴性集:从剩余的蛋白质中随机抽取1300个样本(总计),这些蛋白质的长度方向分布大致相似。 那行得通,但是我想大大提高机器的辨别能力(目前,在多个随机采样的负数集上,按CV测得的精度,AUC,F1约为83-86%)。 我的想法是:1)使这成为一个多类问题,选择2-3种不同类型的蛋白质,这些蛋白质将根据其特性/功能类别以及(也许)另一组随机采样的样本确定为阴性。(这里的优先级将是负集合,其特征/特征与正集合相似,同时仍具有定义的特征)。2)一次课堂学习-很好,但是据我了解,它仅用于异常检测,并且其性能比歧视性方法差。 *)我听说过PU学习,听起来很整洁,但是我正在编程N00b,而且我不知道它的任何现有实现。(在Python / sci-kit中学习)。 那么,方法1在理论POV中是否有意义?有没有最好的方法来制作多个负数集?(我也可以简单地使用大量[50K]的“阴性”蛋白,但是它们彼此之间非常不同,因此我不知道分类器如何将它们作为一个大的不平衡混合物来​​处理)。谢谢!

6
对几个连续变量进行对数转换的原因是什么?
我一直在做分类问题,并且阅读了很多人的代码和教程。我注意到的一件事是,许多人采用np.log或log连续变量,例如loan_amount或applicant_income等。 我只想了解其背后的原因。它有助于提高我们的模型预测准确性。它是强制性的吗?还是背后有逻辑? 如果可能的话,请提供一些解释。谢谢。

3
如何使用predict_generator对Keras中的流测试数据进行预测?
在Keras从头开始培训卷积网络的博客中,代码仅显示了运行在培训和验证数据上的网络。那测试数据呢?验证数据是否与测试数据相同(我认为不是)。如果在与train和validation文件夹相似的行上有一个单独的测试文件夹,我们如何获得测试数据的混淆矩阵。我知道我们必须使用scikit Learn或其他软件包来执行此操作,但是如何从类明智的测试数据概率中获取一些信息呢?我希望将其用于混淆矩阵。

3
如何预测xgboost的概率?
下面的预测函数也给出-ve值,因此它不可能是概率。 param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) 我用谷歌搜索,pred_s <- predict(bst, x_mat_s2,type="response") 但没有成功。 题 如何预测概率呢?

1
CNN中的反向传播
我有以下CNN: 我从5x5大小的输入图片开始 然后,我使用2x2内核和stride = 1进行卷积,生成大小为4x4的特征图。 然后,我将2x2 max-pooling应用于stride = 2,这会将要素图缩小为2x2。 然后我应用逻辑乙状结肠。 然后是一层完全连接的带有2个神经元的层。 并有输出层。 为了简单起见,假设我已经完成了前向通过并计算出δH1= 0.25和 δH2= -0.15 因此,在完成完全向前传递和部分完成向后传递之后,我的网络如下所示: 然后,我为非线性层(逻辑Sigmoid)计算增量: δ11= (0.25 * 0.61 + - 0.15 * 0.02 )* 0.58 * (1 - 0.58 )= 0.0364182δ12= (0.25 * 0.82 + - 0.15 * - 0.50 )* 0.57 * (1 - 0.57 …

1
将批大小保持2的幂有什么优势?
在机器学习中训练模型时,为什么有时将批次大小保持为2的幂是有利的?我认为最好使用最大适合GPU内存/ RAM的大小。 该答案声称,对于某些包装,批次大小以2的幂为佳。有人可以为此提供详细说明/链接到详细说明吗?对于所有优化算法(梯度下降,反向传播等)还是仅其中某些算法,这是正确的吗?

2
为什么我们需要丢弃一个虚拟变量?
我了解到,为了创建回归模型,我们必须通过将分类变量转换为虚拟变量来加以处理。例如,如果在我们的数据集中存在诸如location之类的变量: Location ---------- Californian NY Florida 我们必须像这样转换它们: 1 0 0 0 1 0 0 0 1 但是,建议无论存在多少个虚拟变量,都必须丢弃一个虚拟变量。 为什么我们需要丢弃一个虚拟变量?

8
我如何学习神经网络?
我是一名新生,目前正在使用神经网络进行研究(这是提法的,因此您可能会原谅我的陌生感)。根据我教授的指导,我已经编码了一个三节点神经网络(有效)。但是,我想从事AI和数据科学领域的工作,并且想深入地自学这些知识。是否有任何书籍或资源可以教我更多有关神经网络结构,深度学习等的知识。是否有任何建议? 注意:我精通Java,Python,Bash,JavaScript,Matlab,并且懂一点C ++。

3
基于单词和基于字符的文本生成RNN有什么区别?
在阅读有关使用递归神经网络生成文本的信息时,我注意到一些示例被实现为逐个单词地生成文本,而另一些字符则逐个字符地生成,而没有实际说明原因。 那么,是什么,预测文本RNN模型之间的区别每个字的基础,并且预测文本的那些每个字符的基础?基于单词的RNN是否需要更大的语料库大小?基于char的RNN泛化效果更好吗?也许唯一的区别是输入表示形式(单热编码,单词嵌入)?选择哪种文本生成方式?

4
R:GPU上的机器学习
是否有用于R的任何机器学习包都可以利用GPU来提高训练速度(类似于python世界中的theano)? 我看到有一个名为gputools的程序包,它允许在gpu上执行代码,但我正在寻找一个更完整的库用于机器学习。

4
如何指定重要属性?
假设一组由许多数据源组成的结构松散的数据(例如Web表/链接的打开数据)。数据后面没有通用的模式,每个数据源都可以使用同义词属性来描述值(例如“国籍”与“ bornIn”)。 我的目标是找到一些“重要”属性,以某种方式“定义”它们描述的实体。因此,当我为这样的属性找到相同的值时,我将知道这两个描述很可能是关于同一实体(例如同一个人)的。 例如,属性“ lastName”比属性“国籍”更具区分性。 我怎样才能(统计地)找到比其他更重要的属性? 一个简单的解决方案是获取每个属性值的平均IDF,并将其作为属性的“重要性”因素。一种类似的方法是计算每个属性出现多少个不同的值。 我已经在机器学习中看到了术语“特征”或“属性选择”,但是我不想丢弃其余的属性,我只是想给最重要的属性赋予更高的权重。

2
为什么激活函数必须是单调的?
我目前正在准备有关神经网络的考试。在以前考试的一些协议中,我读到(多层感知器中)神经元的激活功能必须是单调的。 我知道激活函数应该是可微的,在大多数点上具有不为0的导数,并且是非线性的。我不明白为什么单调很重要/有帮助。 我知道以下激活函数,它们是单调的: ReLU 乙状结肠 h Softmax:我不确定单调性的定义是否适用于函数F:Rñ→ R米F:[Rñ→[R米f: \mathbb{R}^n \rightarrow \mathbb{R}^m,Ñ ,米> 1ñ,米>1个n, m > 1 软加 (身份) 但是,我仍然看不到为什么φ (x )= x2φ(X)=X2\varphi(x) = x^2任何原因。 为什么激活函数必须是单调的? (相关的侧面问题:对数/指数函数不用作激活函数有任何原因吗?)

2
Mahout中基于项目和基于用户的推荐差异
我想知道mahout基于用户的推荐与基于项目的推荐之间到底有何不同。 它定义了 基于用户:通过查找相似用户来推荐项目。由于用户的动态特性,这通常很难扩展。 基于项目:计算项目之间的相似度并提出建议。项目通常不会有太大变化,因此通常可以离线进行计算。 但是,尽管有两种建议可用,但据我了解,这两种建议都将采用某种数据模型(例如1,2或1,2,.5作为item1,item2,value或user1,user2,value,其中value不是必选),并将所有计算作为我们选择的相似性度量和推荐器内置函数,并且我们可以在同一数据上运行基于用户/项目的推荐(这是正确的假设??)。 因此,我想知道这两种算法在各个方面到底有何不同。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.