Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

2
神经网络以及应用程序中使用的成本函数列表
评估神经网络性能时常用的成本函数是什么? 细节 (随意跳过此问题的其余部分,我的目的仅是提供有关答案可以用来帮助普通读者更理解的符号的说明) 我认为,列出常用成本函数以及实践中使用的几种方法会很有用。因此,如果其他人对此感兴趣,我认为社区Wiki可能是最好的方法,或者如果它不在主题之列,我们可以将其删除。 符号 因此,首先,我想定义一个大家在描述它们时都使用的符号,以便使答案相互吻合。 这种表示法来自尼尔森的书。 前馈神经网络是连接在一起的多层神经元。然后,它接受一个输入,该输入通过网络“ tri流”,然后神经网络返回一个输出向量。 更正式地,调用aijajia^i_j所述的活化(又名输出)神经元中的层,其中是在输入向量的元素。我吨ħ一个1 Ĵ Ĵ 吨ħjthjthj^{th}ithithi^{th}a1jaj1a^1_jjthjthj^{th} 然后,我们可以通过以下关系将下一层的输入与上一层的输入关联起来: aij=σ(∑k(wijk⋅ai−1k)+bij)aji=σ(∑k(wjki⋅aki−1)+bji)a^i_j = \sigma(\sum\limits_k (w^i_{jk} \cdot a^{i-1}_k) + b^i_j) 哪里 σσ\sigma是激活功能, k t h(i − 1 )t h j t h i t hwijkwjkiw^i_{jk}是重从神经元在层到神经元中的层,kthkthk^{th}(i−1)th(i−1)th(i-1)^{th}jthjthj^{th}ithithi^{th} Ĵ 吨ħ我吨ħbijbjib^i_j是层中神经元的偏差,并且jthjthj^{th}ithithi^{th} Ĵ 吨ħ我吨 ħaijajia^i_j代表层中神经元的激活值。jthjthj^{th}ithithi^th 有时我们写来表示,换句话说,就是在应用激活函数之前神经元的激活值。 Σ ķ(瓦特我Ĵ ķ ⋅ 一个我- 1 ķ)+ …

8
为什么牛顿方法没有在机器学习中广泛使用?
这是困扰我一段时间的事情,而且我在网上找不到任何令人满意的答案,所以这里是: 在复习了一组关于凸优化的讲座之后,牛顿的方法似乎比梯度下降算法更优越,可以找到全局最优解,因为牛顿的方法可以为其求解提供保证,它的仿射不变性,并且大多数收敛于步骤少得多。为什么在机器学习问题中二阶优化算法(例如牛顿法)不如随机梯度下降法那么广泛使用?

9
从随机森林中获取知识
随机森林被认为是黑匣子,但是最近我在想可以从随机森林中获得什么知识? 最明显的是变量的重要性,在最简单的变体中,只需计算变量的出现次数即可完成。 我正在考虑的第二件事是交互。我认为,如果树的数量足够大,则可以测试变量对的出现次数(类似于卡方独立性)。第三件事是变量的非线性。我的第一个想法只是看可变Vs得分的图表,但我不确定这是否有意义。 添加23.01.2012 动机 我想利用这些知识来改进logit模型。我认为(或至少希望如此)可以找到被忽略的相互作用和非线性。

2
梯度助推树与随机森林
弗里德曼(Friedman)提出的梯度树增强使用决策树作为基础学习者。我想知道我们是否应该使基本决策树尽可能复杂(完全成长)或更简单?选择有什么解释吗? 随机森林是使用决策树作为基础学习者的另一种集成方法。根据我的理解,我们通常在每次迭代中使用几乎完全增长的决策树。我对吗?

8
在面部图像数据库中检测给定的面部
我正在做一个小项目,通过他们的个人资料图片涉及Twitter用户的面孔。 我遇到的一个问题是,在我滤除了清晰的人像照片以外的所有图像之后,一小部分但相当多的Twitter用户使用Justin Bieber的图片作为个人资料图片。 为了将它们过滤掉,我如何以编程方式判断一张照片是否是贾斯汀·比伯的照片?



7
为什么准确性不是评估分类模型的最佳方法?
这是一个一般性问题,在这里多次被间接问到,但缺少一个权威性的答案。对此有详细的答案将是很棒的参考。 准确度(正确分类在所有分类中所占的比例)是非常简单且非常“直观”的度量,但是对于不平衡的数据而言可能不是一个很好的度量。为什么我们的直觉会误导我们,并且此措施还有其他问题?

1
条件推理树与传统决策树
谁能解释条件推理树(ctree来自partyR中的程序包)与更传统的决策树算法(诸如rpartR中)的主要区别? 是什么使CI树与众不同? 长处和短处? 更新:我看了Chi在评论中提到的Horthorn等人的论文。我无法完全遵循它-谁能解释一下如何使用排列选择变量(例如什么是影响函数)? 谢谢!

4
如何直观地解释什么是内核?
许多机器学习分类器(例如支持向量机)允许指定一个内核。解释内核是什么的直观方式是什么? 我一直在思考的一个方面是线性和非线性内核之间的区别。简单来说,我可以说“线性决策函数”是“非线性决策函数”。但是,我不确定将内核称为“决策函数”是否是一个好主意。 有什么建议吗?


6
是否可以在不进行反向传播的情况下训练神经网络?
许多神经网络书籍和教程都在反向传播算法上花费了大量时间,反向传播算法本质上是计算梯度的工具。 假设我们正在建立一个具有约10K参数/权重的模型。是否可以使用一些无梯度优化算法来运行优化? 我认为计算数字梯度会太慢,但是其他方法(如Nelder-Mead,模拟退火或遗传算法)如何? 所有算法都会遭受局部极小值的困扰,为什么会迷恋梯度?


11
向孩子解释“维数的诅咒”
我听过很多次关于维数诅咒的信息,但是我仍然无法理解这个主意,因为它全是模糊的。 任何人都可以用最直观的方式来解释这一点,就像您向孩子解释时一样,这样我(和其他困惑的我)才能永远理解这一点? 编辑: 现在,让我们说孩子以某种方式听说了聚类(例如,他们知道如何聚成玩具:))。尺寸的增加如何使玩具聚类的工作更加困难? 例如,他们过去只考虑玩具的形状和玩具的颜色(一种颜色的玩具),但现在还需要考虑玩具的尺寸和重量。为什么孩子很难找到类似的玩具? 编辑2 为了便于讨论,我需要通过以下方式进行澄清:“为什么孩子很难找到类似的玩具”-我的意思也是为什么在高维空间中会丢失距离的概念?

2
什么是神经网络中的嵌入层?
在许多神经网络库中,都有“嵌入层”,例如Keras或Lasagne中。 尽管阅读了文档,但我不确定我是否了解它的功能。例如,在Keras文档中说: 将正整数(索引)转换为固定大小的密集向量,例如。[[4],[20]]-> [[0.25,0.1],[0.6,-0.2]] 知识渊博的人可以解释它的作用以及何时使用吗? 编辑:关于文档中的粘贴,没有太多可从文档中粘贴,因此是我的问题。我不了解它所做的转换,也不知道为什么要使用它。 无论如何,这是在Keras中解释的方式: 嵌入 keras.layers.embeddings.Embedding(input_dim,output_dim,init ='uniform',input_length = None,weights = None,W_regularizer = None,W_constraint = None,mask_zero = False)将正整数(索引)转换为固定大小的密集向量,例如。[[4],[20]]-> [[0.25,0.1],[0.6,-0.2]] 输入形状:2D张量,形状为:(nb_samples,sequence_length)。输出形状:具有以下形状的3D张量:(nb_samples,sequence_length,output_dim)。参数: input_dim:int> =0。词汇量,即。输入数据中出现1+最大整数索引。output_dim:int> =0。密集嵌入的尺寸 这就是千层面的解释: 单词嵌入层。输入应为整数类型Tensor变量。 参数:传入:一个Layer实例或一个元组 送入该层的层,或预期的输入形状。 input_size:整数 不同嵌入的数量。最后的嵌入将具有索引input_size-1。 output_size:整数 每个嵌入的大小。 W:Theano共享变量,表达式,numpy数组或可调用 嵌入矩阵的初始值,表达式或初始化程序。这应该是形状为(input_size,output_size)的矩阵。有关更多信息,请参见lasagne.utils.create_param()。 例子 >>> from lasagne.layers import EmbeddingLayer, InputLayer, get_output >>> import theano >>> x = T.imatrix() …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.