Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。


8
在《统计学习要素》之前预定阅读吗?
根据这篇文章,我想了解统计学习的要素。幸运的是,它是免费提供的,我开始阅读它。 我没有足够的知识来理解它。您能推荐一本对本书主题有更好介绍的书吗?希望有什么能给我理解的知识? 有关: 扎实的数学知识是掌握ML的必备条件吗?

3
用K-Means和EM进行聚类:它们之间有何关系?
我研究了用于对数据进行聚类(无监督学习)的算法:EM和k-means。我继续阅读以下内容: k-means是EM的一种变体,假设簇是球形的。 有人可以解释以上句子吗?我不了解球形的含义,以及kmeans和EM之间的关系,因为一个以概率方式进行分配,而另一个以确定性方式进行。 另外,在哪种情况下使用k均值聚类更好?或使用EM群集?

4
分类概率阈值
我有一个关于分类的问题。令f为一个分类器,在给定一些数据D的情况下输出一组概率。通常,人们会说:好吧,如果P(c | D)> 0.5,我们将分配一个类1,否则将分配一个0(将其设为二进制)分类)。 我的问题是,如果我发现,如果我将概率也大于1,即0.2,则分类器的性能会更好。在进行分类时使用此新阈值是否合法? 我将解释在数据发出较小信号的情况下降低分类界限的必要性;但对于分类问题仍然很重要。 我意识到这是一种实现方法,但是如果这不是正确的想法,那将是什么数据转换,它们以类似的方式强调各个特征,因此阈值可以保持在0.5?



3
递归与递归神经网络:哪个对NLP更好?
有递归神经网络和递归神经网络。两者通常用相同的缩写词表示:RNN。根据Wikipedia的说法,递归NN实际上是递归NN,但我并不真正理解这种解释。 而且,我似乎没有发现哪个(对于示例而言)对自然语言处理更好。事实是,尽管Socher在其教程中将递归NN用于NLP ,但我找不到递归神经网络的良好实现,并且当我在Google中进行搜索时,大多数答案都与递归NN有关。 除此之外,还有其他DNN更适合NLP还是取决于NLP任务?信仰网还是堆叠式自动编码器?(我似乎没有在NLP中为ConvNets找到任何特定的util,并且大多数实现都考虑到了机器视觉)。 最后,我真的更喜欢C ++(如果支持GPU,则更好)或Scala(如果支持Spark,则更好)的DNN实现,而不是Python或Matlab / Octave。 我已经尝试过Deeplearning4j,但是它正在不断开发中,文档有些过时了,我似乎无法使其正常工作。太糟糕了,因为它具有类似于“黑匣子”的处理方式,非常类似于scikit-learn或Weka,这正是我真正想要的。

7
经验丰富的开发人员从何处开始统计
在2015年上半年,我参加了机器学习课程(由GREAT课程的Andrew Ng 撰写)。并学习了机器学习的基础知识(线性回归,逻辑回归,SVM,神经网络...) 我也是开发人员已有10年了,因此学习一种新的编程语言将不是问题。 最近,我开始学习R以实现机器学习算法。 但是我已经意识到,如果我想继续学习,我将需要更正式的统计学知识,目前我对它不是一个正规的知识,但是由于其局限性,例如,我无法正确确定几个线性模型中的哪个会更好(通常我倾向于使用R平方,但显然这不是一个好主意)。 因此,对我来说,很明显我需要学习统计学的基础知识(我是在uni上学习的,但是却忘记了大部分),我应该在哪里学习,请注意,我实际上并不需要一门全面的课程一个月之内就可以让我了解足够的知识,这样我就可以渴望并了解更多:)。 到目前为止,我已经阅读了有关“ 无泪统计 ”的信息,还有其他建议吗?

4
监督机器学习中的班级失衡
通常,这是一个问题,并不特定于任何方法或数据集。我们如何处理有监督机器学习中的类不平衡问题,其中数据集中0的数量约为90%,1的数量约为10%。我们如何最佳地训练分类器。 我遵循的方法之一是采样以使数据集平衡,然后训练分类器并对多个样本重复此操作。 我觉得这是随机的,有没有解决这些问题的框架。

3
了解朴素贝叶斯
来自StatSoft,Inc.(2013),电子统计教科书,“朴素贝叶斯分类器”: 为了演示朴素贝叶斯分类的概念,请考虑上图中显示的示例。如图所示,对象可以分类为绿色或红色。我的任务是在新案例到达时对其进行分类,即根据当前存在的对象确定它们所属的类别标签。 由于GREEN对象的数量是RED的两倍,因此有理由相信,新案例(尚未发现)具有成员资格GREEN的可能性是RED的两倍。在贝叶斯分析中,此信念称为先验概率。先前概率基于先前的经验,在本例中为GREEN和RED对象的百分比,通常用于预测结果实际发生的时间。 因此,我们可以这样写: 由于总共有60个对象,其中40个是GREEN和20 RED,因此我们获得类成员资格的先验概率为: 在确定了先验概率之后,我们现在就可以对新对象进行分类(白色圆圈)。由于对象很好地聚集在一起,因此可以合理地假设X附近的绿色(或红色)对象越多,则新案例属于该特定颜色的可能性就越大。为了测量这种可能性,我们在X周围画了一个圆,该圆包含与点的类别标签无关的多个点(将被优先选择)。然后,我们计算属于每个类标签的圆圈中的点数。由此我们计算出可能性: 从上面的插图中可以明显看出,给定GREEN的X的似然性小于给定RED的X的似然性,因为该圆包含1个GREEN对象和3个RED对象。从而: 尽管先验概率表明X可能属于GREEN(假设GREEN的数量是RED的两倍),但可能性则相反;X的类成员资格是RED(假设X附近的RED对象比GREEN多)。在贝叶斯分析中,通过使用所谓的贝叶斯规则(以托马斯·贝叶斯(Bayes)1702-1761牧师命名),将信息的两个来源(即先验概率和可能性)组合在一起形成后验概率,从而产生最终分类。 最后,由于X的类成员资格具有最大的后验概率,因此我们将其分类为RED。 这就是我数学理解的困难所在。 p(Cj | x1,x2,x ...,xd)是类成员资格的后验概率,即X属于Cj的概率,但为什么这样写呢? 计算可能性? 后验概率? 我从来没有上过数学,但是我对朴素贝叶斯的理解很好,我认为就这些分解方法而言,这让我感到困惑。有人可以帮助可视化这些方法以及如何以一种易于理解的方式将数学写出来吗?

2
为什么卷积神经网络不使用支持向量机进行分类?
近年来,卷积神经网络(CNN)已成为计算机视觉中对象识别的最新技术。通常,CNN由几个卷积层组成,然后是两个完全连接的层。这背后的一种直觉是,卷积层学习输入数据的更好表示,然后全连接层学习根据一组标签对这种表示进行分类。 但是,在CNN开始占主导地位之前,支持向量机(SVM)是最新技术。所以说SVM仍然比两层全连接神经网络更强大的分类器似乎是明智的。因此,我想知道为什么最新的CNN倾向于使用完全连接的层进行分类,而不是使用SVM?这样,您将两全其美:强大的要素表示和强大的分类器,而不是强大的要素表示,但只有弱分类器... 有任何想法吗?



1
GradientDescentOptimizer和AdamOptimizer(TensorFlow)之间的区别?
我已经在TensorFlow中编写了一个简单的MLP,它正在对XOR-Gate进行建模。 因此对于: input_data = [[0., 0.], [0., 1.], [1., 0.], [1., 1.]] 它应该产生以下内容: output_data = [[0.], [1.], [1.], [0.]] 该网络具有一个输入层,一个隐藏层和一个输出层,每个层具有2、5和1个神经元。 目前,我有以下交叉熵: cross_entropy = -(n_output * tf.log(output) + (1 - n_output) * tf.log(1 - output)) 我也尝试过这种更简单的选择: cross_entropy = tf.square(n_output - output) 以及其他一些尝试。 但是,无论我的设置是什么,的错误GradientDescentOptimizer减少的速度都比的慢得多AdamOptimizer。 实际上tf.train.AdamOptimizer(0.01),经过400-800个学习步骤(取决于学习率,在哪里0.01获得最好的结果)后产生了非常好的结果,而tf.train.GradientDescentOptimizer无论使用哪种交叉熵计算或学习率,始终需要超过2000个学习步骤。 为什么会这样呢?看来AdamOptimizer永远是更好的选择?!

6
机器(深度)学习的主要定理是什么?
Al Rahimi最近发表了非常挑衅的讲话在NIPS 2017上做,将当前的机器学习与炼金术进行了比较。他的主张之一是,我们需要回到理论发展上,以得到证明基本结果的简单定理。 当他这么说的时候,我开始寻找ML的主要定理,但找不到能很好理解主要结果的参考。所以这是我的问题:ML / DL中当前的主要数学定理(理论)是什么,它们证明了什么?我猜想瓦普尼克的工作会在这里进行。另外,主要的理论开放问题是什么?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.