统计和大数据 machine-learning

2

我无法理解汤普森采样及其工作原理。我正在阅读有关“多臂强盗”的信息，并且在阅读了“最高可信度绑定算法”后，许多文本都暗示汤普森采样的性能要优于UCB。用外行或简单术语来说，汤普森抽样是什么？随时提供参考文章以进一步理解。

14 machine-learning definition multiarmed-bandit

4

我正在寻找一种动态模型来向用户推荐电影。每当用户观看电影或对电影进行评级时，建议均应更新。为了简单起见，我考虑考虑两个因素：用户过去其他电影的评分用户观看某些过去的电影的时间如何建立这样的模型？学术文献对此有何建议？我是该领域的新手，我猜想线性再模型可以提供良好的结果，而不希望花一些复杂的方法来避免在参数估计中施加不必要的不确定性。但是，也许已经有了实践中常用的确定方法？

14 machine-learning recommender-system dynamic-regression

8

训练神经网络以区分偶数和奇数

问题：是否有可能仅使用数字本身作为输入来训练NN来区分奇数和偶数？我有以下数据集： Number Target 1 0 2 1 3 0 4 1 5 0 6 1 ... ... 99 0 100 1 我使用一种非常简单的遗传算法训练了一个带有两个输入神经元（一个是变量Number，另一个是偏向神经元），隐藏层中的9个神经元和一个输出神经元的NN：在每个时期，两组权重“互相对抗；错误率最高的人将输掉，并由获胜者的修改版本代替。该脚本可以轻松解决诸如AND，OR和XOR运算符之类的简单问题，但是在尝试对奇数和偶数进行分类时会遇到困难。目前，最好的方法是从100个数字中识别出53个数字，这花费了几个小时。我是否将输入归一化似乎没有什么区别。如果我想作弊，我可以对数据进行预处理，并将％2作为输入提供给NN，但我不想这样做。NN应该能够近似所有函数，包括模运算符（我相信）。我究竟做错了什么？

14 machine-learning classification categorical-data neural-networks genetic-algorithms

4

是否有基于非距离的聚类算法？

似乎对于K均值和其他相关算法，聚类基于计算点之间的距离。有没有没有它的作品？

14 machine-learning clustering data-mining k-means

2

在神经网络进行图像识别的情况下，“置换不变”是什么意思？

我已经看到了MNIST数字识别任务的术语“置换不变”版本。这是什么意思？

14 machine-learning neural-networks terminology conv-neural-network definition

3

分解机器和矩阵分解之间的区别？

我在推荐系统中遇到了术语分解机。我知道什么是Matrix Factorization用于推荐系统，但从未听说过Factorization Machines。那有什么区别呢？

14 machine-learning data-mining recommender-system

2

嵌套交叉验证的使用

Scikit Learn的“模型选择”页面提到了嵌套交叉验证的使用： >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) 并行执行两个交叉验证循环：一个由GridSearchCV估计器设置gamma，另一个由cross_val_score来测量估计器的预测性能。所得分数是对新数据的预测分数的无偏估计。据我了解，clf.fit将原生使用交叉验证来确定最佳伽玛值。在那种情况下，为什么我们需要使用上面给出的嵌套cv？该说明提到嵌套的cv会生成预测分数的“无偏估计”。难道不是clf.fit吗？另外，我无法从该cross_validation.cross_val_score(clf, X_digits, y_digits)过程中获得clf最佳估计。您能告诉我该怎么做吗？

14 machine-learning cross-validation scikit-learn

3

机器学习的维数诅咒解释了吗？

我无法理解维数的诅咒。具体来说，我scikit-learn在用python编写教程时遇到了它。有人可以以更简单的方式解释以下内容吗？抱歉，我一直在试图理解最长的时间，无法理解他们是如何提出训练样本数量的计算以实现高效KNN估算器的？这里是解释：为了使估算器有效，您需要相邻点之间的距离小于某个值d，这取决于问题。在一个维度上，这平均需要n〜1 / d个点。在上述KNN示例的上下文中，如果仅由一个值在0到1之间且具有n个训练观测值的特征描述数据，则新数据的距离不会超过1 / n。因此，与类间特征变化的规模相比，只要1 / n小，最近的邻居决策规则将非常有效。如果特征数量为p，则现在需要n〜1 / d ^ p个点。假设我们在一维中需要10个点：现在在p维中需要10 ^ p个点才能铺平[0，1]空间。随着p变大，一个好的估计量所需的训练点数呈指数增长。在这里链接编辑：~在该示例中，波浪号（）是否也应表示近似值？还是python波浪号运算符？

14 machine-learning

3

关于马尔可夫链蒙特卡洛（MCMC）的各种应用的良好摘要（评论，书）？

关于马尔可夫链蒙特卡罗（MCMC）的各种应用是否有好的摘要（评论，书籍）？我在实践中已经看过Markov Chain Monte Carlo，但是这本书似乎有些陈旧。是否有更多有关MCMC在机器学习，计算机视觉和计算生物学等领域的各种应用的更新书籍？

14 machine-learning mcmc inference references application

2

R中的梯度下降与lm（）函数？

我正在看吴安德（Andrew Ng）的免费在线机器学习课程中的视频在斯坦福大学中。他讨论了梯度下降作为解决线性回归的算法，并在Octave中编写函数来执行该算法。大概我可以用R重写那些函数，但是我的问题是lm（）函数是否已经给了我线性回归的输出？为什么要编写自己的梯度下降函数？有优势还是纯粹作为学习练习？lm（）会进行梯度下降吗？

14 r regression machine-learning gradient-descent

4

如何开始阅读有关数据挖掘的文章？

我是一个新手，他将开始阅读有关数据挖掘的文章。我具有AI和统计方面的基础知识。既然许多人说机器学习在数据挖掘中也起着重要作用，那么在继续进行数据挖掘之前是否有必要阅读一下机器学习的知识？

14 machine-learning references data-mining

5

随机森林和决策树算法

随机森林是遵循装袋概念的决策树的集合。当我们从一个决策树移动到下一个决策树时，从上一个决策树中学到的信息将如何前进到下一个决策树？因为，按照我的理解，没有什么像训练过的模型那样可以为每个决策树创建然后在下一个决策树开始从错误分类的错误中学习之前加载的。那么它是怎样工作的？

14 machine-learning random-forest cart bagging

3

比较两个分类器的（均值）ROC AUC，敏感性和特异性的统计显着性（p值）

我有一个包含100个案例和两个分类器的测试集。我为这两个分类器生成了预测并计算了ROC AUC，敏感性和特异性。问题1：如何计算p值，以检查一个总分（ROC AUC，敏感性，特异性）是否明显优于另一个？现在，对于100个案例的相同测试集，我为每种案例分配了不同且独立的功能。这是因为我的功能是固定的，但主观的，并且由多（5）个主题提供。因此，我针对我的测试集的5个“版本”再次评估了两个分类器，并获得了5个ROC AUC，5个敏感性和5个特异性。然后，我计算了两个分类器的5个主题的每个性能指标的平均值（平均ROC AUC，平均灵敏度和平均特异性）。问题2：如何计算p值，以检查一个均值（平均ROC AUC，平均敏感性，平均特异性）是否明显好于另一个？最好提供一些示例python（最好）或MatLab代码的答案。

14 machine-learning statistical-significance roc auc sensitivity-specificity

2

如何实现2D中的空间缺失？

这参考了论文《使用卷积网络进行有效对象本地化》，据我了解，辍学是在2D中实现的。从Keras阅读有关如何实现Spatial 2D Dropout的代码后，基本上实现了形状为[batch_size，1，1，num_channels]的随机二进制掩码。但是，此空间2D Dropout对形状为[batch_size，height，width，num_channels]的输入卷积块究竟做了什么？我目前的猜测是，对于每个像素，如果像素的任何层/通道具有负值，则该一个像素的整个通道将默认为零。它是否正确？但是，如果我的猜测是正确的，那么如何使用与原始输入块的尺寸完全相同的形状[batch_size，height，width，num_channels]的二进制掩码会产生通常的按元素丢弃（这是根据tensorflow的原始dropout实现将二进制掩码的形状设置为输入的形状）？因为这意味着如果conv块中的任何像素为负，则整个conv块将默认为0。这是我不太了解的令人困惑的部分。

14 machine-learning deep-learning tensorflow dropout

4

特征缩放和均值归一化

我正在上学的吴安德（Andrew Ng）的机器学习课程，经过几次尝试都无法正确回答这个问题。请帮助解决此问题，尽管我已经通过了该级别。假设学生参加了某堂课，并且该班进行了期中考试和期末考试。您已经收集了两次考试的分数数据集，如下所示：m=4m=4m=4 midterm (midterm)^2 final 89 7921 96 72 5184 74 94 8836 87 69 4761 78 您想使用多项式回归来根据学生的期中考试成绩来预测学生的期末考试成绩。具体而言，假设您要拟合以下形式的模型：，其中是中期得分，是（中期得分）^ 2。此外，您计划同时使用特征缩放（除以特征的“最大-最小”或范围）和均值归一化。X 1 X 2hθ(x)=θ0+θ1x1+θ2x2hθ(x)=θ0+θ1x1+θ2x2h_\theta(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_2x1x1x_1x2x2x_2 什么是归一化特征？（提示：中期= 89，最终= 96是培训示例1。）请在下面的文本框中输入答案。如果适用，请在小数点后至少提供两位数字。x(4)2x2(4)x_2^{(4)}

14 machine-learning self-study normalization

Questions tagged «machine-learning»