统计和大数据 machine-learning

5

我想对我的文本数据进行分类。我300 classes每节课有200份培训文档（所以60000 documents in total），这很可能导致非常高的维度数据（我们可能正在寻找超过100万个维度）。我想在管道中执行以下步骤（只是为了让您了解我的要求）：将每个文档转换为特征向量（tf-idf或vector space model） Feature selection（Mutual Information最好是基于其他标准的）训练分类（SVM，Naive Bayes，Logistic Regression或Random Forest）基于训练的分类器模型预测看不见的数据。所以问题是，我应该使用哪些工具/框架来处理此类高维数据？我知道通常的可疑对象（R，WEKA ...），但据我所知（可能是错误的），可能没有一个可以处理如此大的数据。我还有其他现成的工具吗？如果必须并行处理，是否应该使用Apache Mahout？看起来它可能还没有提供我需要的功能。在此先感谢所有。更新：我环顾了这个网站，R邮件列表和一般的互联网。在我看来，在我的情况下可能出现以下问题：（1）使用R（特别是tm软件包）对数据进行预处理可能不切实际，因为这tm会非常慢。（2）由于我将需要使用一组R包（预处理，稀疏矩阵，分类器等），因此包之间的互操作性可能会成为问题，并且在将数据从一种格式转换为另一种格式时，可能会产生额外的开销。例如，如果我使用tm（或外部工具，例如WEKA）进行预处理，则需要找出一种方法来将该数据转换为R中的HPC库可以读取的形式。同样，对我来说还不清楚分类程序包是否将直接获取HPC库提供的数据。我在正确的轨道上吗？更重要的是，我有道理吗？

18 machine-learning classification text-mining

2

深度学习与决策树和提升方法

我正在寻找可以比较和讨论（经验或理论上）的论文或文章： Boosting和决策树算法（例如Random Forests或AdaBoost和GentleBoost）应用于决策树。与深度学习方法，例如受限玻尔兹曼机，分层时间记忆，卷积神经网络等。更具体地说，有人知道在速度，准确性或收敛性方面讨论或比较这两种机器学习方法的文章吗？另外，我正在寻找能够解释或总结第二个模块中的模型或方法之间差异（例如优缺点）的文本。直接解决这种比较的任何指针或答案将不胜感激。

18 machine-learning deep-learning cart rbm adaboost

2

深度学习中是否使用线搜索方法？为什么不？

在线上许多教程都谈论梯度下降，并且几乎所有教程都使用固定步长（学习率）。为什么不使用线搜索（例如回溯线搜索或精确线搜索）？αα\alpha

18 machine-learning neural-networks optimization deep-learning

3

批量大小如何影响SGD的收敛，为什么？

我在许多讨论中都得出了类似的结论，即随着小批量生产的规模变大，SGD的收敛实际上变得越来越困难，例如本文和这个答案。我也听说有人在早期使用小学习率或批量大小之类的技巧来解决大批量问题。但是，这似乎是违反直觉的，因为小批量的平均损失可以认为是数据分布上预期损失的近似值 1个| X|∑X ∈ Xl （x ，w ）≈ ÈX 〜 pd一个牛逼一[ l （x ，w ）]1个|X|∑X∈X升（X，w）≈ËX〜pd一种Ť一种[升（X，w）]\frac{1}{|X|}\sum_{x\in X} l(x,w)\approx E_{x\sim p_{data}}[l(x,w)] 较大的批量大小的更准确它应该是。为什么实际上不是这样？以下是我的一些想法（可能是错误的），试图加以解释。模型的参数彼此高度依赖，当批处理变得太大时，它会同时影响太多的参数，以至于参数很难达到稳定的固有依赖性？（如批处理规范化文件中提到的内部协变量偏移问题）还是当几乎所有参数都在每次迭代中负责时，它们将倾向于学习冗余的隐式模式，从而降低了模型的容量？（我的意思是说，对于数字分类问题，某些图案应负责点，某些图案应负责边缘，但是当发生这种情况时，每个图案都应负责所有形状）。还是因为当批的大小接近训练集的规模时，由于相关小批的可能性很大，所以小批不再从数据分布中被视为同小异？更新正如Benoit Sanchez的答案所指出的，一个重要的原因是大型微型批次需要更多的计算才能完成一次更新，并且大多数分析都使用固定数量的训练时期进行比较。但是，这篇论文（Wilson和Martinez，2003年）表明，即使有足够的训练时间，较大的批次规模仍然略有不利。通常是这样吗？

18 machine-learning neural-networks optimization gradient-descent sgd

2

是否应在不进行替代的情况下抽取随机抽取的用于小批量训练神经网络的训练样本？

我们定义一个时期为已经遍历所有可用训练样本的全部，而最小批量大小则是我们求平均值以找到下降梯度所需的权重/偏差的样本数。我的问题是，我们是否应该从训练示例集中取而代之，以便在一个时期内生成每个小批量生产。我觉得我们应该避免替换，以确保我们实际上“抽取了所有样本”以满足时代的要求，但是很难以一种或另一种方式找到确定的答案。我已经尝试使用Google搜索和阅读Ch。Nielsen的《神经网络与深度学习》中的 1种，但没有找到明确的答案。在该文本中，尼尔森（Nielsen）没有指定随机抽样而不进行替换，而是暗示这样做。如果需要，可以在这里找到更清晰的正式培训形式-https: //stats.stackexchange.com/a/141265/131630 编辑：这个问题似乎与我相似，但目前尚不清楚如何将期望的线性对独立性无视的事实应用于这种情况- 是否应在有或没有替代的情况下进行抽样

18 machine-learning neural-networks optimization deep-learning

2

如何在强化学习中发挥奖励作用

在研究强化学习时，我遇到了许多形式的奖励函数：，R （s ，a ，s '），甚至是仅取决于当前状态的奖励函数。话虽如此，我意识到“制作”或“定义”奖励功能并非易事。R （s ，a ）[R（s，一种）R(s,a)R （ s ，a ，s′）[R（s，一种，s′）R(s,a,s') 这是我的问题：是否有有关奖励功能的规定？奖励功能还有其他形式吗？例如，多项式形式可能取决于状态？

18 machine-learning reinforcement-learning

2

具有虚拟功能（和其他离散/分类功能）的异常检测

tl; dr discrete在执行异常检测时，推荐的处理数据的方法是什么？ categorical在执行异常检测时，推荐的处理数据的方法是什么？该答案建议使用离散数据仅过滤结果。也许用观察的机会代替类别值？介绍这是我第一次在此处发布信息，因此，如果在格式或使用正确的定义方面在技术上似乎不正确，那么我很想知道应该使用什么代替。向前。我最近参加了Andrew Ng 的机器学习课程对于异常检测，我们已经教过如何确定给定特征/变量在数据集中的正态/高斯分布参数，然后在给定特定条件下确定一组选定的训练示例/观测值的概率高斯分布，然后取特征概率的乘积。xixi{x_i} 方法选择我们认为可以解释所讨论活动的特征/变量： { x 1，x 2，… ，x i }xixix_i{x1,x2,…,xi}{x1,x2,…,xi}\{x_1, x_2,\dots,x_i\} 适合高斯的参数对于每个特征： σ2=1μj=1m∑i=1mx(i)jμj=1m∑i=1mxj(i)\mu_j = \frac{1}{m}\sum_{i = 1}^m x_j^{(i)} σ2=1m∑i=1m(x(i)j−μj)2σ2=1m∑i=1m(xj(i)−μj)2\sigma^2 = \frac{1}{m}\sum_{i = 1}^m (x_j^{(i)} - \mu_j)^2 对于每个训练样例，，计算： p （X ）= Ñ Π Ĵ = 1个 p （X Ĵ …

18 machine-learning categorical-data outliers discrete-data anomaly-detection

3

构建一个多类分类器是否优于几个二进制分类器？

我需要将URL分类。假设我有15个类别，我打算将每个URL归零。 15向分类器更好吗？我有15个标签，并为每个数据点生成特征。还是建立15个二元分类器，例如：电影或非电影，并使用从这些分类中获得的数字来构建等级，以选择最佳类别，从而变得更好？

18 machine-learning classification categorical-data svm feature-selection

1

SVM的优缺点

谁能向我解释将SVM与其他分类器区分开的优缺点？

18 machine-learning svm

2

执行多类SVM的最佳方法

我知道SVM是二进制分类器。我想将其扩展到多类SVM。哪种方法是最好的，也许是最简单的？代码：在MATLAB中 u=unique(TrainLabel); N=length(u); if(N>2) itr=1; classes=0; while((classes~=1)&&(itr<=length(u))) c1=(TrainLabel==u(itr)); newClass=double(c1); tst = double((TestLabel == itr)); model = svmtrain(newClass, TrainVec, '-c 1 -g 0.00154'); [predict_label, accuracy, dec_values] = svmpredict(tst, TestVec, model); itr=itr+1; end itr=itr-1; end 如何改善呢？

18 machine-learning matlab svm multi-class

2

为什么ridge回归分类器在文本分类中效果很好？

在进行文本分类的实验中，我发现了脊分类器生成的结果，这些结果一直领先于那些最常提及的分类器中的测试，这些分类器适用于文本挖掘任务，例如SVM，NB，kNN等。尽管我没有详细说明除了针对参数的一些简单调整外，还针对此特定文本分类任务优化了每个分类器。这样的结果也提到了迪克兰有袋动物。并非来自统计背景，在在线阅读了一些材料之后，我仍然无法弄清其主要原因。谁能提供一些有关这种结果的见解？

18 machine-learning classification text-mining ridge-regression

2

Baum-Welch算法和Viterbi训练之间有什么区别？

我目前正在使用Viterbi训练来解决图像分割问题。我想知道使用Baum-Welch算法而不是Viterbi训练有什么优点/缺点。

18 machine-learning hidden-markov-model image-processing viterbi-algorithm baum-welch

4

如果我想要一个可解释的模型，除了线性回归之外还有其他方法吗？

我遇到了一些统计学家，他们从未使用线性回归以外的模型进行预测，因为他们认为诸如随机森林或梯度增强之类的“ ML模型”很难解释或“无法解释”。在线性回归中，假设已验证一组假设（误差的正态性，同方差，无多重共线性），则t检验提供了一种检验变量重要性的方法，据我所知随机森林或梯度增强模型。因此，我的问题是，是否要使用一组自变量来建模因变量，为了便于解释，我是否应该始终使用线性回归？

18 regression machine-learning multiple-regression model-interpretation

1

随机厨房水槽如何工作？

去年在NIPS 2017上，阿里·拉希米（Ali Rahimi）和本·雷赫特（Ben Recht）的论文“大型内核机器的随机特征” 获得了时间测试奖，他们引入了随机特征，后来被编纂为随机厨房水槽算法。作为公开发表论文的一部分，他们表明可以在5行Matlab中实现他们的模型。 % Approximates Gaussian Process regression % with Gaussian kernel of variance gamma^2 % lambda: regularization parameter % dataset: X is dxN, y is 1xN % test: xtest is dx1 % D: dimensionality of random feature % training w = randn(D,d); b = 2 * pi …

18 machine-learning svm gaussian-process approximation

3

当输出和预测变量之间没有实质相关性时，如何获得良好的线性回归模型？

我使用一组变量/功能训练了线性回归模型。并且该模型具有良好的性能。但是，我已经意识到，没有与预测变量具有良好相关性的变量。这怎么可能？

17 regression machine-learning correlation multiple-regression linear-model

Questions tagged «machine-learning»