统计和大数据 svm

2

我有一个高度不平衡的测试数据集。正集包含100个案例，而负集包含1500个案例。在训练方面，我有一个更大的候选库：正面训练集有1200个案例，负面训练集有12000个案例。对于这种情况，我有几种选择： 1）在整个训练集中使用加权SVM（P：1200，N：12000） 2）使用基于采样训练集（P：1200，N：1200）的SVM，从12000个案例中抽取1200个否定案例。在确定哪种方法更好方面是否有任何理论指导？由于测试数据集高度不平衡，我是否也应该使用不平衡训练集？

16 machine-learning classification data-mining svm bioinformatics

4

分类精度低，下一步该怎么办？

因此，我是ML领域的新手，因此尝试进行一些分类。我的目标是预测体育赛事的结果。我收集了一些历史数据，现在尝试训练分类器。我得到了大约1200个样本，其中有0.2个样本出于测试目的而拆分，其他样本则使用不同的分类器进行了网格搜索（包括交叉验证）。到目前为止，我已经尝试过使用线性，rbf和多项式内核以及随机森林的SVM。不幸的是，我无法获得显着大于0.5的精度（与随机选择类相同）。这是否意味着我无法预测如此复杂事件的结果？或者我可以获得至少0.7-0.8的精度？如果可行，那么接下来我应该考虑什么？获取更多数据？（我最多可以将数据集放大5倍）尝试其他分类器？（逻辑回归，kNN等）重新评估我的功能集？有没有要分析的机器学习工具，哪些功能有意义，哪些没有？也许我应该减少功能集（目前我有12个功能）？

16 classification svm feature-selection random-forest

3

k折叠交叉验证的网格搜索

我有一个10倍交叉验证设置的120个样本的数据集。目前，我选择第一个保持的训练数据，并对其进行5倍交叉验证，以通过网格搜索选择gamma和C的值。我正在将SVM与RBF内核一起使用。由于我正在做十个10交叉验证以报告精度，请问，我是否在每个保留的训练数据中执行此网格搜索（有10个保留，每个包含10％的测试和90％的训练数据）？那不是很费时间吗？如果我使用第一个保留项的gamma和C并将其用于k折交叉验证的9个保留项的其余部分，那是违反规定，因为我本来会使用火车数据获取gamma和C并再次使用火车数据的一部分作为第二次验证中的测试？

16 machine-learning classification cross-validation svm

6

最快的SVM实施

更多的是一个一般性的问题。我正在运行rbf SVM进行预测建模。我认为我当前的程序肯定需要加快速度。我使用scikit learning进行粗略到精细的网格搜索+交叉验证。每次SVM运行大约需要一分钟，但是在所有迭代中，我仍然发现它太慢了。假设我最终在多个内核上对交叉验证部分进行了多线程处理，那么关于提高程序速度的建议是什么？是否有更快的SVM实现？我听说过一些GPU SVM，但并没有对其进行深入研究。任何用户，速度更快吗？

16 machine-learning svm predictive-models scikit-learn kernel-trick

3

支持不平衡数据的SVM

我想尝试在数据集中使用支持向量机（SVM）。但是在尝试问题之前，我曾警告过SVM在极端不平衡的数据上不能很好地执行。就我而言，我最多可以有95-98％的0和2-5％的1。我试图找到有关在稀疏/不平衡数据上使用SVM的资源，但我能找到的只是“ sparseSVM”（使用少量支持向量）。我希望有人可以简要解释一下： SVM对这种数据集的预期效果如何如果有的话，必须对SVM算法进行修改哪些资源/论文对此进行了讨论

15 svm libsvm unbalanced-classes

1

在原假设下，可交换样本背后的直觉是什么？

排列检验（也称为随机检验，重新随机检验或精确检验）非常有用，并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是，在使用这种检验时，一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是，当有两个以上的示例（如在coinR包中实现的示例）时，也可以应用这种方法。您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗？这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。注意：提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。更新：假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1：1。分别Par1在V1（基准），V2（3个月后）和V3（1年后）时测量了参数1 。根据特征A，所有50个主题都可以分为2组；正值= 20，负值=30。它们也可以基于特征B细分为另外2组；B阳性= 15，B阴性=35。现在，我具有Par1所有访问中所有受试者的值。在可交换性的假设下，如果可以，我是否可以在Par1使用置换测试的水平之间进行比较： -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较？ -将具有特征A的对象与具有V2的特征B的对象进行比较？ -比较在V2具有特征A的对象与在V3具有特征A的对象？ -在哪种情况下，这种比较是无效的，并且违反了可交换性的假设？

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

3

支持向量机和超平面的直觉

在我的项目中，我想创建一个逻辑回归模型来预测二进制分类（1或0）。我有15个变量，其中2个是分类变量，其余的则是连续变量和离散变量的混合。为了适应逻辑回归模型，建议我使用SVM，感知器或线性编程检查线性可分离性。这与此处提出的有关线性可分离性测试的建议有关。作为机器学习的新手，我了解上述算法的基本概念，但从概念上讲，我很难想象如何分离具有多个维度（例如15个）的数据。在线资料中的所有示例通常都显示两个数值变量（高度，重量）的二维图，这些二维变量在类别之间显示出明显的差距，并且易于理解，但在现实世界中，数据通常具有更高的维度。我一直被虹膜数据集吸引，试图通过这三个物种拟合一个超平面，以及如何在两个物种之间做到这一点特别困难，即使不是不可能，这两个类现在也让我无法幸免。当我们具有更高的维数时，如何假设当我们超过一定数量的特征时，我们使用内核映射到更高的维空间以实现这种可分离性，这是怎么实现的？同样为了测试线性可分离性，使用的度量标准是什么？是SVM模型的准确性，即基于混淆矩阵的准确性吗？任何有助于更好地理解该主题的帮助将不胜感激。下面也是我的数据集中两个变量的图的样本，它显示了这两个变量的重叠程度。

15 machine-learning logistic classification svm separation

5

内核SVM：我想对映射到更高维度的特征空间有一个直观的了解，以及这如何使线性分离成为可能

我试图了解内核SVM背后的直觉。现在，我了解了线性SVM的工作原理，通过决策线可以最大程度地分割数据。我也了解将数据移植到高维空间的原理，以及如何使在新空间中找到线性决策线变得更容易。我不了解的是如何使用内核将数据点投影到这个新空间。我对内核的了解是，它有效地表示了两个数据点之间的“相似性”。但这与预测有何关系？

15 machine-learning svm kernel-trick

2

使用线性SVM混合连续数据和二进制数据？

因此，我一直在使用SVM，我想知道这是否是一件好事：我有一组连续特征（0到1）和一组分类特征，这些特征已转换为虚拟变量。在这种情况下，我将测量日期编码为一个虚拟变量：我有3个期间的数据，并为它们保留了3个特征号： 20：21：22：因此，根据数据来自哪个周期，将为不同的功能分配1；其他人将获得0。 SVM是否可以与此同时正常工作，或者这是一件坏事？我使用SVMLight和线性内核。

15 categorical-data svm feature-selection linear-model feature-construction

2

为什么缩放对于线性SVM分类很重要？

在执行线性SVM分类时，通常可以对训练数据进行归一化，例如通过减去平均值并除以标准偏差，然后用训练数据的平均值和标准偏差对测试数据进行缩放通常会很有帮助。为什么此过程会大大改变分类性能？

15 machine-learning svm standardization

1

维数诅咒对某些模型的影响是否大于对其他模型的影响？

我一直在阅读的有关维数诅咒的地方主要结合kNN和线性模型对其进行解释。我经常在Kaggle中看到排名靠前的排名，这些排名使用了数据集上几乎没有100k数据点的数千个功能。他们主要使用Boosted树和NN等。许多功能似乎太高了，我觉得它们会受到尺寸诅咒的影响。但是事实并非如此，因为这些模型使它们成为了竞争中的佼佼者。因此，回到我最初的问题-某些模型受维度诅咒的影响大于其他模型吗？具体来说，我对以下模型感兴趣（仅因为这些是我知道/使用的模型）：线性和逻辑回归决策树/随机森林/加强树神经网络支持向量机神经网络 k均值聚类

15 neural-networks svm k-means k-nearest-neighbour high-dimensional

3

“支持向量机”和“受限玻尔兹曼机”中的“机”是什么意思？

为什么将它们称为“机器”？在此上下文中使用的“机器”一词是否有起源？（就像“线性编程”之类的名称可能会令人困惑，但我们知道为什么将其称为“编程”。）

14 svm terminology rbm etymology

3

铰链损失与物流损失的优缺点/局限性

铰链损失可以使用定义max(0,1−yiwTxi)max(0,1−yiwTxi)\text{max}(0, 1-y_i\mathbf{w}^T\mathbf{x}_i)和日志损失可以被定义为log(1+exp(−yiwTxi))log(1+exp⁡(−yiwTxi))\text{log}(1 + \exp(-y_i\mathbf{w}^T\mathbf{x}_i)) 我有以下问题：铰链丢失是否存在任何缺点（例如，对http://www.unc.edu/~yfliu/papers/rsvm.pdf中提到的异常值敏感）？一个与另一个相比有什么区别，优点和缺点？

14 machine-learning svm loss-functions computer-vision

1

Logistic回归和支持向量机之间的区别？

我知道逻辑回归可以找到一个将训练样本分开的超平面。我也知道，支持向量机会找到具有最大余量的超平面。我的问题：逻辑回归（LR）和支持向量机（SVM）之间的区别是，LR找到任何将训练样本分开的超平面，而SVM找到具有最大余量的超平面吗？还是我错了？注意：记得在LR中，当，逻辑函数给出。如果我们假设作为分类阈值，则是超平面或决策边界。θ ＆CenterDot;＆X = 0θ⋅X=0\theta \cdot x = 00.50.50.50.50.50.5θ ＆CenterDot;＆X = 0θ⋅X=0\theta \cdot x = 0

14 machine-learning classification svm data-mining

2

支持向量机是否处理不平衡的数据集？

SVM是否处理不平衡的数据集？是否有任何参数（例如C或分类错误成本）处理不平衡的数据集？

14 machine-learning svm unbalanced-classes

Questions tagged «svm»