Questions tagged «svm»

支持向量机是指“一组相关的监督学习方法,用于分析数据和识别模式,用于分类和回归分析。”




1
在SVM中解释与超平面的距离
在直观地理解SVM时,我有一些疑问。假设我们已经使用一些标准工具(例如SVMLight或LibSVM)训练了SVM模型进行分类。 当我们使用该模型对测试数据进行预测时,该模型将为每个测试点生成一个具有“ alpha”值的文件。如果alpha值为正,则测试点属于1类,否则它属于2类。现在,我们可以说具有更大“ alpha”值的测试点属于具有“较高”概率的相应类吗? 与第一个问题类似,当我们训练了SVM时。SV非常靠近超平面。那么这是否意味着SV很有可能属于该类别?我们可以将一个点属于一个类的概率与到“超平面”的距离联系起来吗?“ alpha”值代表距“超平面”的距离吗? 感谢您的输入。

1
插入符glmnet与cv.glmnet
在glmnet内部caret使用搜索最佳lambda和cv.glmnet执行相同任务的比较中似乎有很多困惑。 提出了许多问题,例如: 分类模型train.glmnet与cv.glmnet? 在插入符号中使用glmnet的正确方法是什么? 使用`caret`交叉验证`glmnet` 但是没有给出答案,这可能是由于问题的可重复性。在第一个问题之后,我给出了一个非常相似的示例,但确实存在相同的问题:为什么估计的lambda如此不同? library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = 0.001),standardize=FALSE) …

1
GAM vs LOESS vs花键
语境:我想提请在不出现参数散点图一条线,所以我使用geom_smooth()的ggplot中R。它会自动返回geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.我收集的GAM代表广义加性模型,并使用三次样条曲线。 以下看法正确吗? 黄土以特定值估算响应。 样条曲线是连接适合数据的不同分段函数(构成广义加性模型)的近似值,三次样条曲线是此处使用的特定样条曲线类型。 最后,何时应使用花键,何时应使用LOESS?


2
简述KKT
目的 确认对KKT的理解是否正确。寻求有关KKT的进一步解释和确认。 背景 试图了解KKT条件,尤其是补充条件,在SVM文章中总是突然出现这种情况。我不需要抽象公式列表,但确实需要具体,直观和图形化的说明。 题 如果使成本函数f(X)最小的P在约束内(g(P)> = 0),则为解。KKT在这种情况下似乎无关紧要。 KKT似乎说,如果P不在约束内,那么解X应该在图中满足。到底是KKT,还是我想念其他重要方面? 其他说明 f(x)是否应凸出才能应用KKT? g(x)是否应线性适用于KKT? λ* g(X)= 0时,λ是否必要?为什么g(X)= 0或g(Xi)= 0还不够? 参考文献 拉格朗日乘积KKT条件 SVM中的每个排水沟点都有正乘数吗? http://fnorio.com/0136Lagrange_method_of_undetermined_multipliers/Lagrange_method_of_undetermined_multipliers.html 更新1 感谢您的回答,但仍然难以理解。仅在此处关注必要性: 马修·冈恩(Matthew Gunn)回答中关于非最佳点(绿色圆圈)和KKT的条件(2)在那里是否不满足?就像Mark L. Stone的答案那样,通过观察Hessian可以识别出这一点吗? 我想另外一种情况是鞍点,但是否同样适用? 用户名

3
对于非线性数据,是否应尽可能使用内核技巧?
我最近了解了内核技巧的用法,该技巧将数据映射到更高维度的空间,以尝试线性化那些维度中的数据。在任何情况下我都应避免使用此技术?仅仅是找到正确的内核功能的问题吗? 对于线性数据,这当然无济于事,但对于非线性数据,这似乎总是有用的。就训练时间和可伸缩性而言,使用线性分类器比非线性分类器容易得多。


2
e1071 libsvm有问题吗?
我有一个包含两个重叠类的数据集,每个类中有七个点,点在二维空间中。在R中,我正在svm从e1071软件包中运行,以为这些类构建单独的超平面。我正在使用以下命令: svm(x, y, scale = FALSE, type = 'C-classification', kernel = 'linear', cost = 50000) 其中x包含我的数据点并y包含其标签。该命令返回一个svm-object,我用它来计算分离超平面的参数(法向矢量)和(截距)。wwwbbb 下图(a)显示了我的点和svm命令返回的超平面(让我们将此超平面称为最佳平面)。带符号O的蓝点表示空间原点,虚线表示边距,带圆圈的是非零ξξ\xi(松弛变量)的点。 图(b)显示了另一个超平面,它是最佳5的平行平移(b_new = b_optimal-5)。不难看出,对于该超平面,目标函数 0.5||w||2+cost∑ξi0.5||w||2+cost∑ξi 0.5||w||^2 + cost \sum \xi_i (通过C分类svm最小化)将具有比图所示的最佳超平面更低的值(一个)。看来此svm功能有问题吗?还是我在某个地方犯了错误? 以下是本实验中使用的R代码。 library(e1071) get_obj_func_info <- function(w, b, c_par, x, y) { xi <- rep(0, nrow(x)) for (i in 1:nrow(x)) { xi[i] <- 1 - …

1
支持向量机可以用于大数据吗?
以我对SVM的了解有限,它对于简短而又胖的数据矩阵(很多特征,并且没有太多实例)很有用,但不适用于大数据。XXX 我知道一个原因是内核矩阵是矩阵,其中是数据中实例的数量。如果说100K数据,则内核矩阵将具有元素,并可能占用约80G内存。ķķKn × nñ×ñn \times nññnķķK1010101010^{10} 是否可以对大数据使用SVM进行任何修改?(以100K到1M数据点的规模为例吗?)


3
为什么增强方法对异常值敏感
我发现有许多文章指出增强方法对异常值很敏感,但没有文章解释原因。 以我的经验,离群值对于任何机器学习算法都是不利的,但是为什么提升方法特别敏感? 下列算法如何在对异常值的敏感性方面进行排名:增强树,随机森林,神经网络,SVM和简单回归方法(例如逻辑回归)?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.