Questions tagged «svm»

支持向量机是指“一组相关的监督学习方法,用于分析数据和识别模式,用于分类和回归分析。”

1
稀疏的训练集是否会对SVM产生不利影响?
我正在尝试使用SVM将消息分类为不同的类别。我已经从训练集中汇编了一些理想的单词/符号列表。 对于表示消息的每个矢量,我将相应行设置为1是否存在该单词: “语料库”是:[玛丽,小羊羔,星星,闪烁] 第一条消息:“玛丽有只小羊羔”-> [1 1 1 0 0] 第二条消息:“闪烁的小星星”-> [0 1 0 1 1] 我认为这在SVM中是相当常见的设置,但是我的问题是,如果集合中包含成千上万个单词,那么实际上每条消息仅显示1-2个单词会怎样?我的训练向量集的线性相关性是否会对算法的收敛能力产生不利影响?

2
SVM,变量交互和训练数据拟合
我有2个一般/更多理论问题。 1)我很好奇在建立预测模型时SVM如何处理变量交互。例如,如果我有两个特征f1和f2,并且目标取决于f1,f2,并说f1 * f2(或某些函数h(f1,f2)),则SVM是否适合(不仅适用于OOS,甚至适用于训练数据)在仅包括f1和f2的特征中包括f1,f2和h(f1,f2)时是否有所改善?SVM算法处理特征交互吗?SVM如何尝试在更高维度的空间中创建超平面,但似乎并不确定。 2)在将SVM拟合训练数据时,如果具有足够的功能并找到最佳参数(通过蛮力搜索或其他方法),SVM会总是琐碎地拟合训练数据吗?不知道我的措词是否正确,但是基本上,如果功能中有足够的方差/噪声,SVM是否总是100%适合训练数据?相反,如果SVM无法100%拟合训练数据,这是否意味着某些影响目标变量的信息(或其他功能)并未在数据中捕获? 谢谢 小澄清。我指的是内核SVM

2
训练数据中具有不相等组大小的SVM
我正在尝试从训练数据构建一个SVM,其中一组代表的数量更多。但是,组将在最终的测试数据中均等地代表。因此,我想使用R包接口的class.weights参数来平衡两组在训练数据中的影响。e1071libsvm 由于我不确定应该如何指定这些权重,因此我进行了一些测试: 生成一些空数据(随机特征;组标签之间的比例为2:1) 使用class.weights参数集安装一个svm 。 预测一堆新的空数据集并查看类比例。 针对不同的空训练集重复整个过程很多次。 这是我正在使用的R代码: nullSVM <- function(n.var, n.obs) { # Simulate null training data vars = matrix(rnorm(n.var*n.obs), nrow=n.obs) labels = rep(c('a', 'a', 'b'), length.out=n.obs) data = data.frame(group=labels, vars) # Fit SVM fit = svm(group ~ ., data=data, class.weights=c(a=0.5, b=1)) # Calculate the average fraction of 'a' …

3
了解SVM回归:目标函数和“平坦度”
用于分类的SVM对我而言具有直觉的意义:我知道如何最小化||θ||2||θ||2||\theta||^2产生最大余量。但是,我不了解回归的目标。各种文本(此处和此处)将其描述为最大化“平坦度”。我们为什么要这样做?回归等于“保证金”的概念是什么? 这里有一些尝试的答案,但是没有一个真正帮助我理解。
12 regression  svm 

2
将Pearson相关系数作为机器学习中的优化目标
在机器学习中(针对回归问题),我经常看到均方误差(MSE)或均方绝对误差(MAE)被用作最小化(加上正则化项)的误差函数。我想知道是否存在使用相关系数更合适的情况?如果存在这种情况,则: 与MSE / MAE相比,在什么情况下相关系数是更好的指标? 在这些情况下,MSE / MAE还是可以使用的良好代理费用功能吗? 直接使相关系数最大化是可能的吗?这是一个稳定的目标函数吗? 我找不到在优化中直接将相关系数用作目标函数的情况。如果有人可以向我介绍该领域的信息,我将不胜感激。

2
面板数据的机器学习算法
在这个问题中- 是否有一种考虑结构化/分层/多级预测变量的构造决策树的方法?-他们提到了树木的面板数据方法。 是否有支持矢量机和神经网络的特定面板数据方法?如果是这样,您能否引用一些有关算法和实现它的R包的文章?

1
SVM网格搜索是否应显示周围的准确性较低的高精度区域?
我有12个积极的训练集(用药物治疗的癌细胞具有12种不同的作用机制中的每一种)。对于这些正面训练集,我想训练一个支持向量机,以将其与从实验中采样的大小相等的负面集合区分开来。每组具有1000到6000个像元,每个像元有476个特征(图像特征),每个特征线性缩放为[0,1]。 我使用LIBSVM和高斯RGB内核。使用五重交叉验证,我对log 2 C∈[-5,15]和log 2ɣ∈[-15,3]进行了网格搜索。结果如下: 令我感到失望的是,没有一个参数集可以为所有12个分类问题提供高精度。我也感到惊讶的是,网格通常不会显示出由较低精度包围的高精度区域。这是否仅表示我需要扩展搜索参数空间,还是网格搜索是否表明存在其他问题?
12 svm 

2
用二次规划优化支持向量机
我正在尝试了解训练线性支持向量机的过程。我意识到,与使用二次编程求解器相比,SMV的属性可以更快地对其进行优化,但是出于学习目的,我希望了解其工作原理。 训练数据 set.seed(2015) df <- data.frame(X1=c(rnorm(5), rnorm(5)+5), X2=c(rnorm(5), rnorm(5)+3), Y=c(rep(1,5), rep(-1, 5))) df X1 X2 Y 1 -1.5454484 0.50127 1 2 -0.5283932 -0.80316 1 3 -1.0867588 0.63644 1 4 -0.0001115 1.14290 1 5 0.3889538 0.06119 1 6 5.5326313 3.68034 -1 7 3.1624283 2.71982 -1 8 5.6505985 3.18633 -1 9 4.3757546 …
12 r  svm  optimization 

2
为什么CNN以FC层结尾?
据我了解,CNN由两部分组成。第一部分(转换/池层)进行特征提取,第二部分(fc层)对特征进行分类。 由于完全连接的神经网络不是最佳分类器(即,大多数情况下它们的性能优于SVM和RF),因此CNN为什么以FC层作为结束,而不是说SVM或RF?

1
SVM的一般化界限
我对支持向量机的泛化能力的理论结果感兴趣,例如,这些机器的分类错误概率和Vapnik-Chervonenkis(VC)维度的界限。但是,通读文献后,我的印象是,某些相似的重复结果往往因作者而略有不同,尤其是在一定的持有范围内需要的技术条件方面。 在下面我会记得的SVM问题和主要成果概括状态3,我已经在这种或那种形式反复发现的结构我给整个博览会3个主引用。−−- 问题设置: 假设我们有一个独立且均布的(iid)对的数据样本,其中所有,和。我们构造了一个支持向量机(SVM),该向量使,和定义的分离超平面之间的最小余量最大化。,以及之间最接近的点以便将和定义的两个类分开。我们通过引入松弛变量让SVM通过软裕度来承认一些错误(xi,yi)1≤i≤n(xi,yi)1≤i≤n(x_i,y_i)_{1\leq i\leq n}iiixi∈Rpxi∈Rpx_i \in \mathbb{R}^pyi∈{−1,1}yi∈{−1,1}y_i \in \{-1,1\}m∗m∗m^*{x:w⋅x+b=0}{x:w⋅x+b=0}\{x : w \cdot x + b = 0\}w∈Rpw∈Rpw \in \mathbb{R}^pb∈Rb∈Rb \in \mathbb{R}x1,⋯,xnx1,⋯,xnx_1,\cdots,x_ny=−1y=−1y = -1y=1y=1y = 1 -ξ1,⋯,ξnξ1,⋯,ξn\xi_1,\cdots,\xi_n −−-但为了表示简单起见,我们忽略了内核的可能性。解参数和是通过求解以下凸二次优化程序获得的:b ∗w∗w∗w^*b∗b∗b^* minw,b,ξ1,⋯,ξns.t.:12∥w∥2+C∑i=1nξiyi(w⋅xi+b)≥1−ξiξi≥0,∀i∈{1,⋯,n},∀i∈{1,⋯,n}minw,b,ξ1,⋯,ξn12‖w‖2+C∑i=1nξis.t.:yi(w⋅xi+b)≥1−ξi,∀i∈{1,⋯,n}ξi≥0,∀i∈{1,⋯,n}\begin{align} \min_{w, \, b, \, \xi_1, \, \cdots, \, \xi_n} \; & \; \frac{1}{2}\|w\|^2 + C\sum_{i=1}^n\xi_i \\ \text{s.t.} \; : \; …

1
与SVM相比,支持向量回归有何不同?
我了解有关SVM和SVR的基础知识,但我仍然不知道如何找到一种将余量最大化的超平面的问题适合SVR。 其次,我读了一些关于信息,该用作SVR的容限。这是什么意思?ϵϵ\epsilon 第三,在SVM和SVR中使用的决策函数参数之间是否有区别?

3
为什么要分别估计SVM中的偏差项而不是特征向量中的额外维?
SVM中的最佳超平面定义为: w⋅x+b=0,w⋅x+b=0,\mathbf w \cdot \mathbf x+b=0, 其中bbb代表阈值。如果我们有一些映射ϕϕ\mathbf \phi将输入空间映射到某个空间ZZZ,我们可以在空间定义SVM ZZZ,其中最佳水平平面将是: w⋅ϕ(x)+b=0.w⋅ϕ(x)+b=0.\mathbf w \cdot \mathbf \phi(\mathbf x)+b=0. 然而,我们可以总是限定映射ϕϕ\phi使得ϕ0(x)=1ϕ0(x)=1\phi_0(\mathbf x)=1,∀x∀x\forall \mathbf x,然后将最佳hiperplane将被定义为 w⋅ϕ(x)=0.w⋅ϕ(x)=0.\mathbf w \cdot \mathbf \phi(\mathbf x)=0. 问题: 为什么许多论文使用w⋅ϕ(x)+b=0w⋅ϕ(x)+b=0\mathbf w \cdot \mathbf \phi(\mathbf x)+b=0时,他们已经有映射ϕϕ\phi和参数估计ww\mathbf w和theshold bbb separatelly? 小号。Ť。ÿ Ñ 瓦特·& φ( X Ñ)≥1,∀Ñminw||w||2minw||w||2\min_{\mathbf w} ||\mathbf w ||^2 s.t. ynw⋅ϕ(xn)≥1,∀ns.t. ynw⋅ϕ(xn)≥1,∀ns.t. \ y_n …
11 svm  threshold 

2
将Adaboost与SVM一起使用进行分类
我知道Adaboost会尝试使用一组弱分类器的线性组合来生成强分类器。 但是,我读过一些论文,建议Adaboost和SVM在某些条件和情况下可以协调工作(即使SVM是强大的分类器)。 从体系结构和编程的角度看,我无法把握它们如何结合使用。我读过许多论文(也许是错误的论文),但并没有清楚地解释它们如何协同工作。 有人可以阐明他们如何结合使用以进行有效分类吗?指向一些论文/文章/期刊的指针也将不胜感激。


1
为什么将SVM解释为分类概率是错误的?
我对SVM的理解是,它与逻辑回归(LR)非常相似,即将特征的加权总和传递给S形函数以获取属于一类的概率,而不是交叉熵(逻辑)损失功能,使用铰链损失进行训练。使用铰链损失的好处是可以执行各种数值技巧来使内核化更加有效。但是,缺点是所得模型的信息少于相应的LR模型可能具有的信息。因此,例如,如果没有内核化(使用线性内核),SVM决策边界仍将位于LR输出0.5的概率所在的相同位置,但无法判断属于一类的概率从SVM 衰减的速度有多快。决策边界。 我的两个问题是: 我上面的解释正确吗? 使用铰链损失如何使将SVM结果解释为概率无效?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.