Questions tagged «svm»

支持向量机是指“一组相关的监督学习方法,用于分析数据和识别模式,用于分类和回归分析。”

7
C在具有线性内核的SVM中有什么影响?
我目前正在使用具有线性内核的SVM对数据进行分类。训练集上没有错误。我尝试了几个参数值 ()。这并没有改变测试集上的错误。CCC10−5,…,10210−5,…,10210^{-5}, \dots, 10^2 现在我不知道:这是一个错误由红宝石绑定引起了libsvm我使用(RB-LIBSVM)或者是这个理论可以解释? 参数是否应始终改变分类器的性能?CCC


4
如何直观地解释什么是内核?
许多机器学习分类器(例如支持向量机)允许指定一个内核。解释内核是什么的直观方式是什么? 我一直在思考的一个方面是线性和非线性内核之间的区别。简单来说,我可以说“线性决策函数”是“非线性决策函数”。但是,我不确定将内核称为“决策函数”是否是一个好主意。 有什么建议吗?


3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

1
帮助我了解支持向量机
我了解支持向量机旨在将输入集分为几个不同类的基础知识,但是我不了解其中的一些细节。首先,我对Slack变量的使用有些困惑。他们的目的是什么? 我正在做一个分类问题,在该问题中,我从放在鞋垫上的传感器捕获了压力读数。在记录压力数据的同时,受试者将坐,站和走几分钟。我想训练一个分类器,以便能够确定一个人是坐着,站着还是走着,并能够对将来的任何测试数据进行分类。我需要尝试哪种分类器?对我来说,从捕获的数据中训练分类器的最佳方法是什么?我有1000个坐,站和行走条目(总计3x1000 = 3000),并且它们都具有以下特征向量形式。(来自传感器1的压力,来自传感器2的压力,来自传感器3的压力,来自传感器4的压力)

4
是什么使Gaussian内核对PCA如此神奇?
我在读有关内核PCA(1,2,3)用高斯和多项式内核。 高斯核如何很好地分离似乎任何种类的非线性数据?请给出直观的分析,并在可能的情况下进行数学分析。 其他内核所没有的高斯内核(具有理想的)的特性是什么?我想到了神经网络,SVM和RBF网络。σσ\sigma 为什么我们不通过Cauchy PDF规范并期望得到相同的结果?

5
神经网络与支持向量机:第二种绝对优越吗?
我阅读过许多论文的作者都断言,支持向量机是解决其回归/分类问题的上乘技术,他们意识到通过神经网络无法获得相似的结果。比较经常指出 SVM,而不是NN, 有很强的创立理论 由于二次编程,达到全局最优 选择适当数量的参数没有问题 不太容易过拟合 需要更少的内存来存储预测模型 产生更具可读性的结果和几何解释 是认真对待的一个被广泛接受的思想吗?不要引用免费午餐定理或类似的陈述,我的问题是关于这些技术的实际使用。 另一方面,NN肯定会面对哪种抽象问题?

4
在安装SVM时为什么要麻烦双重问题?
给定数据点和标签,硬边距SVM基本问题是x1,…,xn∈Rdx1,…,xn∈Rdx_1, \ldots, x_n \in \mathbb{R}^dy1,…,yn∈{−1,1}y1,…,yn∈{−1,1}y_1, \ldots, y_n \in \left \{-1, 1 \right\} minimizew,w012wTwminimizew,w012wTw \text{minimize}_{w, w_0} \quad \frac{1}{2} w^T w s.t.∀i:yi(wTxi+w0)≥1s.t.∀i:yi(wTxi+w0)≥1 \text{s.t.} \quad \forall i: y_i (w^T x_i + w_0) \ge 1 这是一个针对和约束进行优化的变量的二次程序。双重d+1d+1d+1iii maximizeα∑i=1nαi−12∑i=1n∑j=1nyiyjαiαjxTixjmaximizeα∑i=1nαi−12∑i=1n∑j=1nyiyjαiαjxiTxj \text{maximize}_{\alpha} \quad \sum_{i=1}^{n}{\alpha_i} - \frac{1}{2}\sum_{i=1}^{n}{\sum_{j=1}^{n}{y_i y_j \alpha_i \alpha_j x_i^T x_j}} s.t.∀i:αi≥0∧∑i=1nyiαi=0s.t.∀i:αi≥0∧∑i=1nyiαi=0 \text{s.t.} \quad \forall i: \alpha_i \ge …
50 svm 

2
为什么卷积神经网络不使用支持向量机进行分类?
近年来,卷积神经网络(CNN)已成为计算机视觉中对象识别的最新技术。通常,CNN由几个卷积层组成,然后是两个完全连接的层。这背后的一种直觉是,卷积层学习输入数据的更好表示,然后全连接层学习根据一组标签对这种表示进行分类。 但是,在CNN开始占主导地位之前,支持向量机(SVM)是最新技术。所以说SVM仍然比两层全连接神经网络更强大的分类器似乎是明智的。因此,我想知道为什么最新的CNN倾向于使用完全连接的层进行分类,而不是使用SVM?这样,您将两全其美:强大的要素表示和强大的分类器,而不是强大的要素表示,但只有弱分类器... 有任何想法吗?



5
如何解释SVM功能权重?
我试图解释通过拟合线性SVM给出的可变权重。 (我正在使用scikit-learn): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ 我在文档中找不到任何具体说明如何计算或解释这些权重的信息。 体重的迹象与上课有关系吗?

3
比较SVM和Logistic回归
有人可以给我一些何时选择SVM或LR的直觉吗?我想了解两者的超平面的优化标准之间有何区别的直觉,其各自的目标如下: SVM:尝试使最接近的支持向量之间的裕度最大化 LR:最大化后类可能性 让我们考虑SVM和LR的线性特征空间。 我已经知道一些差异: SVM是确定性的(但我​​们可以使用Platts模型进行概率评分),而LR是概率性的。 对于内核空间,SVM更快(仅存储支持向量)

3
SVM,过度拟合,尺寸诅咒
我的数据集很小(120个样本),但是特征的数量却很大(从1000-200,000)不等。尽管我正在进行特征选择以选择特征子集,但它可能仍然过拟合。 我的第一个问题是,SVM如何处理过度拟合(如果有的话)。 其次,随着我对分类情况下的过度拟合的更多研究,我得出的结论是,即使具有少量特征的数据集也可能过度拟合。如果我们没有与类标签相关的特征,则无论如何都会发生过度拟合。因此,我现在想知道如果无法为类标签找到正确的功能,那么自动分类的意义何在?在文档分类的情况下,这将意味着手动制作与标签有关的单词词库,这非常耗时。我想我想说的是,如果不亲自挑选正确的功能,就很难建立通用模型? 同样,如果实验结果没有表明结果偏低/没有过拟合,则变得毫无意义。有办法测量吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.