Questions tagged «libsvm»

LIBSVM是用于支持向量机的集成软件库,执行支持向量分类(C-SVC,nu-SVC),回归(epsilon-SVR,nu-SVR)和分布估计(一类SVM)

7
C在具有线性内核的SVM中有什么影响?
我目前正在使用具有线性内核的SVM对数据进行分类。训练集上没有错误。我尝试了几个参数值 ()。这并没有改变测试集上的错误。CCC10−5,…,10210−5,…,10210^{-5}, \dots, 10^2 现在我不知道:这是一个错误由红宝石绑定引起了libsvm我使用(RB-LIBSVM)或者是这个理论可以解释? 参数是否应始终改变分类器的性能?CCC

2
libsvm数据格式
我正在使用libsvm(http://www.csie.ntu.edu.tw/~cjlin/libsvm/)工具进行支持向量分类。但是,我对输入数据的格式感到困惑。 从自述文件: 训练和测试数据文件的格式为: <label> <index1>:<value1> <index2>:<value2> ... . . . 每行包含一个实例,并以“ \ n”字符结尾。对于分类,<label>是指示类标签的整数(支持多类)。为了回归,<label>目标值可以是任何实数。对于一类SVM,不使用它,因此可以是任何数字。该对<index>:<value>提供一个特征(属性)值:<index>是一个从1开始的整数,<value> 是一个实数。唯一的例外是预先计算的内核, <index>从0开始;请参阅预计算内核部分。索引必须按升序排列。测试文件中的标签仅用于计算准确性或错误。如果未知,则在第一列中填入任何数字。 我有以下问题: 有什么用<index>?它有什么作用? 不同数据实例的相同索引值之间是否存在对应关系? 如果我错过/跳过两者之间的索引怎么办? 我问是因为libsvm的软件包中包含的数据文件* heart_scale *在第12行中,索引从2开始。<value>索引1 的for 是否被视为未知/丢失?注意:软件包随附的tools / checkdata.py工具表示* heart_scale *文件正确。

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

1
libsvm“达到最大迭代次数”警告和交叉验证
我在C-SVC模式下使用2级多项式内核的libsvm,并且需要训练多个SVM。每个训练集都有10个特征和5000个向量。在训练过程中,我收到有关我训练的大多数SVM的警告: WARNING: reaching max number of iterations optimization finished, #iter = 10000000 有人可以解释这个警告的含义,以及如何避免它吗? 我还想对我的模型进行交叉验证,以便确定γ和C(正则化)的最佳选择。我的计划是仅尝试这10个值的每种组合:两个参数都为0.00001、0.0001、0.001、0.01、0.1、1、10、100、1000、10000,然后看看哪种组合在交叉验证期间产生最佳精度。这够了吗?我应该在此间隔中使用更多的值,还是应该选择更大的间隔?

3
支持不平衡数据的SVM
我想尝试在数据集中使用支持向量机(SVM)。但是在尝试问题之前,我曾警告过SVM在极端不平衡的数据上不能很好地执行。就我而言,我最多可以有95-98%的0和2-5%的1。 我试图找到有关在稀疏/不平衡数据上使用SVM的资源,但我能找到的只是“ sparseSVM”(使用少量支持向量)。 我希望有人可以简要解释一下: SVM对这种数据集的预期效果如何 如果有的话,必须对SVM算法进行修改 哪些资源/论文对此进行了讨论


1
插入符glmnet与cv.glmnet
在glmnet内部caret使用搜索最佳lambda和cv.glmnet执行相同任务的比较中似乎有很多困惑。 提出了许多问题,例如: 分类模型train.glmnet与cv.glmnet? 在插入符号中使用glmnet的正确方法是什么? 使用`caret`交叉验证`glmnet` 但是没有给出答案,这可能是由于问题的可重复性。在第一个问题之后,我给出了一个非常相似的示例,但确实存在相同的问题:为什么估计的lambda如此不同? library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = 0.001),standardize=FALSE) …

2
e1071 libsvm有问题吗?
我有一个包含两个重叠类的数据集,每个类中有七个点,点在二维空间中。在R中,我正在svm从e1071软件包中运行,以为这些类构建单独的超平面。我正在使用以下命令: svm(x, y, scale = FALSE, type = 'C-classification', kernel = 'linear', cost = 50000) 其中x包含我的数据点并y包含其标签。该命令返回一个svm-object,我用它来计算分离超平面的参数(法向矢量)和(截距)。wwwbbb 下图(a)显示了我的点和svm命令返回的超平面(让我们将此超平面称为最佳平面)。带符号O的蓝点表示空间原点,虚线表示边距,带圆圈的是非零ξξ\xi(松弛变量)的点。 图(b)显示了另一个超平面,它是最佳5的平行平移(b_new = b_optimal-5)。不难看出,对于该超平面,目标函数 0.5||w||2+cost∑ξi0.5||w||2+cost∑ξi 0.5||w||^2 + cost \sum \xi_i (通过C分类svm最小化)将具有比图所示的最佳超平面更低的值(一个)。看来此svm功能有问题吗?还是我在某个地方犯了错误? 以下是本实验中使用的R代码。 library(e1071) get_obj_func_info <- function(w, b, c_par, x, y) { xi <- rep(0, nrow(x)) for (i in 1:nrow(x)) { xi[i] <- 1 - …

1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …

2
多类分类中的Scikit SVM输出始终给出相同的标签
我目前正在使用带有以下代码的Scikit学习: clf = svm.SVC(C=1.0, tol=1e-10, cache_size=600, kernel='rbf', gamma=0.0, class_weight='auto') 然后用7个不同的标签拟合并预测一组数据。我得到了一个奇怪的输出。无论我在验证集上使用预测的标签是哪种交叉验证技术,始终都是标签7。 我尝试了其他一些参数,包括完整的默认参数one(svm.SVC()),但是只要我使用的内核方法rbf代替,poly否则linear它将无法工作,而对于polyand 来说确实很好linear。 此外,我已经尝试对火车数据而不是验证数据进行预测,它非常适合。 有人以前见过这种问题,知道这里发生了什么吗? 我从不详细查看我的班级分布,但我知道应该有30%左右是7、14%是4。 我什至尝试手动进行1-vs-rest实施,但仍然没有帮助。

4
R中的离散时间事件历史(生存)模型
我正在尝试在R中拟合离散时间模型,但不确定如何执行。 我读过您可以将因变量组织在不同的行中,每个时间观察行一个,并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲,我有三列:ID,Event(在每个时间范围内为1或0)和Time Elapsed(自观察开始以来)以及其他协变量。 如何编写适合模型的代码?哪个因变量?我想我可以将其Event用作因变量,并将其包括Time Elapsed在协变量中。但是,会发生什么ID呢?我需要吗? 谢谢。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

2
用于二进制分类问题的哪个SVM内核?
我是支持向量机的初学者。是否有一些准则说明哪个内核(例如线性,多项式)最适合特定问题?就我而言,我必须根据网页是否包含某些特定信息对网页进行分类,即我存在二进制分类问题。 您能否总体说出最适合此任务的内核?还是我必须在特定的数据集上尝试其中的几个才能找到最佳数据集?顺便说一句,我正在使用利用libSVM库的Python库scikit-learn。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.