Questions tagged «svm»

支持向量机是指“一组相关的监督学习方法,用于分析数据和识别模式,用于分类和回归分析。”

1
有支持SVM的应用程序吗?
SVM算法非常古老-它于1960年代开发,但是在1990年代和2000年代非常流行。它是机器学习课程的经典(而且非常漂亮)的一部分。 如今,似乎在媒体处理(图像,声音等)中,神经网络已完全占据主导地位,而在其他领域,梯度提升却占据了非常重要的位置。 另外,在最近的数据竞赛中,我没有观察到基于SVM的解决方案。 我正在寻找SVM仍能提供最新结果(截至2016年)的应用示例。 更新:我想举一些例子,在解释SVM时可以给学生/同事例如,这样它看起来不像是纯粹的理论或过时的方法。

4
R中的离散时间事件历史(生存)模型
我正在尝试在R中拟合离散时间模型,但不确定如何执行。 我读过您可以将因变量组织在不同的行中,每个时间观察行一个,并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲,我有三列:ID,Event(在每个时间范围内为1或0)和Time Elapsed(自观察开始以来)以及其他协变量。 如何编写适合模型的代码?哪个因变量?我想我可以将其Event用作因变量,并将其包括Time Elapsed在协变量中。但是,会发生什么ID呢?我需要吗? 谢谢。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 


1
SVM类型之间的差异
我是新来支持向量机的人。 简短说明 R中svm的e1071软件包中的函数提供了多种选项: C分类 nu分类 一类(用于新颖性检测) eps回归 回归 这五种类型之间的直观区别是什么?在哪种情况下应使用哪一个?

2
使用SVM时,为什么需要缩放功能?
根据scikit-learn中StandardScaler对象的文档: 例如,学习算法的目标函数中使用的许多元素(例如支持向量机的RBF内核或线性模型的L1和L2正则化器)都假定所有特征都围绕0居中并且具有相同顺序的方差。如果某个特征的方差比其他特征大几个数量级,则它可能会支配目标函数,并使估计器无法按预期从其他特征中正确学习。 分类前应先缩放特征。有什么简单的方法可以说明为什么我应该这样做?引用科学文章会更好。我已经找到了,但可能还有很多。

2
用于二进制分类问题的哪个SVM内核?
我是支持向量机的初学者。是否有一些准则说明哪个内核(例如线性,多项式)最适合特定问题?就我而言,我必须根据网页是否包含某些特定信息对网页进行分类,即我存在二进制分类问题。 您能否总体说出最适合此任务的内核?还是我必须在特定的数据集上尝试其中的几个才能找到最佳数据集?顺便说一句,我正在使用利用libSVM库的Python库scikit-learn。

2
具有纵向数据的SVM回归
我每个患者大约有500个变量,每个变量都有一个连续值,并在三个不同的时间点(两个月后和一年后)进行测量。通过回归,我想预测新患者的治疗结果。 是否可以对此类纵向数据使用SVM回归?


1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
如何从R中的线性SVM获取决策边界?
我需要一个可以为我提供线性SVM模型方程式的软件包。目前,我正在像这样使用e1071: library(e1071) m = svm(data, labels, type='C', kernel='linear', cost=cost, probability=FALSE, scale=scale) w = t(m$coefs) %*% data[m$index,] #Weight vector b = -model$rho #Offset 但是,我不确定如何e1071::svm()选择肯定和否定类,因此我认为这可能会使不同的数据集搞砸。谁能确认该函数如何确定哪个类别为正,哪个类别为负? 另外,有更好的包装吗?
9 r  svm  e1071 

2
如何在R中为SVM输入变量执行遗传算法变量选择?
我在R中使用kernlab软件包来构建SVM,以对某些数据进行分类。 SVM运行良好,因为它提供了不错的准确性的“预测”,但是我的输入变量列表比我想要的要大,而且我不确定不同变量的相对重要性。 我想实现一个遗传算法,以选择产生最佳训练/最适合的SVM的输入变量子集。 在尝试此GA实施时(可能是一个简短的psuedo示例),我想选择使用哪个R包时需要一些帮助。 我已经查看了大部分R GA / P软件包(RGP,genalg,subselect,GALGO),但是我在概念上很难解决如何将ksvm函数作为健身函数的一部分传递并输入我的变量数组作为人口池...? 在正确的方向上得到的任何帮助,想法或推动都将不胜感激。 谢谢 解决此问题的代码在稍后的EDIT中添加 # Prediction function to be used for backtesting pred1pd = function(t) { print(t) ##add section to select the best variable set from those available using GA # evaluation function - selects the best indicators based on miminsied training error …

1
使用SVM处理不平衡的多类数据集的最佳方法
我正在尝试在相当不平衡的数据上使用SVM构建预测模型。我的标签/输出有三个类别,正,中性和负。我会说正面的例子约占我数据的10-20%,中立的约占50-60%,负数约占30-40%。我正在尝试平衡类,因为与类之间的错误预测相关的成本并不相同。一种方法是对训练数据进行重采样并生成一个相等的数据集,该数据集比原始数据集更大。有趣的是,当我这样做时,我倾向于对其他类别做出更好的预测(例如,当我平衡数据时,我增加了正面类别的示例数量,但在样本预测之外,负面类别的表现更好)。任何人都可以大致解释为什么会这样吗?如果我增加否定类别的榜样数量,我会从样本预测(例如更好的预测)中得到与肯定类别相似的东西吗? 关于如何通过对错误分类施加不同的成本或使用LibSVM中的类权重来解决不平衡数据的其他想法也非常开放,尽管我不确定如何正确选择/调整那些数据。

2
在为支持向量机选择学习参数的背景下,如何适当地应用交叉验证?
出色的libsvm软件包提供了python接口和文件“ easy.py”,该文件可自动搜索学习参数(cost和gamma),以最大程度地提高分类器的准确性。在给定的一组候选学习参数中,可以通过交叉验证来实现准确性,但是我觉得这破坏了交叉验证的目的。也就是说,就学习参数本身而言,可能会导致数据过度拟合的方式选择,我觉得更合适的方法是在搜索本身的级别上应用交叉验证:执行搜索在训练数据集上进行评估,然后通过在单独的测试数据集中进行评估来评估由最终选择的学习参数得出的SVM的最终准确性。还是我在这里想念什么?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.