Questions tagged «kernel-trick»

机器学习中使用内核方法将线性技术推广到非线性情况,尤其是SVM,PCA和GP。不要与[内核平滑]混淆,以进行内核密度估计(KDE)和内核回归。

4
如何直观地解释什么是内核?
许多机器学习分类器(例如支持向量机)允许指定一个内核。解释内核是什么的直观方式是什么? 我一直在思考的一个方面是线性和非线性内核之间的区别。简单来说,我可以说“线性决策函数”是“非线性决策函数”。但是,我不确定将内核称为“决策函数”是否是一个好主意。 有什么建议吗?


3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 


4
是什么使Gaussian内核对PCA如此神奇?
我在读有关内核PCA(1,2,3)用高斯和多项式内核。 高斯核如何很好地分离似乎任何种类的非线性数据?请给出直观的分析,并在可能的情况下进行数学分析。 其他内核所没有的高斯内核(具有理想的)的特性是什么?我想到了神经网络,SVM和RBF网络。σσ\sigma 为什么我们不通过Cauchy PDF规范并期望得到相同的结果?



3
如何证明径向基函数是一个内核?
如何证明径向基函数是一个内核?据我了解,为了证明这一点,我们必须证明以下任何一项:k(x,y)=exp(−||x−y||2)2σ2)k(x,y)=exp⁡(−||x−y||2)2σ2)k(x, y) = \exp(-\frac{||x-y||^2)}{2\sigma^2}) 对于任何一组向量矩阵 =是正半定的。x1,x2,...,xnx1,x2,...,xnx_1, x_2, ..., x_nK(x1,x2,...,xn)K(x1,x2,...,xn)K(x_1, x_2, ..., x_n)(k(xi,xj))n×n(k(xi,xj))n×n(k(x_i, x_j))_{n \times n} 可以表示映射例如 =。ΦΦ\Phik(x,y)k(x,y)k(x, y)⟨Φ(x),Φ(y)⟩⟨Φ(x),Φ(y)⟩\langle\Phi(x), \Phi(y)\rangle 有什么帮助吗?
35 svm  kernel-trick 

3
是否存在(深度)神经网络明显无法胜过其他任何方法的监督学习问题?
我已经看到人们对SVM和内核进行了很多努力,并且它们作为机器学习的入门者看起来非常有趣。但是,如果我们期望几乎总能找到(深度)神经网络方面的出色解决方案,那么在这个时代尝试其他方法的意义是什么? 这是我对此主题的限制。 我们只考虑监督学习;回归和分类。 结果的可读性不计算在内;只有在监督学习问题上的准确性才重要。 不考虑计算成本。 我并不是说其他​​任何方法都没有用。

2
确定SVM最佳C和伽玛参数的搜索范围是什么?
我正在使用SVM进行分类,并且正在尝试确定线性和RBF内核的最佳参数。对于线性内核,我使用交叉验证的参数选择来确定C,对于RBF内核,我使用网格搜索来确定C和伽马。 我有20个(数字)功能和70个训练示例,应该将其分为7类。 我应该使用哪个搜索范围来确定C和gamma参数的最佳值?

3
SVM和感知器之间的区别
我对SVM和感知器之间的区别感到困惑。让我尝试在这里总结一下我的理解,请随时纠正我的错误之处,并填写我错过的内容。 感知器不会尝试优化分离“距离”。只要找到一个将这两个集合分开的超平面,那就很好了。另一方面,SVM试图最大化“支持向量”,即两个最接近的相对采样点之间的距离。 SVM通常尝试使用“内核函数”将采样点投影到高维空间,以使它们线性可分离,而感知器假定采样点是线性可分离的。

4
SVM中内核的区别?
有人可以告诉我SVM中内核之间的区别: 线性的 多项式 高斯(RBF) 乙状结肠 因为众所周知,内核用于将输入空间映射到高维特征空间。在该特征空间中,我们找到了线性可分界线。 什么时候使用它们(在什么条件下),为什么?

3
高斯核的特征图
K(x,y)=exp(−∥x−y∥222σ2)=ϕ(x)Tϕ(y)K(x,y)=exp⁡(−‖x−y‖222σ2)=ϕ(x)Tϕ(y)K(x,y)=\exp\left({-\frac{\|x-y\|_2^2}{2\sigma^2}}\right)=\phi(x)^T\phi(y)x,y∈Rnx,y∈Rnx, y\in \mathbb{R^n}ϕϕ\phi 我还想知道是否 其中中的。现在,我认为这并不相等,因为使用内核可以处理线性分类器无法工作的情况。我知道将x到一个无限的空间。因此,即使它仍然保持线性,无论它有多少个维度,svm仍然无法进行良好的分类。∑iciϕ(xi)=ϕ(∑icixi)∑iciϕ(xi)=ϕ(∑icixi)\sum_ic_i\phi(x_i)=\phi \left(\sum_ic_ix_i \right)ci∈Rci∈Rc_i\in \mathbb Rϕϕ\phi

3
内核化SVM是否有可能实现Gradient Descent(如果有的话,人们为什么要使用二次编程)?
人们在处理带内核的SVM时为什么使用二次编程技术(例如SMO)?梯度下降有什么问题?不能与内核一起使用还是速度太慢(为什么?)。 这里有一些上下文:为了更好地理解SVM,我使用了Gradient Descent通过以下成本函数来训练线性SVM分类器: Ĵ(w,b )= C∑我= 1米中号一个X ( 0 ,1 - ÿ(我)(wŤ⋅ X(我)+ b ))+1个2wŤ⋅ w ^J(w,b)=C∑i=1mmax(0,1−y(i)(wt⋅x(i)+b))+12wt⋅wJ(\mathbf{w}, b) = C {\displaystyle \sum\limits_{i=1}^{m} max\left(0, 1 - y^{(i)} (\mathbf{w}^t \cdot \mathbf{x}^{(i)} + b)\right)} \quad + \quad \dfrac{1}{2} \mathbf{w}^t \cdot \mathbf{w} 我正在使用以下符号: ww\mathbf{w}是模型的特征权重,是其偏差参数。bbb X(我)x(i)\mathbf{x}^{(i)}是第训练实例的特征向量。一世日ithi^\text{th} ÿ(我)y(i)y^{(i)}是实例的目标类(-1或1)。一世日ithi^\text{th} 米mm是训练实例的数量。 CCC是正则化超参数。 我从该方程式导出了一个(子)梯度向量(关于和),而Gradient Descent效果很好。ww\mathbf{w}bbb 现在,我想解决非线性问题。我可以在成本函数中用替换所有点积,其中是内核函数(例如高斯RBF,),然后使用演算来导出(子)梯度向量并继续进行Gradescent Descent?üŤ⋅ vüŤ⋅v\mathbf{u}^t \cdot …

1
什么功能可能是内核?
在机器学习和模式识别的上下文中,有一个称为Kernel Trick的概念。在要求我确定一个函数是否可以是内核函数的问题面前,应该怎么做?我是否应该首先检查它们是否为多项式,RBF和高斯等三或四个内核函数的形式?那我该怎么办?我应该证明它是肯定的吗?有人可以解决一个示例,以显示针对此类问题的分步解决方案吗?例如像,是内核函数f(x)=extx′f(x)=extx′f(x)=e^{x^tx'}(假设我们不知道它是一个高斯内核)?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.