Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

3
测试线性可分离性
有没有一种方法可以测试高维两类数据集的线性可分离性?我的特征向量长40。 我知道我总是可以进行逻辑回归实验,并确定命中率与误报率,以得出两类是否线性可分离的结论,但是最好知道是否已经存在标准方法来做到这一点。

1
libsvm“达到最大迭代次数”警告和交叉验证
我在C-SVC模式下使用2级多项式内核的libsvm,并且需要训练多个SVM。每个训练集都有10个特征和5000个向量。在训练过程中,我收到有关我训练的大多数SVM的警告: WARNING: reaching max number of iterations optimization finished, #iter = 10000000 有人可以解释这个警告的含义,以及如何避免它吗? 我还想对我的模型进行交叉验证,以便确定γ和C(正则化)的最佳选择。我的计划是仅尝试这10个值的每种组合:两个参数都为0.00001、0.0001、0.001、0.01、0.1、1、10、100、1000、10000,然后看看哪种组合在交叉验证期间产生最佳精度。这够了吗?我应该在此间隔中使用更多的值,还是应该选择更大的间隔?

1
为什么随机林木不需要修剪?
布雷曼说,树木生长时没有修剪。为什么?我的意思是说,肯定有理由不修剪随机森林中的树木。另一方面,修剪单个决策树以避免过度拟合被认为非常重要。为此,是否有一些文献可供阅读?当然,树可能没有关联,但是仍然有可能过度拟合。

2
AdaBoost是更少还是更容易过度拟合?
我已经阅读了各种(看似)矛盾的陈述,与其他学习方法相比,AdaBoost(或其他增强技术)是否更趋于过度拟合。 有充分的理由相信彼此吗?如果依赖,它依赖什么?AdaBoost减少/更多倾向于过度拟合的原因是什么?

3
将“内核技巧”应用于线性方法?
该核技巧在几个机器学习模型(如使用SVM)。它于1964年在“模式识别学习中势函数方法的理论基础”一书中首次引入。 维基百科的定义是 一种使用线性分类器算法通过将原始非线性观测值映射到高维空间来解决非线性问题的方法,随后使用线性分类器;这使得新空间中的线性分类等同于原始空间中的非线性分类。 已扩展到非线性问题的线性模型的一个示例是内核PCA。内核技巧可以应用于任何线性模型,还是有一定的限制?


5
为什么要素工程有效?
最近,我了解到,为机器学习问题找到更好解决方案的方法之一是创建功能。例如,可以通过汇总两个功能来做到这一点。 例如,我们拥有某种英雄的“攻击”和“防御”两个特征。然后,我们创建一个称为“总计”的附加功能,这是“攻击”和“防御”的总和。现在让我感到奇怪的是,即使是强硬的“攻击”和“防御”也几乎与“总数”紧密相关,我们仍然可以获得有用的信息。 这背后的数学是什么?还是我推理错了? 另外,对于像kNN这样的分类器来说,“总数”总是大于“攻击”或“防御”,这不是问题吗?因此,即使经过标准化处理,我们仍将具有包含不同范围值的特征?


2
了解偏差方差折衷推导
我正在阅读《统计学习的要素》一书中的偏方差权衡一章,并对第29页的公式感到怀疑。让数据来自模型,使得Y=f(x)+ϵY=f(x)+ϵ Y = f(x)+\epsilon,其中ϵϵ\epsilon是具有期望值ε = ë [ ε ] = 0和方差。让该模型的误差的期望值是 其中是预测ϵ^=E[ϵ]=0ϵ^=E[ϵ]=0\hat{\epsilon} = E[\epsilon]=0E[(ϵ−ϵ^)2]=E[ϵ2]=σ2E[(ϵ−ϵ^)2]=E[ϵ2]=σ2E[(\epsilon - \hat\epsilon)^2]=E[\epsilon^2]=\sigma^2E[(Y−fk(x))2]E[(Y−fk(x))2] E[(Y-f_k(x))^2] fk(x)fk(x)f_k(x)xxx我们的学习者。根据这本书,误差为 E[(Y−fk(x))2]=σ2+Bias(fk)2+Var(fk(x)).E[(Y−fk(x))2]=σ2+Bias(fk)2+Var(fk(x)). E[(Y-f_k(x))^2]=\sigma^2+Bias(f_k)^2+Var(f_k(x)). 我的问题是为什么偏项不是0?开发错误的公式,我看到 E[(Y−fk(x))2]=E[(f(x)+ϵ−fk(x))2]=E[(f(x)−fk(x))2]+2E[(f(x)−fk(x))ϵ]+E[ϵ2]=Var(fk(x))+2E[(f(x)−fk(x))ϵ]+σ2E[(Y−fk(x))2]=E[(f(x)+ϵ−fk(x))2]=E[(f(x)−fk(x))2]+2E[(f(x)−fk(x))ϵ]+E[ϵ2]=Var(fk(x))+2E[(f(x)−fk(x))ϵ]+σ2 E[(Y-f_k(x))^2]=\\ E[(f(x)+\epsilon-f_k(x))^2]=\\ E[(f(x)-f_k(x))^2]+2E[(f(x)-f_k(x))\epsilon]+E[\epsilon^2]=\\ Var(f_k(x))+2E[(f(x)-f_k(x))\epsilon]+\sigma^2 因为是一个独立的随机数ϵϵ\epsilon2E[(f(x)−fk(x))ϵ]=2E[(f(x)−fk(x))]E[ϵ]=02E[(f(x)−fk(x))ϵ]=2E[(f(x)−fk(x))]E[ϵ]=02E[(f(x)-f_k(x))\epsilon]=2E[(f(x)-f_k(x))]E[\epsilon]=0 我哪里错了?

2
插入符号训练对glmnet是否对alpha和lambda交叉验证?
R caret包是否同时针对模型alpha和模型lambda进行交叉验证glmnet?运行此代码, eGrid <- expand.grid(.alpha = (1:10) * 0.1, .lambda = (1:10) * 0.1) Control <- trainControl(method = "repeatedcv",repeats = 3,verboseIter =TRUE) netFit <- train(x =train_features, y = y_train, method = "glmnet", tuneGrid = eGrid, trControl = Control) 培训日志如下所示。 Fold10.Rep3: alpha=1.0, lambda=NA 什么lambda=NA意思


5
深度学习:我如何知道哪些变量很重要?
在神经网络术语方面(y =权重* x +偏差),我如何知道哪些变量比其他变量更重要? 我有一个具有10个输入的神经网络,1个具有20个节点的隐藏层和1个具有1个节点的输出层。我不确定如何知道哪些输入变量比其他变量更有影响力。我在想的是,如果输入很重要,那么它将与第一层具有高度加权的连接,但是权重可能为正也可能为负。因此,我可能要做的是取输入权重的绝对值并将其求和。更重要的输入将具有更高的总和。 因此,例如,如果头发长度是输入之一,则它应该与下一层中的每个节点具有1个连接,因此有20个连接(因此有20个权重)。我可以仅取每个权重的绝对值并将它们相加吗?


3
为什么RNN / LSTM网络的权重会随时间共享?
我最近对LSTM产生了兴趣,当得知权重在时间上共享时,我感到很惊讶。 我知道,如果您跨时间共享权重,那么您的输入时间序列可以是可变长度。 使用共享权重,您需要训练的参数要少得多。 根据我的理解,之所以转向LSTM而不是其他学习方法,是因为您认为想要学习的数据中存在某种时间/顺序结构/依赖性。如果您牺牲了可变长度的“奢侈”,并接受了较长的计算时间,那么没有共享权重的RNN / LSTM会不会表现得更好(或者在每个时间步中您都有不同的权重),或者我缺少什么?

1
远距离监督:监督,半监督或两者兼而有之?
“远距离监督”是一种学习方案,其中在给定标记较弱的训练集的情况下学习分类器(训练数据基于启发式/规则自动标记)。我认为监督学习和半监督学习都可以通过“启发式/自动标记”来标记这种“远程监督”。但是,在此页面中,“远程监督”被定义为“半监督学习”(即,仅限于“半监督”)。 所以我的问题是,“远程监管”是否专门指半监管?我认为它可以应用于监督学习和半监督学习。请提供任何可靠的参考。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.