Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

2
一类SVM与示例SVM
我知道,一类支持向量机(OSVM)是在考虑否定数据的情况下提出的,它们试图找到将正集与某个负锚点(例如起源)分开的决策边界。 2011年的工作提出了示例性SVM(ESVM),该模型训练了一个声称与OSVM有所不同的“单个每个类别分类器”,因为ESVM不需要“将示例映射到可以使用相似性内核的公共特征空间中”计算”。我不太了解这意味着什么以及ESVM与OSVM有何不同。因此,它们有何不同?在ESVM中如何避免这种相似性内核计算?

2
高度不平衡数据集的培训方法
我有一个高度不平衡的测试数据集。正集包含100个案例,而负集包含1500个案例。在训练方面,我有一个更大的候选库:正面训练集有1200个案例,负面训练集有12000个案例。对于这种情况,我有几种选择: 1)在整个训练集中使用加权SVM(P:1200,N:12000) 2)使用基于采样训练集(P:1200,N:1200)的SVM,从12000个案例中抽取1200个否定案例。 在确定哪种方法更好方面是否有任何理论指导?由于测试数据集高度不平衡,我是否也应该使用不平衡训练集?

3
k折叠交叉验证的网格搜索
我有一个10倍交叉验证设置的120个样本的数据集。目前,我选择第一个保持的训练数据,并对其进行5倍交叉验证,以通过网格搜索选择gamma和C的值。我正在将SVM与RBF内核一起使用。由于我正在做十个10交叉验证以报告精度,请问,我是否在每个保留的训练数据中执行此网格搜索(有10个保留,每个包含10%的测试和90%的训练数据)?那不是很费时间吗? 如果我使用第一个保留项的gamma和C并将其用于k折交叉验证的9个保留项的其余部分,那是违反规定,因为我本来会使用火车数据获取gamma和C并再次使用火车数据的一部分作为第二次验证中的测试?

2
GBM分类是否遭受班级规模不平衡的困扰?
我正在处理有监督的二进制分类问题。我想使用GBM软件包将个人分类为未感染/已感染。我的未感染人数是感染者的15倍。 我想知道GBM模型在班级规模不均衡的情况下是否会受到影响?我没有找到回答该问题的参考文献。 我尝试通过为未感染的个体分配1的权重并为感染的个体分配15的权重来调整权重,但是结果却很差。


6
最快的SVM实施
更多的是一个一般性的问题。我正在运行rbf SVM进行预测建模。我认为我当前的程序肯定需要加快速度。我使用scikit learning进行粗略到精细的网格搜索+交叉验证。 每次SVM运行大约需要一分钟,但是在所有迭代中,我仍然发现它太慢了。假设我最终在多个内核上对交叉验证部分进行了多线程处理,那么关于提高程序速度的建议是什么?是否有更快的SVM实现?我听说过一些GPU SVM,但并没有对其进行深入研究。任何用户,速度更快吗?

1
推导概率密度函数变量的变化?
在书本模式识别和机器学习(公式1.27)中, pÿ(y)= pX(x )∣∣∣dXdÿ∣∣∣= pX(克(y))| G′(y)|pÿ(ÿ)=pX(X)|dXdÿ|=pX(G(ÿ))|G′(ÿ)|p_y(y)=p_x(x) \left | \frac{d x}{d y} \right |=p_x(g(y)) | g'(y) | 其中x=g(y)x=g(y)x=g(y),px(x)px(x)p_x(x),是pdf对应于py(y)py(y)p_y(y)相对于所述变量的变化。 这些书说,这是因为在观察范围内的下降(x,x+δx)(x,x+δx)(x, x + \delta x)会,为小值δxδx\delta x,转化为范围(y,y+δy)(y,y+δy)(y, y + \delta y)。 这是如何正式得出的? 来自Dilip Sarwate的更新 仅当GGg是严格单调递增或递减函数时,结果才成立。 一些小修改以LV Rao的答案 因此,如果gP(是≤ ÿ)= P(克(X)≤ ÿ)= { P(X≤ 克− 1(y)),P(X≥ 克− 1(y)),如果g 单调增加如果g 单调递减P(ÿ≤ÿ)=P(G(X)≤ÿ)={P(X≤G-1(ÿ)),如果 G 单调增加P(X≥G-1(ÿ)),如果 G 单调递减 \begin{equation} …

1
在统计学习理论中,是否存在过度拟合测试集的问题?
让我们考虑有关对MNIST数据集进行分类的问题。 根据Yann LeCun的MNIST网页,“ Ciresan等” 使用卷积神经网络在MNIST测试集上获得了0.23%的错误率。 让我们将MNIST训练集表示为,将MNIST测试集表示为,将他们使用获得的最终假设设为,并将它们在MNIST测试集上的错误率设为作为。DtrainDtrainD_{train}DtestDtestD_{test}DtrainDtrainD_{train}h1h1h_{1}h1h1h_{1}Etest(h1)=0.0023Etest(h1)=0.0023E_{test}(h_{1}) = 0.0023 在他们看来,由于是从输入空间中随机采样的测试集,而与无关,因此他们可以坚持认为,最终假设的样本外误差性能为由Hoeffding不等式界定 ,其中。DtestDtestD_{test}h1h1h_{1}Eout(h1)Eout(h1)E_{out}(h_{1})P[|Eout(h1)−Etest(h1)|&lt;ϵ|]≥1−2e2ϵ2NtestP[|Eout(h1)−Etest(h1)|&lt;ϵ|]≥1−2e2ϵ2NtesŤ P[|E_{out}(h_{1}) - E_{test}(h_{1})| < \epsilon|] \geq 1 - 2e^{2\epsilon^{2}N_{test}} ñ牛逼Ë 小号ŧ= | d牛逼Ë 小号ŧ|ñŤËsŤ=|dŤËsŤ|N_{test}=|D_{test}| 换句话说,至少为, Ë Ö ù 吨(ħ 1)≤ Ë 吨ë 小号吨(ħ 1)+ √1 - δ1-δ1-\deltaËØ ü Ť(小时1)≤ Ë牛逼Ë 小号ŧ(小时1)+ 12 N牛逼Ë 小号ŧ升Ñ 2δ---------√ËØüŤ(H1)≤ËŤËsŤ(H1)+12ñŤËsŤ升ñ2δE_{out}(h_1) \leq E_{test}(h_1) + \sqrt{{1 \over …

3
在线学习和批处理学习有什么区别?
我目前正在阅读John Duchi和Yoram Singer撰写的论文《使用正反拆分进行有效的在线和批处理学习》。我对术语“在线”和“批处理”的使用感到非常困惑。 我认为“在线”是指我们在处理了一个单位的训练数据后更新了体重参数。然后,我们使用新的权重参数来处理训练数据的下一个单位。 但是,在上面的文章中,用法尚不清楚。


1
lmer模型使用哪种多重比较方法:lsmeans或glht?
我正在使用具有一个固定效果(条件)和两个随机效果(由于主题设计和配对而导致的参与者)的混合效果模型分析数据集。该模型是使用lme4包生成的exp.model&lt;-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。 接下来,我针对没有固定效果(条件)的模型对该模型进行了似然比检验,结果有显着差异。我的数据集中有3个条件,因此我想进行多重比较,但不确定使用哪种方法。我在CrossValidated和其他论坛上发现了许多类似的问题,但我仍然很困惑。 据我所见,人们建议使用 1.该lsmeans包- lsmeans(exp.model,pairwise~condition)这给了我下面的输出: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …


1
分类器vs模型vs估计量
分类器,模型和估计器有什么区别? 据我所知: 估计量是通过回归算法找到的预测量 分类器是从分类算法中找到的预测变量 模型既可以是估计器,也可以是分类器 但是从网上看,似乎我可能混淆了这些定义。那么,在机器学习的上下文中真正的定义是什么?

1
两个决策树的总和是否等于单个决策树?
假设我们有两个回归树(树A和B树),该地图输入为输出。对于树A,让对于树B,让。每棵树都使用二进制拆分,并以超平面作为分离函数。X ∈ řdX∈[Rdx \in \mathbb{R}^d Ŷ =˚F甲(X)˚F乙(X)ÿ^∈ [Rÿ^∈[R\hat{y} \in \mathbb{R}ÿ^= f一种(x )ÿ^=F一种(X)\hat{y} = f_A(x)F乙(x )F乙(X)f_B(x) 现在,假设我们对树的输出进行加权求和: FC(x )= w一种 F一种(x )+ w乙 F乙(x )FC(X)=w一种 F一种(X)+w乙 F乙(X)f_C(x) = w_A \ f_A(x) + w_B \ f_B(x) 函数等效于单个(更深的)回归树?FCFCf_C如果答案是“有时”,那么在什么条件下? 理想情况下,我想允许倾斜的超平面(即对特征的线性组合执行的分割)。但是,如果这是唯一的答案,那么假设单功能拆分可能是可以的。 例 这是在2d输入空间上定义的两个回归树: 该图显示了每棵树如何划分输入空间以及每个区域的输出(以灰度编码)。彩色数字表示输入空间的区域:3、4、5、6对应于叶节点。1是3和4的并集,依此类推。 现在假设我们对树A和树B的输出求平均: 平均输出在左侧绘制,树A和B的决策边界重叠。在这种情况下,可以构造一棵更深的树,其输出等于平均值​​(在右侧绘制)。每个节点对应于输入空间的一个区域,该区域可以在树A和B定义的区域之外构建(由每个节点上的彩色数字表示;多个数字表示两个区域的交集)。请注意,这棵树不是唯一的-我们可能已经从树B而不是树A开始构建。 此示例表明,在某些情况下答案为“是”。我想知道这是否总是对的。

3
我可以使用一个很小的验证集吗?
我了解将数据分为测试集和验证集的原因。我也了解,拆分的大小取决于情况,但通常会在50/50到90/10之间变化。 我建立了一个RNN以纠正拼写,并从大约500万个句子的数据集开始。我削减了50万个句子,然后训练剩下的〜450万个句子。训练完成后,我将使用我的验证集并计算准确性。 有趣的是,仅在我的验证集的4%之后,我的准确度为69.4%,并且该百分比在任一方向上的变化不超过0.1%。最终我只是缩短了验证时间,因为这个数字停留在69.5%。 那么,当我大概可以摆脱1%的费用时,为什么要砍掉10%的费用进行验证?有关系吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.