Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

2
预测神经网络的置信度
假设我想训练一个深度神经网络来执行分类或回归,但是我想知道预测的信心。我怎样才能做到这一点? 我的想法是根据每个训练数据在上述神经仪中的预测性能来计算交叉熵。然后,我将训练第二​​个神经网络进行回归,该神经网络将每个数据作为输入,并将交叉熵作为输出(一个输出节点)。然后,您将在实践中使用这两个网络-一个用于预测标签/值,另一个用于预测第一个网络的置信度。(...但是我是否需要第三个网络来预测第二个网络的置信度,依此类推...?!) 这是一个有效的主意吗?此外,这是常用的标准观念吗?如果没有,您会提出什么建议?

1
ReLU神经元的输入归一化
根据LeCun等(1998)的“ Efficient Backprop”,优良作法是对所有输入进行归一化,使它们以0为中心并在最大二阶导数范围内。因此,例如,对于“ Tanh”功能,我们将使用[-0.5,0.5]。随着黑森州变得更稳定,这将有助于反向传播进程。 但是,我不确定如何处理max(0,x)的整流神经元。(从那时起,还使用逻辑函数,我们想要类似[0.1,0.9]的东西,但是它并不以0为中心)

2
在实践中应用深度学习的瓶颈
在阅读了很多深度学习论文之后,一种粗略的感觉是,在训练网络以获得比正常情况更好的性能方面存在很多技巧。从行业应用的角度来看,很难开发这种技巧,除了那些大型科技公司中的精英研究小组,例如google或facebook。那么在实践中应用深度学习算法的最佳方法是什么。任何想法和建议将不胜感激。

1
轮廓函数有趣特征是否通过回归获得?
我假设使用回归的一般设置,即从族\ {h_ \ theta \} _ \ theta中选择一个连续函数h_ \ theta:X \至\ mathbb R ^ n以适合给定数据(x_i,y_i)根据某些自然标准,X乘以X乘以R ^ n,i = 1,\ ldots,k(X可以是任何空间,例如立方体[0,1] ^ m或实际上是任何合理的拓扑空间)。hθ:X→Rnhθ:X→Rnh_\theta:X\to \mathbb R^n{hθ}θ{hθ}θ\{h_\theta\}_\theta(xi,yi)∈X×Rn,i=1,…,k(xi,yi)∈X×Rn,i=1,…,k(x_i,y_i)\in X\times \mathbb R^n, i=1,\ldots, kXXX[0,1]m[0,1]m[0,1]^m 是否有其中一个有兴趣的轮廓回归的应用h−1(y)h−1(y)h^{-1}(y)的hhh对于某些点y∈Rny∈Rny\in \mathbb R^n -例如零集合h−1(0)h−1(0)h^{-1}(0)? 我感兴趣的解释如下:由于在许多情况下,所学习的h_ \ theta都有不确定性hθhθh_\theta(数据的不精确或缺乏),因此人们可能想分析零集h−1(0)h−1(0)h^{-1}(0) “坚固”。即,研究h的所有“扰动”所共有的零集特征hhh。一个很好的了解已经非常一般设置在扰动最近开发fff可以任意连续映射接近hhh在ℓ∞ℓ∞\ell_\infty规范。或者,基本上等价地,fff是任意连续的,这样对于X中的每个x \,x∈Xx∈Xx\in X我们都有|f(x)−h(x)|≤c(x)|f(x)−h(x)|≤c(x)|f(x)-h(x)|\le c(x)其中c:X→Rc:X→Rc:X\to\mathbb R在每个x处给出一些置信度值xxx。 我们发展该理论和算法的主要动机是令人兴奋的数学背后(基本上所有问题/问题都归结为同伦理论)。但是,在当前阶段,为了进一步开发和实现算法,我们需要选择更具体的设置和目标。


1
无法使此自动编码器网络正常运行(具有卷积层和maxpool层)
自动编码器网络似乎比普通分类器MLP网络更复杂。在使用Lasagne进行了几次尝试之后,我在重构输出中得到的所有内容在最好的情况下类似于MNIST数据库的所有图像的模糊平均,而没有区分输入位数是多少。 我选择的网络结构为以下层叠层: 输入层(28x28) 2D卷积层,滤镜尺寸7x7 最大汇聚层,大小3x3,步幅2x2 密集(完全连接)的展平层,10个单位(这是瓶颈) 密集(完全连接)层,共121个单元 将图层重塑为11x11 2D卷积层,滤镜大小3x3 2D放大层系数2 2D卷积层,滤镜大小3x3 2D放大层系数2 2D卷积层,滤镜尺寸5x5 功能最大池化(从31x28x28到28x28) 所有的2D卷积层都具有无偏差的偏置,S型激活和31个滤波器。 所有完全连接的层均具有S型激活。 使用的损失函数为平方误差,更新函数为adagrad。用于学习的块的长度是100个样本,乘以1000个纪元。 下面是该问题的说明:上面的行是设置为网络输入的一些样本,下面的行是重构: 为了完整起见,以下是我使用的代码: import theano.tensor as T import theano import sys sys.path.insert(0,'./Lasagne') # local checkout of Lasagne import lasagne from theano import pp from theano import function import gzip import numpy as np from …

2
使用SVM时,为什么需要缩放功能?
根据scikit-learn中StandardScaler对象的文档: 例如,学习算法的目标函数中使用的许多元素(例如支持向量机的RBF内核或线性模型的L1和L2正则化器)都假定所有特征都围绕0居中并且具有相同顺序的方差。如果某个特征的方差比其他特征大几个数量级,则它可能会支配目标函数,并使估计器无法按预期从其他特征中正确学习。 分类前应先缩放特征。有什么简单的方法可以说明为什么我应该这样做?引用科学文章会更好。我已经找到了,但可能还有很多。

1
协调增强的回归树(BRT),广义增强的模型(GBM)和梯度增强的机器(GBM)
问题: 增强回归树(BRT)和广义增强模型(GBM)有什么区别?它们可以互换使用吗?一种是另一种的特定形式吗? 为什么里奇韦(Ridgeway)为什么使用短语“广义增强回归模型”(GBM)来描述弗里德曼以前提出的“梯度增强机”(GBM)?这两个首字母缩略词是相同的,描述相同的事物,但是源自不同的短语。 背景: 我无法确定术语BRT和GBM有何不同。据我所知,这两个术语都是用来描述分类树和回归树的,这些树通过某种增强(例如装袋,自举,交叉验证)而具有随机性。另外,据我所知,GBM是由Friedman(2001)在他的论文“ Greedy函数逼近:梯度提升机”中首次提出的。然后,Ridgeway实施了Friedman在2006年的软件包“广义增强回归模型”(GBM)中描述的过程。在我的领域(生态学)中,Elith等人。(2008)是第一个证明Ridgeway gbm进行物种分布建模的软件包。但是,Elith等的作者。使用术语“增强的回归树”(BRT)来描述Friedman和Ridgeway' 我对这些术语是否可以互换使用感到困惑?令人困惑的是,一个作者使用相同的首字母缩写词(来自不同的短语)来描述先前作者提出的相同理论。同样令人困惑的是,第三作者在用生态学术语描述这一理论时使用了一个完全不同的术语。 我能想到的最好的是BRT是GBM的一种特定形式,其中的分布是二项式的,但是我不确定。 Elith等。像这样定义增强的回归树…“增强的回归树结合了两种算法的优势:回归树(通过递归二进制分裂将响应与其预测变量联系起来的模型)和增强(将多种简单模型组合在一起以提供改进的预测性能的自适应方法)最终的BRT模型可以理解为加性回归模型,其中单个术语是简单的树,以向前,逐步的方式拟合”(Elith等,2008)。

2
袋外误差估计是否可以增强?
在随机森林中,每棵树都是在数据的唯一Boostrap样本上并行生长的。由于预计每个Bo​​ostrap样本将包含约63%的独特观测值,因此将约37%的观测值排除在外,可用于测试树。 现在,似乎在随机梯度增强中,还有一个类似于RF中的估计:OOBerrorOOBerrorOOB_{error} 如果bag.fraction设置为大于0(建议为0.5),则gbm将计算出袋装的预测性能改善估计值。它评估在选择下一个回归树时未使用的那些观察结果的偏差减少。 资料来源:Ridgeway(2007),第3.3节(第8页)。 我无法理解其工作方式/是否有效。说我要按顺序添加一棵树。我正在原始数据集的随机子样本上生长这棵树。我可以在不用于生长的观察结果上测试这棵树。同意 但是,由于Boosting是顺序的,所以我宁愿使用到目前为止构建的整个树序列来为那些遗漏的观察提供预测。而且,前面的许多树木很有可能已经看到了这些观察结果。因此,不是真的像RF一样在每个回合上都未对模型进行过测试,对吗? 那么,这怎么称为“袋外”误差估计呢?对我来说,似乎已经被发现了吗?

1
如何使用准则找到和评估连续变量的最佳离散化?
我有一个包含连续变量和二进制目标变量(0和1)的数据集。 我需要相对于目标变量离散化连续变量(用于逻辑回归),并约束每个间隔的观察频率应该保持平衡。我尝试了机器学习算法,例如Chi Merge,决策树。Chi merge给我的间隔在每个间隔中具有非常不平衡的数字(一个间隔有3个观测值,另一个间隔有1000个观测值)。决策树很难解释。 我得出的结论是,最佳离散化应最大化离散化变量和目标变量之间的统计量,并且其间隔应包含大致相同数量的观察值。χ2χ2\chi^2 有解决这个问题的算法吗? 这在R中看起来是这样(def是目标变量,x是要离散化的变量)。我计算了Tschuprow的来评估转换后的变量与目标变量之间的“相关性”,因为统计量倾向于随着间隔数的增加而增加。我不确定这是否是正确的方法。χ 2ŤTTχ2χ2\chi^2 除了Tschuprow的(当班级数量减少时会增加)之外,还有其他方法可以评估我的离散化是否最佳吗?ŤTT chitest <- function(x){ interv <- cut(x, c(0, 1.6,1.9, 2.3, 2.9, max(x)), include.lowest = TRUE) X2 <- chisq.test(df.train$def,as.numeric(interv))$statistic #Tschuprow Tschup <- sqrt((X2)/(nrow(df.train)*sqrt((6-1)*(2-1)))) print(list(Chi2=X2,freq=table(interv),def=sum.def,Tschuprow=Tschup)) }

2
CART树是否捕获预测变量之间的交互?
此纸的权利要求,在CART,因为在每一步骤的单个协变量执行二进制分裂,所有分割是协变量之间正交,并因此相互作用不考虑。 但是,相反,许多非常严肃的参考文献声称,树的层次结构可以保证自动对预测变量之间的交互进行建模(例如,本文,当然还有Hastie)。 谁是对的?CART生长的树是否捕获输入变量之间的相互作用?



2
如何证明流形假设是正确的?
在机器学习中,通常假设数据集位于光滑的低维流形上(流形假设),但是有任何方法可以证明假设满足某些条件,则确实(近似)生成了数据集来自低维平滑流形? 例如,给定一个数据序列 {X1个…Xñ}{X1…Xn}\{\mathbf{X}_1 \ldots \mathbf{X}_n\} 哪里 X一世∈[RdXi∈Rd\mathbf X_i \in \mathbb{R}^d (例如具有不同角度的面部图像序列)和相应的标签序列 {ÿ1个…ÿñ}{y1…yn}\{ y_1 \ldots y_n\} 哪里 ÿ1个⪯ÿ2…… ⪯ÿñy1⪯y2…⪯yny_1 \preceq y_2 \ldots \preceq y_n (说出面部序列的角度)。假设何时X一世XiX_i 和 X我+ 1Xi+1X_{i+1} 非常接近,他们的标签 yiyiy_i 和 yi+1yi+1y_{i+1} 距离也很近,我们可以想象,很可能 {X1…Xn}{X1…Xn}\{\mathbf{X}_1 \ldots \mathbf{X}_n\}躺在低维流形上。这是真的?如果是这样,我们怎么证明呢?或者该序列需要满足什么条件才能证明流形假设是正确的?

2
聚类嘈杂的数据或与离群值
我有两个这样的变量的嘈杂数据。 x1 <- rep(seq(0,1, 0.1), each = 3000) set.seed(123) y1 <- rep (c(0.2, 0.8, 0.3, 0.9, 0.65, 0.35,0.7,0.1,0.25, 0.3, 0.95), each = 3000) set.seed(1234) e1 = rnorm(length(x1), 0.07,0.07) set.seed(1223) e2 = rnorm(length(x1), 0.07,0.07) set.seed(1334) yn <- rnorm(20000, 0.5,0.9) set.seed(2344) xn <- rnorm(20000, 0.5,0.9) y <- c(y1 + e1,yn) x <- …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.