Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

1
有哪些好的方法选择框架?
我一直在研究方法选择的理论框架(注意:不是模型选择),却发现很少有系统的,基于数学的动机。“方法选择”是指一个框架,用于针对问题或问题类型区分适当的(或更好的,最优的)方法。 我发现,即使是零星的,也可以在特定方法及其调整(即贝叶斯方法中的优先选择)以及通过偏差选择(例如归纳策略:偏向选择的语用学)的方法选择上进行大量工作。在机器学习发展的这个早期阶段,我可能是不切实际的,但是我希望找到类似测量理论在按比例类型规定可允许的转换和测试的过程中所做的事情,只是在学习问题领域发挥了重要作用。 有什么建议么?

4
Facebook的先知与线性回归有什么不同吗?
因此,我对Facebook先知的了解是,它基本上将时间序列分解为趋势和季节性。例如,加性模型应写为: ÿ(t )= g(t )+ s (t )+ h (t )+ eŤÿ(Ť)=G(Ť)+s(Ť)+H(Ť)+ËŤ y(t) = g(t) + s(t) + h(t) + e_t 与 ŤŤt时间 G(吨)G(Ť)g(t)趋势(可以是线性或逻辑) s (吨)s(Ť)s(t)季节性(每天,每周,每年...) ħ (吨)H(Ť)h(t)假期 ËŤËŤe_t错误 我的问题是:不能通过简单的线性回归来完成吗?如果我们比较一下结果,结果会有什么不同?为什么?

1
为什么将SVM解释为分类概率是错误的?
我对SVM的理解是,它与逻辑回归(LR)非常相似,即将特征的加权总和传递给S形函数以获取属于一类的概率,而不是交叉熵(逻辑)损失功能,使用铰链损失进行训练。使用铰链损失的好处是可以执行各种数值技巧来使内核化更加有效。但是,缺点是所得模型的信息少于相应的LR模型可能具有的信息。因此,例如,如果没有内核化(使用线性内核),SVM决策边界仍将位于LR输出0.5的概率所在的相同位置,但无法判断属于一类的概率从SVM 衰减的速度有多快。决策边界。 我的两个问题是: 我上面的解释正确吗? 使用铰链损失如何使将SVM结果解释为概率无效?

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
机器学习技术,用于学习字符串模式
我有一个单词列表,属于不同的自定义类别。每个类别都有其自己的模式(例如,一个具有固定长度的特殊字符,另一种仅存在于“单词”的类别中的字符,...)。 例如: "ABC" -> type1 "ACC" -> type1 "a8 219" -> type2 "c 827" -> type2 "ASDF 123" -> type2 "123123" -> type3 ... 我正在寻找一种机器学习技术,根据训练数据自行学习这些模式。我已经尝试自己定义一些预测变量(例如,字长,特殊字符的数量...),然后使用神经网络来学习和预测类别。但这根本不是我想要的。我希望有一种技术可以自己学习每个类别的模式,甚至可以学习我从未想过的模式。 因此,我提供了算法学习数据(由单词类别示例组成),并希望它学习每种类别的模式,以便以后根据相似或相等的单词来预测类别。 有最先进的方法吗? 谢谢你的帮助

2
《统计学习入门》中的“函数”的方差是什么意思?
在pg。统计学习入门中的 34 :\newcommand{\Var}{{\rm Var}} 虽然数学证明超出了本书的范围,有可能表明期望的测试MSE,给定值X0X0x_0,总是可以分解为三个基本量的总和:在变化的F^(x0)F^(X0)\hat{f}(x_0),平方偏差的F^(x0)F^(X0)\hat{f}(x_0)和误差项的方差εε\varepsilon。那是, Ë(y0−f^(x0))2=Var(f^(x0))+[Bias(f^(x0))]2+Var(ε)Ë(ÿ0-F^(X0))2=V一个[R(F^(X0))+[乙一世一个s(F^(X0))]2+V一个[R(ε) E\left(y_0 - \hat{f}(x_0)\right)^2 = \Var\big(\hat{f}(x_0)\big) + \Big[{\rm Bias}\big(\hat{f}(x_0)\big)\Big]^2 + \Var(\varepsilon) [...]方差是指如果我们使用不同的训练数据集来估计f^F^\hat{f}变化量。 问题:由于Var(f^(x0))V一个[R(F^(X0))\Var\big(\hat{f}(x_0)\big)似乎表示函数的方差,因此这在形式上是什么意思? 也就是说,我熟悉随机变量X的方差的概念XXX,但是一组函数的方差又如何呢?可以将其视为函数形式的另一个随机变量的方差吗?

1
集成学习:为什么模型堆叠有效?
最近,我对模型堆叠作为集成学习的一种形式感兴趣。特别是,我对回归问题进行了一些玩具数据集实验。我基本上已经实现了单个“ 0级”回归器,将每个回归器的输出预测存储为新功能,以供“元回归器”作为其输入,并将此元回归器适应这些新功能(来自该层的预测0个回归指标)。当针对验证集测试元回归器时,我对单个回归器的适度改进感到非常惊讶。 所以,这是我的问题:为什么模型堆叠有效?凭直觉,我希望进行堆叠的模型表现不佳,因为与每个0级模型相比,它的要素表示似乎很差。也就是说,如果我在具有20个特征的数据集上训练3个0级回归变量,并使用这些0级回归变量的预测作为我的元回归变量的输入,这意味着我的元回归变量只有3个特征可供学习。似乎0级回归器用于训练的20种原始功能中编码的信息比元回归器用于训练的3种输出功能要多。

2
卷积神经网络中的过滤器和激活图如何连接?
给定层的激活图如何连接到该层的过滤器?我不是在问如何在过滤器和激活图之间进行卷积运算,我是在问这两个具有的连接类型。 例如,假设您要进行完全连接。在给定的层中,您有f个过滤器和n个激活图。您将在下一层获得f * n个激活图,激活图的数量将随每个新层的增加而增加。这是我认为完成的方式。 或者您可以说每个过滤器仅连接到一个激活图。在这种情况下,过滤器的数量将等于激活图的数量,并且每个层将具有相同数量的过滤器和激活图。这是我的网络的当前体系结构,似乎学习得很好。 我感到困惑的主要原因是看网上看到的卷积图。其中一些在过滤器和激活图之间具有“完全连接”,例如- 在第一层中,您有4个激活图,大概有2个过滤器。每个图都与每个过滤器卷积,从而在下一层生成8个图。看起来很棒。 但是,这里的架构对我来说没有意义- 您如何从第一层的6张地图转到第二层的16张地图?我可以想到从6张地图中获取16张地图的方法,但这样做毫无意义。

2
如何通过反向传播训练SVM?
我想知道是否可以使用反向传播训练SVM(例如,将其简化为线性模型)? 目前,我处于障碍之中,因为我只能考虑将分类器的输出编写为 F(X ; θ ,b )= SGN (θ ·&X - (b + 1 ))= SGN (克(x ; θ ,b ))f(x;θ,b)=sgn(θ⋅x−(b+1))=sgn(g(x;θ,b)) f(\mathbf{x};\theta,b) = \text{sgn}(\theta\cdot\mathbf{x} - (b+1)) = \text{sgn}(g(\mathbf{x};\theta,b)) 因此,当我们尝试计算“向后传递”(传播错误)时,我们得到 因为的导数是 sgn(x)dsgn(x)∂Ë∂X= ∂Ë∂F(x ; θ ,b )∂F(x ; θ ,b )X= ∂Ë∂F(x ; θ ,b )∂SGN (克(x ; θ ,b ))∂G(x …

1
Scikit二项式偏差损失函数
这是scikit GradientBoosting的二项式偏差损失函数, def __call__(self, y, pred, sample_weight=None): """Compute the deviance (= 2 * negative log-likelihood). """ # logaddexp(0, v) == log(1.0 + exp(v)) pred = pred.ravel() if sample_weight is None: return -2.0 * np.mean((y * pred) - np.logaddexp(0.0, pred)) else: return (-2.0 / sample_weight.sum() * np.sum(sample_weight * ((y * pred) …

3
神经网络可以学习功能及其功能派生吗?
我了解到,在某些假设下(在网络和要近似的函数上),神经网络(NN)可以视为函数及其派生类的通用逼近器。实际上,我已经对简单但非平凡的函数(例如多项式)进行了许多测试,似乎我确实可以很好地近似它们和它们的一阶导数(下面显示一个示例)。 然而,我不清楚的是,导致上述结论的定理是否扩展到(或可能扩展到)泛函及其函数导数。例如,考虑以下函数: ,其中函数导数: 其中,完全而不是完全取决于。NN可以学习上面的映射及其功能派生吗?更具体地说,如果一个离散化的域比和提供(在离散点)作为输入和F[ f((x )] = ∫b一个dX ˚F (x )克(x )F[F(X)]=∫一个bdX F(X)G(X)\begin{equation} F[f(x)] = \int_a^b dx ~ f(x) g(x) \end{equation}δF[ f(x )]δF(x )=g(x )δF[F(X)]δF(X)=G(X)\begin{equation} \frac{\delta F[f(x)]}{\delta f(x)} = g(x) \end{equation}F(x )F(X)f(x)G(x )G(X)g(x)XXx[ a ,b ][一个,b][a,b]F(x )F(X)f(x)F[ f(x )]F[F(X)]F[f(x)]作为输出,NN能否正确(至少在理论上)正确学习此映射?如果是这样,它还能学习映射的功能导数吗? 我已经做过许多测试,似乎NN确实可以在某种程度上学习映射。但是,虽然此映射的准确性尚可,但并不理想。麻烦的是计算出的函数导数是完全垃圾(尽管这两个都可能与训练等有关)。一个例子如下所示。F[ f(x )]F[F(X)]F[f(x)] 如果NN不适合学习某个函数及其函数导数,那么还有另一种机器学习方法吗? 例子: (1)以下是近似函数及其衍生物的一个例子:一个NN被训练学习函数在范围[-3,2]: 从该合理得到与近似值: 请注意,正如预期的那样,对的NN近似值及其一阶导数随训练点数,NN体系结构的改善而提高,因为在训练过程中发现了更好的最小值等。F(x )= x3+ x …


2
关于连续词袋的问题
我在理解这句话时遇到了麻烦: 首先提出的体系结构类似于前馈NNLM,其中去除了非线性隐藏层,并为所有单词共享了投影层(而不仅仅是投影矩阵)。因此,所有单词都投影到同一位置(对它们的向量进行平均)。 什么是投影层与投影矩阵?说所有单词都投射到相同位置意味着什么?为什么这意味着它们的向量是平均的? 该句子是向量空间中单词表示的有效估计的第3.1节的第一部分(Mikolov等,2013)。

2
为什么选择Adaboost和决策树?
我已经阅读了一些有关分类任务的增强算法,尤其是Adaboost。我了解Adaboost的目的是招募几个“弱学习者”,并通过对训练数据进行一系列迭代,推动分类器学习预测模型反复犯错的类。但是,我想知道为什么我所做的许多阅读都使用决策树作为弱分类器。是否有特定原因?是否有某些分类对于Adaboost而言特别好坏?

2
什么是对数赔率分布?
我正在阅读一本关于机器学习的教科书(Witten等人的《数据挖掘》,2011年),并且遇到了这段话: ...此外,可以使用不同的分布。尽管通常对于数字属性来说,正态分布是一个不错的选择,但它不适用于具有预定最小值但没有上限的属性;在这种情况下,“对数正态”分布更为合适。可以通过“对数奇数”分布来模拟上下边界的数值属性。 我从未听说过这种分布。我在Google上搜索了“对数分布”,但找不到任何相关的完全匹配项。有人可以帮我吗?这种分布是什么,为什么对上下有界的数字有帮助? PS:我是软件工程师,而不是统计学家。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.