Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

3
统计人员说我们不太了解LASSO(正则化)的工作原理是什么意思?
我最近去过一些关于套索(正则化)的统计讨论,并且不断出现的一点是,我们并不真正了解套索为什么起作用或为什么这么好。我想知道这句话指的是什么。显然,我理解了套索为什么通过防止参数缩小来防止过度拟合而在技术上起作用的原因,但是我想知道这样的声明背后是否还有更深层的含义。有人有什么想法吗?谢谢!


1
是什么证明了矩阵函数导数的这种计算是合理的?
在吴安德(Andrew Ng)的机器学习课程中,他使用以下公式: ∇一个吨- [R (甲乙甲ŤC)= C甲乙+ C ^Ť一乙Ť∇Atr(ABATC)=CAB+CTABT\nabla_A tr(ABA^TC) = CAB + C^TAB^T 他做了一个快速证明,如下所示: ∇一个吨- [R (甲乙甲ŤC)= ∇一个吨- [R (˚F(A )AŤC)= ∇∘吨- [R (˚F(∘ )AŤC)+ ∇∘吨- [R (˚F(一)∘ŤC)= (AŤC)ŤF′(∘ )+ (∇∘Ť吨- [R (˚F(一)∘ŤC)Ť= CŤ一乙Ť+ (∇∘Ť吨- [R (∘Ť)CF(A ))Ť= CŤ一乙Ť+ ((CF(A ))Ť)Ť= CŤ一乙Ť+ C一乙∇Atr(ABATC)=∇Atr(f(A)ATC)=∇∘tr(f(∘)ATC)+∇∘tr(f(A)∘TC)=(ATC)Tf′(∘)+(∇∘Ttr(f(A)∘TC)T=CTABT+(∇∘Ttr(∘T)Cf(A))T=CTABT+((Cf(A))T)T=CTABT+CAB\nabla_A tr(ABA^TC) \\ = \nabla_A tr(f(A)A^TC) \\ = …


2
图形模型和玻尔兹曼机器在数学上相关吗?
虽然我实际上是在物理课上用玻尔兹曼机进行编程的,但我对它们的理论特性并不熟悉。相反,我对图形模型的理论了解很少(关于Lauritzen的《图形模型》的前几章)。 问题:图形模型和玻尔兹曼机器之间是否存在有意义的关系?玻尔兹曼机是图形模型的一种吗? 显然,玻尔兹曼机是一种神经网络。我听说有些神经网络在数学上与图形模型有关,而有些则没有。 CrossValidated上的相关问题没有回答我的问题: 这类似于之前已经问过的先前问题:层次模型,神经网络,图形模型,贝叶斯网络之间的关系是什么?但更具体。 此外,对该问题的公认答案并不能澄清我的困惑-即使神经网络的标准图形表示中的节点不表示随机变量,也不一定意味着不存在这种表示形式。具体来说,我正在考虑马尔可夫链的典型图形表示中的节点如何表示可能状态的集合,而不是随机变量,但是也可以创建一个图形,显示之间的条件依赖关系XiXiX_iXiXiX_i,这表明每个马尔可夫链实际上都是一个马尔可夫随机场。答案还说,神经网络(可能包括Boltzmann机器)是“判别性的”,但没有更详细地解释该主张的含义,也没有明显的后续问题“图形模型不是可判别的吗?” 已解决。同样,可接受的答案链接到凯文·墨菲(Kevin Murphy)的网站(当我学习贝叶斯网络时,我实际上阅读了他的博士学位论文),但是该网站仅讨论贝叶斯网络,而根本没有提及神经网络,因此无法阐明它们的方式。是不同的。 这另一个问题可能与我的最相似:将神经网络数学建模为图形模型但是,没有一个答案被接受,同样也仅提供参考,但不解释参考(例如,此答案)。希望有一天我能够理解这些参考资料,但现在我已经具备基本的知识水平,并且最希望得到一个尽可能简化的答案。此外,链接到顶部答案(http://www.cs.toronto.edu/~tijmen/csc321/lecture_notes.shtml)的多伦多课程解决了此问题,但没有非常详细。此外,可能无法回答我的问题的一次讲座的笔记也没有公开。 3月25日,讲座13b:信仰网7:43。对于此幻灯片,请记住Boltzmann Machines。那里也有隐藏的单位和可见的单位,而且都是概率性的。BM和SBN的共同点是多于区别。9:16 如今,“图形模型”有时被视为神经网络的特殊类别,但在此处描述的历史中,它们被认为是非常不同的系统类型。

5
为什么f beta分数可以这样定义beta?
这是F beta得分: Fβ= (1 + β2)⋅ p - [R È Ç 我小号我ö Ñ ⋅ ř Ë Ç 一升升(β2⋅ p - [R È Ç 我小号我Ò Ñ)+ [R Ë Ç 一升升Fβ=(1个+β2)⋅p[RËC一世s一世Øñ⋅[RËC一个升升(β2⋅p[RËC一世s一世Øñ)+[RËC一个升升F_\beta = (1 + \beta^2) \cdot \frac{\mathrm{precision} \cdot \mathrm{recall}}{(\beta^2 \cdot \mathrm{precision}) + \mathrm{recall}} 维基百科文章指出。FβFβF_\beta "measures the effectiveness of retrieval with respect to …

3
可以训练神经网络以某种样式绘制图片吗?
可以训练神经网络以某种样式绘制图片吗?(因此,它会拍摄图像并以训练有素的样式重绘。) 是否有经过批准的技术可用于此类事情?我知道DeepArt算法。可以用特定的图案(例如,vangoghify图像)填充主图像,这很好,但是我正在寻找不同的东西,例如,从输入的肖像中以某种样式制作卡通。

1
在训练过程中,神经网络通常需要一段时间来“踢”吗?
我正在尝试使用反向传播训练深度神经网络进行分类。具体来说,我使用Tensor Flow库将卷积神经网络用于图像分类。在训练过程中,我遇到一些奇怪的行为,我只是想知道这是否很典型,或者我做错了什么。 因此,我的卷积神经网络有8层(5层卷积,3层完全连接)。所有权重和偏差均以较小的随机数初始化。然后,我设置步长,并使用Tensor Flow的Adam Optimizer进行小批量训练。 我正在谈论的奇怪行为是,对于我的训练数据中的前10个循环,训练损失通常不会减少。权重正在更新,但训练损失大致保持在大约相同的值,有时在小批之间增加或减少。它会保持这种状态一段时间,并且我总是给人以损失永远不会减少的印象。 然后,突然之间,训练损失急剧减少。例如,在训练数据的大约10个循环内,训练精度从大约20%变为大约80%。从那时起,一切最终都很好地融合在一起。每当我从头开始运行训练管道时,都会发生相同的事情,下面的图表说明了一个示例运行。 因此,我想知道的是,这是通过训练深度神经网络进行的正常行为,从而需要一段时间才能“踢进”。还是我做错了某件事导致了此延迟? 非常感谢!


1
防止帕累托平滑重要性抽样(PSIS-LOO)失败
我最近开始使用帕累托平滑重要性抽样留一法交叉验证(PSIS-LOO),这些论文对此进行了介绍: Vehtari,A.&Gelman,A.(2015年)。帕累托平滑重要性抽样。arXiv预印本(链接)。 Vehtari,A.,Gelman,A.,&Gabry,J.(2016年)。使用留一法交叉验证和WAIC的实用贝叶斯模型评估。arXiv预印本(链接) 这代表了一种非常好的样本外模型评估方法,因为它允许通过一次MCMC运行就可以执行LOO-CV,并且据称比现有的信息标准(例如WAIC)更好。 k^ik^i\hat{k}_ik^i≳0.7k^i≳0.7\hat{k}_i \gtrsim 0.7 不幸的是,我发现在将该方法应用于问题时,对于大多数感兴趣的模型,我发现的很大一部分。毫不奇怪,一些报告的LOO对数似然显然是毫无意义的(与其他数据集相比)。作为双重检查,我执行了传统的(且费时的)10倍交叉验证,发现确实在上述情况下,PSIS-LOO给出了非常错误的结果(从正面来看,结果与10所有的模型的CV。作为记录,我使用的是Aki Vehtari的PSIS-LOO 的MATLAB实现。k^i≫0.7k^i≫0.7\hat{k}_i \gg 0.7k^i≪0.7k^i≪0.7\hat{k}_i \ll 0.7 也许我很倒霉,因为我目前应用此方法的第一个问题对PSIS-LOO来说“困难”,但是我怀疑这种情况可能相对普遍。对于像我这样的案例,Vhttary,Gelman&Gabry的论文简单地说: 即使PSIS估计具有有限的方差,当,用户也应考虑针对有问题的直接从进行采样,请使用倍交叉验证,或使用更可靠的模型。k^>0.7k^>0.7\hat{k} > 0.7p(θs|y−i)p(θs|y−i)p(\theta^s |y_{−i})iiikkk 这些是显而易见的但不是真正理想的解决方案,因为它们都很费时或需要额外的摆弄(我很欣赏MCMC 和模型评估都是摆弄,但越少越好)。 我们是否可以预先应用任何常规方法来尝试防止 PSIS-LOO失败?我有一些初步的想法,但我想知道人们是否已经采用了经验方法。

3
RBF SVM用例(对比逻辑回归和随机森林)
具有径向基函数内核的支持向量机是一种通用的监督分类器。 虽然我知道这些SVM的理论基础及其优点,但我不知道它们是首选方法的情况。那么,RBF SVM是否比其他ML技术优越呢?(无论是在得分方面,还是其他方面-诸如健壮性,入门容易性,可解释性等) 我在问,因为我的默认方法围绕逻辑回归(也许有些交互作用),随机森林和一些神经网络。我做ML的所有朋友(有些是Kaggle赢家)都不是SVM用户(但这可能是我所在社区的产物,或者是他们处理的问题)。


1
PCA仅保留较大的成对距离是什么意思?
我目前正在阅读t-SNE可视化技术,有人提到使用主成分分析(PCA)来可视化高维数据的缺点之一是它仅保留了点之间的较大成对距离。在高维空间中相距较远的意义点在低维子空间中也将相距较远,但除此之外,所有其他成对距离都将被搞砸。 有人可以帮助我理解为什么会这样吗?它在图形上意味着什么?

1
了解TF-IDF对数中对数的使用
我正在阅读: https://zh.wikipedia.org/wiki/Tf%E2%80%93idf#Definition 但是我似乎无法确切地理解为什么以这种方式构造公式。 我的理解: iDF应该在某种程度上衡量术语S在每个文档中出现的频率,并随着术语S出现频率的增加而降低其价值。 从这个角度来看 我d ˚F(S)= # 文献# 含S-文献一世dF(小号)=# 文件数量# 包含S的文档 iDF(S) = \frac{\# \text{ of Documents}}{\# \text{ of Documents containing S}} 此外,术语“频率”可以正确地描述为 Ť ˚F(S,d )= #在文件d S的出现次数的 #文档D中任何字符串Q的最大出现次数 ŤF(小号,d)=# D中S的出现# 文档D中任何字符串Q的最大出现次数 tf(S,D) = \frac{\# \ \text{of Occurrences of S in document D}}{\# \ \text{maximum number of occurrences …

1
随机森林vs Adaboost
在《随机森林》(Breiman,1999年)的第7节中,作者提出了以下猜想:“ Adaboost是随机森林”。 有没有人证明或反对这一点?为证明或反驳1999年以后的职位采取了哪些措施?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.