Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

2
Top-n精度的定义是什么?
我正在阅读有关图像分类的科学论文。在实验结果中,他们提到了top-1和top-5的准确性,但我从未听说过该术语,也无法使用google找到它。 有人可以给我一个定义或指向我某个地方吗?:)



1
为什么为深度学习的Adam优化器包括偏差校正项很重要?
我正在阅读有关深度学习的Adam优化器的内容,并在Begnio,Goodfellow和Courtville撰写的新书Deep Learning中遇到了以下句子: 亚当包括对一阶矩(动量项)和(无心)二阶矩的估计值的偏差校正,以说明它们在原点处的初始化。 似乎包含这些偏差校正项的主要原因是,它以某种方式消除了和的初始化偏差。米Ť= 0mt=0m_t = 0vŤ= 0vt=0v_t = 0 我不是100%知道这是什么意思,但在我看来,这很可能意味着第一和第二时刻从零开始,并以某种方式从零开始倾斜,以不公平(或有用)的方式使值接近零。 ? 虽然我很想知道这意味着什么,以及它如何损害学习。特别是,在优化方面,不偏向优化器有哪些优势? 这如何帮助训练深度学习模型? 另外,无偏见是什么意思?我很熟悉无偏标准偏差的含义,但是我不清楚在这种情况下这意味着什么。 偏差校正真的很重要吗?还是亚当优化器论文过度夸大了它? 就是这样,人们知道我已经非常努力地理解原始论文,但是我从阅读和重新阅读原始论文中受益匪浅。我认为其中一些问题可能会在此处得到解答,但我似乎无法解析答案。


1
机器学习模型的“能力”是什么?
我正在研究Carl Doersch撰写的有关变式自动编码器的教程。在第二页中指出: 此类框架中最受欢迎的框架之一是本教程的主题“变体自动编码器” [1,3]。该模型的假设很弱,并且通过反向传播训练很快。VAE确实可以近似,但是在给定大容量模型的情况下,这种近似引入的误差可以说很小。这些特征促使它们迅速普及。 过去,我已经阅读了有关大容量模型的这类说法,但似乎没有找到明确的定义。我也发现了这个相关的stackoverflow问题,但对我来说,答案非常不令人满意。 是否有模型容量的定义?你能衡量吗?

2
最大平均差异(距离分布)
我有两个数据集(源数据和目标数据),它们遵循不同的分布。我正在使用MMD(这是一种非参数的距离分布)来计算源数据和目标数据之间的边际分布。 源数据,Xs 目标数据,Xt 适应矩阵A *投影数据,Zs = A'* Xs和Zt = A'Xt * MMD =>距离(P(Xs),P(Xt))= | 平均值(A'Xs)-平均值(A'Xt )| 这意味着:原始空间中源数据和目标数据之间的分布距离等于嵌入式空间中投影源数据和目标数据的均值之间的距离。 我对MMD的概念有疑问。 在MMD公式中,为什么可以通过计算潜在空间中的距离来测量原始空间中的分布距离? 谢谢

4
预测模型:统计数据可能无法击败机器学习吗?[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 2年前关闭。 我目前正在关注一个专注于统计/计量经济学的硕士课程。在我的主人看来,所有学生都必须进行3个月的研究。上周,所有小组都必须向其余的硕士生介绍他们的研究。 几乎每个小组都针对他们的研究主题进行了一些统计建模和一些机器学习建模,并且每一次样本外预测都谈到了简单的机器学习模型击败了非常复杂的统计模型,在过去的3个研究中,每个人都非常努力几个月。无论每个人的统计模型多么出色,一个简单的随机森林几乎总是会得到较低的样本外误差。 我想知道这是否是一个普遍接受的观察?那如果要进行样本外预测,就没有办法击败简单的随机森林或极端梯度增强模型吗?这两种方法使用R包实现起来非常简单,而每个人都想出的所有统计模型都需要大量的技能,知识和精力来进行估算。 您对此有何看法?统计/计量经济学模型的唯一好处是您可以获得解释吗?还是我们的模型不够好,以至于它们不能明显胜过简单的随机森林预测?有没有解决这个问题的论文?

1
为什么我们不使用非恒定学习率来实现除神经网络以外的其他事物的梯度体面?
在梯度下降中使用非恒定的学习率,深度学习文学充满了巧妙的技巧。像指数衰减,RMSprop,Adagrad等之类的东西很容易实现,并且在每个深度学习包中都可用,但是在神经网络之外似乎并不存在。有什么理由吗?如果只是人们根本不在乎,是否有理由为什么我们不必在神经网络之外关心?

2
神经网络在权宜之计上是否存在卷积的数学原因?
在卷积神经网络(CNN)中,在进行卷积之前,每一步的权重矩阵都需要翻转其行和列以获得内核矩阵。Hugo Larochelle 在以下一系列视频中对此进行了解释: daccess-ods.un.org daccess-ods.un.org计算隐藏映射将对应于使用内核矩阵对来自上一层的信道进行离散卷积,并且该内核是根据隐藏权重矩阵WijWijW_{ij},我们在其中翻转行和列。 如果像其他类型的NN一样将卷积的减少步长与常规矩阵乘法进行比较,权宜之计将是一个明确的解释。但是,这可能不是最相关的比较... 在数字成像处理中,将滤镜卷积到图像上(对于实际直觉来说这是一个很棒的youtube视频)似乎与以下内容有关: 该事实卷积是缔合而(交叉)的相关是没有的。 由于时域中的卷积等效于频域中的乘法(卷积定理),因此可以在图像的频域中将滤波器作为乘法应用。 在这种特定的技术环境中,DSP 相关定义为: F∘I(x,y)=∑j=−NN∑i=−NNF(i,j)I(x+i,y+j)F∘I(x,y)=∑j=−NN∑i=−NNF(i,j)I(x+i,y+j)F\circ I(x,y)=\sum_{j=-N}^{N}\sum_{i=-N}^N\, F(i,j)\,I(x+i, y+j) 这实际上是Hadamard乘积中所有单元的总和: F∘I(x,y)=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢F[−N,−N]I[x−N,y−N]⋮F[0,−N]I[x,y−N]⋮F[N,−N]I[x+N,y−N]⋯⋱⋯⋱⋯F[−N,0]I[x−N,y−N]⋮F[0,0]I[x,y]⋮F[N,0]I[x+N,y]⋯⋱⋯⋱⋯F[−N,N]I[x−N,y+N]⋮F[0,N]I[x,y+N]⋮F[N,N]I[x+N,y+N]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥F∘I(x,y)=[F[−N,−N]I[x−N,y−N]⋯F[−N,0]I[x−N,y−N]⋯F[−N,N]I[x−N,y+N]⋮⋱⋮⋱⋮F[0,−N]I[x,y−N]⋯F[0,0]I[x,y]⋯F[0,N]I[x,y+N]⋮⋱⋮⋱⋮F[N,−N]I[x+N,y−N]⋯F[N,0]I[x+N,y]⋯F[N,N]I[x+N,y+N]]\small F\circ I(x,y)=\Tiny\begin{bmatrix}F[-N,-N]\,I[x-N,y-N]&\cdots&F[-N,0]\,I[x-N,y-N]&\cdots& F[-N,N]\,I[x-N,y+N]\\ \vdots&\ddots&\vdots&\ddots&\vdots\\ F[0,-N]\,I[x,y-N]&\cdots&F[0,0]\,I[x,y]&\cdots& F[0,N]\,I[x,y+N]\\ \vdots&\ddots&\vdots&\ddots&\vdots\\ F[N,-N]\,I[x+N,y-N]&\cdots&F[N,0]\,I[x+N,y]&\cdots& F[N,N]\,I[x+N,y+N]\\ \end{bmatrix} 其中是一个滤波函数(表示为矩阵),而I (x ,y )是位置(x ,y )上图像的像素值:F(i,j)F(i,j)F(i,j)I(x,y)I(x,y)I(x,y)(x,y)(x,y)(x,y) 互相关的目的是评估探针图像与测试图像的相似程度。互相关图的计算依赖于卷积定理。 另一方面,卷积定义为: F∗I(x,y)=∑j=−NN∑i=−NNF(i,j)I(x−i,y−j)F∗I(x,y)=∑j=−NN∑i=−NNF(i,j)I(x−i,y−j)F* I(x,y)=\sum_{j=-N}^{N}\sum_{i=-N}^N\, F(i,j)\,I(x-i, y-j) 只要过滤器是对称的,就与过滤器的行和列翻转的相关操作相同: F∗I(x,y)=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢F[N,N]I[x−N,y−N]⋮F[0,N]I[x,y−N]⋮F[−N,−N]I[x+N,y−N]⋯⋱⋯⋱⋯F[N,0]I[x−N,y−N]⋮F[0,0]I[x,y]⋮F[−N,0]I[x+N,y]⋯⋱⋯⋱⋯F[N,−N]I[x−N,y+N]⋮F[0,−N]I[x,y+N]⋮F[−N,−N]I[x+N,y+N]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥F∗I(x,y)=[F[N,N]I[x−N,y−N]⋯F[N,0]I[x−N,y−N]⋯F[N,−N]I[x−N,y+N]⋮⋱⋮⋱⋮F[0,N]I[x,y−N]⋯F[0,0]I[x,y]⋯F[0,−N]I[x,y+N]⋮⋱⋮⋱⋮F[−N,−N]I[x+N,y−N]⋯F[−N,0]I[x+N,y]⋯F[−N,−N]I[x+N,y+N]]\small F* I(x,y)=\Tiny\begin{bmatrix}F[N,N]\,I[x-N,y-N]&\cdots&F[N,0]\,I[x-N,y-N]&\cdots& F[N,-N]\,I[x-N,y+N]\\ \vdots&\ddots&\vdots&\ddots&\vdots\\ F[0,N]\,I[x,y-N]&\cdots&F[0,0]\,I[x,y]&\cdots& F[0,-N]\,I[x,y+N]\\ \vdots&\ddots&\vdots&\ddots&\vdots\\ F[-N,-N]\,I[x+N,y-N]&\cdots&F[-N,0]\,I[x+N,y]&\cdots& F[-N,-N]\,I[x+N,y+N]\\ …

1
两个世界碰撞:使用ML处理复杂的调查数据
我似乎很容易遇到问题,但是好几个星期以来我一直没有找到合适的解决方案。 我有很多民意测验/调查数据(成千上万的受访者,说每个数据集为5万),这些数据我希望将其称为复杂设计的调查,包括权重,分层,特定路由等。对于每个受访者,都有数百个变量,例如人口统计(年龄,地区...),然后是二进制变量(最多是分类变量)。 我更多地来自计算机科学/机器学习背景,我必须学习很多有关经典调查统计数据和方法的知识。现在,我想将经典机器学习应用于这些数据(例如,预测受访者子集的某些缺失值-基本上是分类任务)。但是,等等,我找不到合适的方法来做到这一点。我应该如何合并这些层次,权重或路由(例如:如果问题1回答了选项2,请问问题3,否则跳过它)? 简单地应用我的模型(树,逻辑回归,SVM,XGBoost ...)似乎很危险(并且在大多数情况下它们会失败),因为它们通常假定数据来自简单的随机样本或iid。 许多方法至少都具有权重,但并没有太大帮助。此外,不清楚如何将不平衡的类和调查定义所给出的权重结合在一起,而不是讨论那些分层的东西。此外,结果模型应进行良好的校准-预测的分布应与原始模型非常接近。预测的良好性能并不是这里的唯一标准。我还更改了优化指标,以考虑到这一点(例如预测分布与真实分布的距离 +准确度/ MCC),并且在某些情况下有所帮助,为什么会破坏其他性能。 有什么规范的方法可以解决这个问题吗?对我来说,这似乎是一个严重未被重视的领域。IMO的许多调查都可以从ML的功能中受益,但没有消息来源。像这些一样,是两个彼此不相互作用的世界。 到目前为止,我发现了什么: http://civilstat.com/2014/08/statistical-modeling-the-two-cultures-breiman/ 例如,当您的数据来自复杂的样本调查时,我仍然只知道一篇关于如何进行回归树的论文(Toth&Eltinge,2011)。 http://ccsg.isr.umich.edu/index.php/chapters/statistical-analysis-chapter#nine 在最近对150份采样研究论文的荟萃分析中,分析了具有复杂采样设计的多项调查,发现由于无知或对复杂样品设计特征的不正确使用而导致的分析错误非常频繁。 https://www.fhwa.dot.gov/2015datapalooza/presentations/PolicyDev.4_Pierce.pdf 相关的简历问题,但没有一个包含如何解决这个问题的可用答案(要么为否,不是我所要的,要么提出具有误导性的建议): 与复杂调查数据进行匹配分析 带有加权/复杂调查数据的机器学习 复杂调查数据中LASSO之后的交叉验证 复杂调查中逻辑回归的分离? 将多级模型拟合到R中的复杂测量数据

2
给定两个线性回归模型,哪种模型效果更好?
我在学院上过机器学习课程。在其中一项测验中,有人问了这个问题。 模型1:y=θx+ϵy=θx+ϵ y = \theta x + \epsilon 模型2:y=θx+θ2x+ϵy=θx+θ2x+ϵ y = \theta x + \theta^2 x + \epsilon 以上哪个模型更适合数据?(假设数据可以使用线性回归建模) 正确的答案(根据教授)是,两个模型的性能都一样好。但是我相信第一个模型会更合适。 这就是我回答背后的原因。第二个模型,其可以被重写为,α = θ + θ 2将不一样的第一模型。α事实上是一个抛物线,因此具有一个最小值(- 0.25在这种情况下)。因此,第一模型中的θ的范围大于第二模型中的α的范围。因此,如果数据是这样的,最适合的有坡度小于- 0.25,所述第二模式将非常差相比于第一个作为执行。但是,如果最佳拟合的斜率大于αx+ϵαx+ϵ \alpha x + \epsilon α=θ+θ2α=θ+θ2\alpha = \theta + \theta^2αα\alpha−0.25−0.25 -0.25 θθ \theta αα \alpha −0.25−0.25-0.25,两个模型的性能相同。−0.25−0.25-0.25 那么第一个比较好,还是两者完全一样?

3
模式识别任务中最先进的集成学习算法?
这个问题的结构如下:首先,我提供整体学习的概念,进一步提供模式识别任务的列表,然后给出整体学习算法的示例,最后介绍我的问题。那些不需要所有补充信息的人可能只是看标题,直接回答我的问题。 什么是整体学习? 根据维基百科的文章: 在统计和机器学习中,集成方法使用多种学习算法来获得比单独从任何组成学习算法中获得的更好的预测性能。与通常是无限的统计力学中的统计集合不同,机器学习集合仅指的是一组有限的替代模型的具体有限集合,但通常允许在这些替代模型之间存在更灵活的结构。 模式识别任务的示例: 光学字符识别 条码识别 车牌识别 人脸检测 语音识别 影像辨识 文件分类 集成学习算法的示例: 以下用于PR任务的集成学习算法(根据Wiki): 集成学习算法(将多种学习算法结合在一起的监督元算法): Boosting(主要用于减少偏见的机器学习集成元算法,以及在监督学习中的差异,以及将弱学习者转换为强学习者的一系列机器学习算法) Bootstrap聚合(“ 装袋 ”)(一种机器学习集成元算法,旨在提高统计分类和回归中使用的机器学习算法的稳定性和准确性)。 集合平均(创建多个模型并将其组合以产生所需输出的过程,而不是仅创建一个模型。通常,一组模型的性能要优于任何单个模型,因为模型的各种错误会“平均化”。 ) 专家混合,专家分层混合 不同的实现 神经网络的集合(一组神经网络模型,通过对各个模型的结果求平均值来进行决策)。 随机森林(一种用于分类,回归和其他任务的整体学习方法,通过在训练时构造大量决策树并输出作为个体的类(分类)或均值预测(回归)模式的类来进行操作树木)。 AdaBoost(将其他学习算法(“弱学习者”)的输出合并为一个加权总和,该总和代表增强分类器的最终输出)。 另外: 使用一个神经网络组合不同分类器的方法 胜任范围法 我的问题 哪种集成学习算法被认为是当今最先进的,并且在企业和组织中实际用于实践中(用于面部检测,车牌识别,光学字符识别等)?应该使用集成学习算法来提高识别精度并导致更好的计算效率。但是,现实中的事情会这样吗? 哪种集成方法可能在模式识别任务中显示出更好的分类准确性和性能?也许,某些方法现在已经过时,或者已经证明无效。由于某些新算法的优势,现在可能不再使用集成方法了。那些在该领域有经验或在该领域有足够知识的人,您能帮助澄清问题吗?

2
MCMC的性能基准
是否有大规模的MCMC方法研究在一组测试密度上比较了几种不同算法的性能?我想到的是与Rios和Sahinidis的论文(2013)相同的东西,该论文将大量无衍生的黑盒优化器在几种测试函数上进行了全面比较。 对于MCMC,可以通过例如每个密度评估的有效样本数(ESS)或其他一些适当的指标来评估性能。 一些评论: 我理解性能将在很大程度上取决于目标pdf的细节,但是对于优化而言,类似的参数(可能不相同)成立,尽管如此,仍有大量基准测试功能,套件,竞赛,论文等用于基准测试优化。算法。 同样,MCMC与优化的不同之处还在于,需要更多的用户关注和调整。但是,现在有几种MCMC方法几乎不需要调整:在老化阶段,采样过程中适应的方法,或演化多个交互链并使用的多状态(也称为ensemble)方法(例如Emcee)。来自其他链条的信息以指导抽样。 我对标准方法与多状态(又称为合奏)方法之间的比较特别感兴趣。有关多状态的定义,请参阅MacKay的书的 30.6节: 在多状态方法中,多个参数向量被保留;它们在大都会和吉布斯等举动下各自发展;向量之间也存在相互作用。XX\textbf{x} 这个问题起源于这里。 更新资料 对于一个有趣采取多态又名集成方法,请参阅本博客文章由鲍勃·卡彭特格尔曼的博客,我的评论指这CV职位。

2
机器学习中的能量最小化是什么?
我正在阅读有关计算机视觉中不适定问题的优化的信息,并且遇到了以下有关Wikipedia的优化的解释。我不明白的是,为什么他们在计算机视觉中将这种优化称为“ 能量最小化 ”? 优化问题可以通过以下方式表示: 给定:函数从某些集合A到实数f:A→Rf:A→Rf: A \to RAAA 寻求:元件在甲使得˚F (X 0)≤ ˚F (X )对于所有X中阿 ( “最小化”)或使得˚F (X 0)≥ ˚F (X )对于所有X中阿 (”最大化”)。x0x0x_0AAAf(x0)≤f(x)f(x0)≤f(x)f(x_0) ≤ f(x)xxxAAAf(x0)≥f(x)f(x0)≥f(x)f(x_0) ≥ f(x)xxxAAA 这种表述称为优化问题或数学编程问题(该术语与计算机编程不直接相关,但仍在线性编程中使用,例如,请参见下面的历史记录)。在这个通用框架中可以模拟许多现实和理论问题。在物理学和计算机视觉领域中,使用该技术提出的问题可能将该技术称为能量最小化,说到函数的值代表正在建模的系统的能量。fff

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.