Questions tagged «deep-learning»

机器学习领域,主要是通过深度神经网络来学习数据的分层表示。


1
在深度学习中的深度残差网络中,残差学习块到底是什么?
我正在阅读论文《深度残差学习以进行图像识别》,但我很难100%地确定残差块在计算上的含义。阅读他们的论文,他们有图2: 它说明了残余块应该是什么。残差块的计算是否与以下内容完全相同: y=σ(W2σ(W1x+b1)+b2+x)y=σ(W2σ(W1x+b1)+b2+x) \mathbf{y} = \sigma( W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 + \mathbf{x} ) 或者是别的什么? 换句话说,也许是试图与论文的符号相匹配的是: F(x)+x=[W2σ(W1x+b1)+b2]+xF(x)+x=[W2σ(W1x+b1)+b2]+x \mathcal F(x) + x = \left[ W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 \right] + \mathbf{x} 真的吗? yy\mathbf{y} σ(F(x)+x)=σ([W2σ(W1x+b1)+b2]+x)σ(F(x)+x)=σ([W2σ(W1x+b1)+b2]+x) \sigma( \mathcal F(x) + x ) = \sigma( …

2
将Pearson相关系数作为机器学习中的优化目标
在机器学习中(针对回归问题),我经常看到均方误差(MSE)或均方绝对误差(MAE)被用作最小化(加上正则化项)的误差函数。我想知道是否存在使用相关系数更合适的情况?如果存在这种情况,则: 与MSE / MAE相比,在什么情况下相关系数是更好的指标? 在这些情况下,MSE / MAE还是可以使用的良好代理费用功能吗? 直接使相关系数最大化是可能的吗?这是一个稳定的目标函数吗? 我找不到在优化中直接将相关系数用作目标函数的情况。如果有人可以向我介绍该领域的信息,我将不胜感激。

3
神经网络的编码日期/时间(循环数据)
如何为神经网络编码事件的日期和时间? 我没有连续的时间序列,但是有一些带有日期和时间的事件,并且我分析了一些兴趣。这种兴趣在早晨和晚上之间有所不同,在工作日之间,夏季和冬季之间以及圣诞节和复活节之前等等也有所不同。而且事件本身在时间上有很强的不均匀分布(白天多于晚上,一周中有更多种类,周末中有更多种类)。 我尝试将其编码为年中的“周数”,“工作日1-7”和“小时”。但是,使用稀疏的自动编码器给我的印象是,我的数据对神经网络没有任何意义,即使具有很大的隐藏层,它也无法在输入附近重现任何内容。既不是分类0-1,也不是归一化值。 但是,为神经网络搜索时间编码通常会提供有关时间序列的信息,因此我被森林蒙住了双眼,但却在寻找树。 当然,我可以查看数据并将其大致视情况归类。但是深度学习的概念似乎席卷了所有手工制作的手工特征提取。并且分类将在自然连续的输入变量中插入较大的跳跃。 我大脑中的“自然编码”更像是“夜”,“早晨”,“工作日”等某些类别的模糊成员。 为了使整个事情更有趣,dependend变量还包含那些日期/时间数据,但这是一个不同的问题。 编辑:与循环数据有关的某种方式是一些最近的问题,例如 使用该时段的数据集,哪些统计检验合理?

3
将神经网络数学建模为图形模型
我正在努力在神经网络和图形模型之间建立数学联系。 在图形模型中,这个想法很简单:概率分布根据图中的派系分解,势通常为指数族。 神经网络是否有等效的推理?能否用受限的玻尔兹曼机或CNN表示单位(变量)上单位(变量)随其能量或单位之间能量乘积的概率分布? 另外,概率分布是否由指数族的RBM或深度信仰网络(例如带有CNN)建模? 我希望找到一种文本,这些文本以约旦和温赖特(Jordan&Wainwright)的图形模型,图形族,指数族和变分推论对图形模型所做的相同方式,来形式化这些现代神经网络和统计之间的联系。任何指针都很棒。

2
在CNN中选择过滤器大小,步幅等?
我一直在看斯坦福大学的CS231N讲座,我正在努力解决CNN架构中的一些问题。我要了解的是,是否存在一些用于选择卷积滤波器大小和步幅之类的通用准则,或者这是一门艺术而非一门科学? 据我了解,合并的存在主要是为了将某种形式的翻译不变性引入模型中。另一方面,我对如何选择步幅没有很好的直觉。除了试图压缩当前的层大小或试图为神经元获得更大的接受野外,还有其他指导方针吗?任何人都知道讨论此问题的好论文或类似文章吗?

4
MLE和交叉熵之间的联系在深度学习中有多有意义?
我了解给定了独立的观测值 的最大似然估计(或,等价地,具有平坦的MAP /均匀)之前标识所述参数\ mathbf {θ}产生该模型分布 P_ {模型} \ 与这些观测值最匹配的left(\,\ cdot \,; \ mathbf {θ} \ right)将是直径: = { Ö (1 ),。。。,o (m ) }mmmO={o(1),...,o(m)}O={o(1),...,o(m)}\mathbb{O}=\{\mathbf{o}^{(1)}, . . . , \mathbf{o}^{(m)}\}θθ\mathbf{θ}pmodel(⋅;θ)pmodel(⋅;θ)p_{model}\left(\,\cdot\, ; \mathbf{θ}\right) θML(O)=pmodel(O;θ)=argmaxθ‎‎∏i=1mpmodel(o(i);θ)θML(O)=pmodel(O;θ)=arg⁡maxθ‎‎∏i=1mpmodel(o(i);θ)\mathbf{θ}_{ML}(\mathbb{O})= p_{model}\left(\mathbb{O}; \mathbf{θ}\right) = \underset{\mathbf{θ}}{\arg\max}‎‎\prod_{i=1}^{m} p_{model}\left(\mathbf{o}^{(i)}; \mathbf{θ}\right) 或者,更方便 θML(O)=argminθ∑i=1m−logpmodel(o(i);θ)θML(O)=arg⁡minθ∑i=1m−log⁡pmodel(o(i);θ)\mathbf{θ}_{ML}(\mathbb{O})= \underset{\mathbf{θ}}{\arg\min}\sum_{i=1}^{m} -\log p_{model}\left(\mathbf{o}^{(i)}; \mathbf{θ}\right) 并了解θMLθML\mathbf{θ}_{ML}在定义多类深度神经网络的损失函数中可以发挥的作用,其中θθ\mathbf{θ}对应于网络的可训练参数(例如θ={W,b})θ={W,b})\mathbf{θ} = \{\mathbf{W}, \mathbf{b}\} ),观察值是输入激活对xx\mathbf{x}和相应的正确类标签y∈[1,k]y∈[1,k]y \in …

3
卷积神经网络中最终Softmax层之前的非线性
我正在研究并尝试实现卷积神经网络,但是我想这个问题通常适用于多层感知器。 我网络中的输出神经元代表每个类别的激活:最活跃的神经元对应于给定输入的预测类别。为了考虑训练的交叉熵成本,我在网络的末端添加了softmax层,以便将每个神经元的激活值解释为概率值。 我的问题是:输出层中的神经元是否应该对输入应用非线性函数?我的直觉是没有必要: 如果第一世一世i个输出神经元的输入是向量(来自上一层)与该神经元权重之间的点积, X θ 我XŤθ一世XŤθ一世x^T\theta_iXXxθ一世θ一世\theta_i 如果我采用单调非线性函数(如S型或ReLU) 那么较大的激活输出仍将对应于最大,因此从这个角度来看,非线性函数不会改变预测。XŤθ一世XŤθ一世x^T\theta_i 这种解释有问题吗?我是否忽略了一些训练因素,这些因素使输出非线性成为必要? 如果我是对的,那么如果不是使用Sigmoid函数而是使用ReLU函数(不是严格单调的函数,会发生什么变化吗?最大值(0 ,XŤθ一世)最大值(0,XŤθ一世)\max(0,x^T\theta_i) 编辑 关于Karel的答案,其答案主要是“取决于”,这是对我的网络和疑问的更详细描述: 假设我有N个隐藏层,而我的输出层只是代表类的一组神经元上的softmax层(所以我的预期输出是输入数据属于每个类的概率)。假设第一个N-1层具有非线性神经元,那么在第N个隐藏层中使用非线性与线性神经元有什么区别?


4
神经网络用于多重输出回归
我有一个包含34个输入列和8个输出列的数据集。解决问题的一种方法是采用34个输入并为每个输出列建立单独的回归模型。我想知道是否可以仅使用一种模型(特别是使用神经网络)解决该问题。 我使用了多层感知器,但是像线性回归一样需要多个模型。顺序学习1可以可行吗?我尝试使用TensorFlow,它似乎无法处理浮点值。 任何通过仅使用一个统一模型(特别是使用神经网络)解决该问题的建议将不胜感激。 Ilya Sutskever,Oriol Vinyals和Quoc V.Le(2014)。使用神经网络进行序列学习。神经信息处理系统进展,27。(pdf)



1
损失函数的二阶近似(深度学习书,7.33)
在Goodfellow(2016)的一本关于深度学习的书中,他谈到了尽早停止与L2正则化的等效性(https://www.deeplearningbook.org/contents/regularization.html第247页)。 成本函数二次逼近由下式给出:jjj J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) 其中是Hessian矩阵(方程7.33)。这是缺少中期吗?泰勒展开应该是: HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2

4
无可能性的推断-这是什么意思?
最近,我意识到文学中流传着“无可能性”方法。但是我不清楚推理或优化方法是没有可能性的意味着什么。 在机器学习中,目标通常是使某些参数拟合函数的可能性最大化,例如神经网络上的权重。 那么,无可能性方法的原理到底是什么?为什么像GAN这样的对抗网络却属于这一类呢?

3
如何对空间中的任意点实施L2正则化?
这是我在伊恩·古德费洛(Ian Goodfellow)的《深度学习》一书中读到的。 在神经网络的上下文中,“ L2参数范数罚则通常称为权重衰减。这种正则化策略使权重更接近原点。更普遍地,我们可以将参数正则化为任何特定点附近在空间中”,但更常见的是将模型参数调整为零。(深度学习,Goodfellow等。) 我只是好奇。我了解到,只需在成本函数中添加一个正则项,并通过使总成本最小化,就可以影响模型的参数以使其保持较小:JJJ J(Θ,X,y)=L(Θ,X,y)+λ||w||22J(Θ,X,y)=L(Θ,X,y)+λ||w||22J(\boldsymbol{\Theta}, \boldsymbol{X}, \boldsymbol{y}) = L(\boldsymbol{\Theta}, \boldsymbol{X}, \boldsymbol{y}) + \lambda||\boldsymbol{w}||_{2}^{2} 但是,如何实现该正则化策略的一种版本,该版本会将参数引向任意点?(例如,我们希望规范趋向于5)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.