Questions tagged «neural-networks»

人工神经网络(ANN)是一类广泛的基于生物神经网络的计算模型。它们包括前馈NN(包括“深度” NN),卷积NN,递归NN等。

2
交叉熵损失函数的不同定义
我从使用Neuronetworksanddeeplearning点com教程开始学习神经网络。特别是在第三章中,有一节关于交叉熵函数,并将交叉熵损失定义为: C= - 1ñ∑X∑Ĵ(yĴln一种大号Ĵ+ (1 − yĴ)ln(1 − a大号Ĵ))C=-1个ñ∑X∑Ĵ(ÿĴln⁡一种Ĵ大号+(1个-ÿĴ)ln⁡(1个-一种Ĵ大号))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j + (1-y_j) \ln (1 - a^L_j)) 但是,阅读Tensorflow简介后,交叉熵损失定义为: C= - 1ñ∑X∑Ĵ(yĴln一种大号Ĵ)C=-1个ñ∑X∑Ĵ(ÿĴln⁡一种Ĵ大号)C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j)(使用与上面相同的符号时) 然后四处搜寻以查找发生了什么事情,我发现了另一组注释:(https://cs231n.github.io/linear-classify/#softmax-classifier),它使用了完全不同的交叉熵损失定义,尽管这时间用于softmax分类器,而不是神经网络。 有人可以告诉我这是怎么回事吗?为什么会有差异。人们将交叉熵损失定义为什么?是否有一些总体原则?

3
神经网络的编码日期/时间(循环数据)
如何为神经网络编码事件的日期和时间? 我没有连续的时间序列,但是有一些带有日期和时间的事件,并且我分析了一些兴趣。这种兴趣在早晨和晚上之间有所不同,在工作日之间,夏季和冬季之间以及圣诞节和复活节之前等等也有所不同。而且事件本身在时间上有很强的不均匀分布(白天多于晚上,一周中有更多种类,周末中有更多种类)。 我尝试将其编码为年中的“周数”,“工作日1-7”和“小时”。但是,使用稀疏的自动编码器给我的印象是,我的数据对神经网络没有任何意义,即使具有很大的隐藏层,它也无法在输入附近重现任何内容。既不是分类0-1,也不是归一化值。 但是,为神经网络搜索时间编码通常会提供有关时间序列的信息,因此我被森林蒙住了双眼,但却在寻找树。 当然,我可以查看数据并将其大致视情况归类。但是深度学习的概念似乎席卷了所有手工制作的手工特征提取。并且分类将在自然连续的输入变量中插入较大的跳跃。 我大脑中的“自然编码”更像是“夜”,“早晨”,“工作日”等某些类别的模糊成员。 为了使整个事情更有趣,dependend变量还包含那些日期/时间数据,但这是一个不同的问题。 编辑:与循环数据有关的某种方式是一些最近的问题,例如 使用该时段的数据集,哪些统计检验合理?


1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …

3
将神经网络数学建模为图形模型
我正在努力在神经网络和图形模型之间建立数学联系。 在图形模型中,这个想法很简单:概率分布根据图中的派系分解,势通常为指数族。 神经网络是否有等效的推理?能否用受限的玻尔兹曼机或CNN表示单位(变量)上单位(变量)随其能量或单位之间能量乘积的概率分布? 另外,概率分布是否由指数族的RBM或深度信仰网络(例如带有CNN)建模? 我希望找到一种文本,这些文本以约旦和温赖特(Jordan&Wainwright)的图形模型,图形族,指数族和变分推论对图形模型所做的相同方式,来形式化这些现代神经网络和统计之间的联系。任何指针都很棒。

2
ML中的softmax函数与热力学中的玻耳兹曼分布之间的联系有多深?
softmax函数通常在神经网络中用于将实数转换为概率,它与Boltzmann分布(在热力学中在给定温度T时,在整个能量平衡中,处于热平衡状态的粒子的概率分布)具有相同的函数。 我可以看到一些明显的启发性原因,这是可行的: 无论输入值是否为负,softmax都会输出正值,总和为1。 它总是可区分的,对于反向传播很方便。 它具有一个“温度”参数,用于控制网络对较小值的宽容度(当T很大时,所有结果均可能发生,当T很小时,仅选择输入最大的值)。 出于实际原因,玻尔兹曼函数是否仅用作softmax,还是与热力学/统计物理学有更深的联系?

2
在CNN中选择过滤器大小,步幅等?
我一直在看斯坦福大学的CS231N讲座,我正在努力解决CNN架构中的一些问题。我要了解的是,是否存在一些用于选择卷积滤波器大小和步幅之类的通用准则,或者这是一门艺术而非一门科学? 据我了解,合并的存在主要是为了将某种形式的翻译不变性引入模型中。另一方面,我对如何选择步幅没有很好的直觉。除了试图压缩当前的层大小或试图为神经元获得更大的接受野外,还有其他指导方针吗?任何人都知道讨论此问题的好论文或类似文章吗?

3
卷积神经网络中最终Softmax层之前的非线性
我正在研究并尝试实现卷积神经网络,但是我想这个问题通常适用于多层感知器。 我网络中的输出神经元代表每个类别的激活:最活跃的神经元对应于给定输入的预测类别。为了考虑训练的交叉熵成本,我在网络的末端添加了softmax层,以便将每个神经元的激活值解释为概率值。 我的问题是:输出层中的神经元是否应该对输入应用非线性函数?我的直觉是没有必要: 如果第一世一世i个输出神经元的输入是向量(来自上一层)与该神经元权重之间的点积, X θ 我XŤθ一世XŤθ一世x^T\theta_iXXxθ一世θ一世\theta_i 如果我采用单调非线性函数(如S型或ReLU) 那么较大的激活输出仍将对应于最大,因此从这个角度来看,非线性函数不会改变预测。XŤθ一世XŤθ一世x^T\theta_i 这种解释有问题吗?我是否忽略了一些训练因素,这些因素使输出非线性成为必要? 如果我是对的,那么如果不是使用Sigmoid函数而是使用ReLU函数(不是严格单调的函数,会发生什么变化吗?最大值(0 ,XŤθ一世)最大值(0,XŤθ一世)\max(0,x^T\theta_i) 编辑 关于Karel的答案,其答案主要是“取决于”,这是对我的网络和疑问的更详细描述: 假设我有N个隐藏层,而我的输出层只是代表类的一组神经元上的softmax层(所以我的预期输出是输入数据属于每个类的概率)。假设第一个N-1层具有非线性神经元,那么在第N个隐藏层中使用非线性与线性神经元有什么区别?


4
神经网络用于多重输出回归
我有一个包含34个输入列和8个输出列的数据集。解决问题的一种方法是采用34个输入并为每个输出列建立单独的回归模型。我想知道是否可以仅使用一种模型(特别是使用神经网络)解决该问题。 我使用了多层感知器,但是像线性回归一样需要多个模型。顺序学习1可以可行吗?我尝试使用TensorFlow,它似乎无法处理浮点值。 任何通过仅使用一个统一模型(特别是使用神经网络)解决该问题的建议将不胜感激。 Ilya Sutskever,Oriol Vinyals和Quoc V.Le(2014)。使用神经网络进行序列学习。神经信息处理系统进展,27。(pdf)


1
损失函数的二阶近似(深度学习书,7.33)
在Goodfellow(2016)的一本关于深度学习的书中,他谈到了尽早停止与L2正则化的等效性(https://www.deeplearningbook.org/contents/regularization.html第247页)。 成本函数二次逼近由下式给出:jjj J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) 其中是Hessian矩阵(方程7.33)。这是缺少中期吗?泰勒展开应该是: HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2

2
为什么CNN以FC层结尾?
据我了解,CNN由两部分组成。第一部分(转换/池层)进行特征提取,第二部分(fc层)对特征进行分类。 由于完全连接的神经网络不是最佳分类器(即,大多数情况下它们的性能优于SVM和RF),因此CNN为什么以FC层作为结束,而不是说SVM或RF?

3
卷积神经网络尺度敏感性
举个例子,假设我们基于一个人的照片建立一个年龄估计器。下面我们有两个穿着西装的人,但第一个显然比第二个年轻。 (来源:tinytux.com) 有很多功能可以暗示这一点,例如面部结构。但是,最有说服力的功能是头部大小与身体大小的比率: (来源:wikimedia.org) 因此,假设我们已经训练了CNN回归来预测人的年龄。在我尝试过的许多年龄预测因素中,孩子的上述图像似乎使预测愚弄了他们以为他长大了,这是由于衣服的原因,并且可能是因为他们主要依靠面部: 我想知道香草CNN架构能很好地推断出头部与躯干的比例吗? 与能够在身体和头部上装上边界框的区域RCNN相比,香草CNN会始终表现得更差吗? 就在原始CNN全局变平之前(即在所有卷积之后),每个输出都有一个对应的接收场,应该具有规模感。我知道,更快的RCNN正是在此阶段通过提出边界框建议来利用这一点,以便所有先前的卷积滤波器自动训练到所有比例。 那么,我认为香草CNN应该能够推断出头部与躯干尺寸的比例?这是正确的吗?如果是这样,使用更快的RCNN框架来利用可能已经在检测人员方面接受过预训练的事实的唯一好处是吗?

3
如何对空间中的任意点实施L2正则化?
这是我在伊恩·古德费洛(Ian Goodfellow)的《深度学习》一书中读到的。 在神经网络的上下文中,“ L2参数范数罚则通常称为权重衰减。这种正则化策略使权重更接近原点。更普遍地,我们可以将参数正则化为任何特定点附近在空间中”,但更常见的是将模型参数调整为零。(深度学习,Goodfellow等。) 我只是好奇。我了解到,只需在成本函数中添加一个正则项,并通过使总成本最小化,就可以影响模型的参数以使其保持较小:JJJ J(Θ,X,y)=L(Θ,X,y)+λ||w||22J(Θ,X,y)=L(Θ,X,y)+λ||w||22J(\boldsymbol{\Theta}, \boldsymbol{X}, \boldsymbol{y}) = L(\boldsymbol{\Theta}, \boldsymbol{X}, \boldsymbol{y}) + \lambda||\boldsymbol{w}||_{2}^{2} 但是,如何实现该正则化策略的一种版本,该版本会将参数引向任意点?(例如,我们希望规范趋向于5)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.