Questions tagged «neural-networks»

人工神经网络(ANN)是一类广泛的基于生物神经网络的计算模型。它们包括前馈NN(包括“深度” NN),卷积NN,递归NN等。

4
Conv1D和Conv2D有什么区别?
我正在研究keras卷积文档,发现了两种类型的卷积Conv1D和Conv2D。我做了一些网页搜索,这就是我对Conv1D和Conv2D的了解;Conv1D用于序列,Conv2D用于图像。 我一直以为卷积神经网络仅以这种方式用于图像和可视化的CNN 图像被认为是一个大矩阵,然后滤镜将在该矩阵上滑动并计算点积。我相信keras所说的是Conv2D。如果Conv2D以这种方式工作,那么Conv1D的机制是什么,我们如何想象其机制?

3
神经网络的标志性(玩具)模型
我的研究生物理学教授以及诺贝尔奖获得者费曼(Feynman)总是会提出他们所谓的玩具模型,以说明物理学的基本概念和方法,例如谐波振荡器,摆锤,陀螺和黑匣子。 什么样的玩具模型用来说明神经网络应用的基本概念和方法?(请参考。) 所谓玩具模型,是指一种特别简单,尺寸最小的网络,该网络适用于高度受限的问题,通过该网络可以介绍基本方法,并可以通过实际实现来测试和理解自己的理解,即构造基本代码,并且最好在一定程度上执行/手动检查基本数学或在符号数学应用程序的辅助下进行检查。

3
是什么使神经网络成为非线性分类模型?
我正在尝试了解非线性分类模型的数学含义: 我刚刚读了一篇文章,谈论神经网络是一种非线性分类模型。 但是我才意识到: 第一层: h1=x1∗wx1h1+x2∗wx1h2h1=x1∗wx1h1+x2∗wx1h2h_1=x_1∗w_{x1h1}+x_2∗w_{x1h2} h2=x1∗wx2h1+x2∗wx2h2h2=x1∗wx2h1+x2∗wx2h2h_2=x_1∗w_{x2h1}+x_2∗w_{x2h2} 后续层 y=b∗wby+h1∗wh1y+h2∗wh2yy=b∗wby+h1∗wh1y+h2∗wh2yy=b∗w_{by}+h_1∗w_{h1y}+h_2∗w_{h2y} 可以简化为 =b'+(x1∗wx1h1+x2∗wx1h2)∗wh1y+(x1∗wx2h1+x2∗wx2h2)∗wh2y=b′+(x1∗wx1h1+x2∗wx1h2)∗wh1y+(x1∗wx2h1+x2∗wx2h2)∗wh2y=b′+(x_1∗w_{x1h1}+x_2∗w_{x1h2})∗w_{h1y}+(x_1∗w_{x2h1}+x_2∗w_{x2h2})∗w_{h2y} =b'+x1(wh1y∗wx1h1+wx2h1∗wh2y)+x2(wh1y∗wx1h1+wx2h2∗wh2y)=b′+x1(wh1y∗wx1h1+wx2h1∗wh2y)+x2(wh1y∗wx1h1+wx2h2∗wh2y)=b′+x_1(w_{h1y}∗w_{x1h1}+w_{x2h1}∗w_{h2y})+x_2(w_{h1y}∗w_{x1h1}+w_{x2h2}∗w_{h2y}) 两层神经网络只是简单的线性回归 =b′+x1∗W′1+x2∗W′2=b′+x1∗W1′+x2∗W2′=b^′+x_1∗W_1^′+x_2∗W_2^′ 这可以显示在任意数量的层上,因为任意数量的权重的线性组合还是线性的。 是什么使神经网络真正成为非线性分类模型? 激活函数将如何影响模型的非线性? 你能解释一下吗?


3
批量大小如何影响SGD的收敛,为什么?
我在许多讨论中都得出了类似的结论,即随着小批量生产的规模变大,SGD的收敛实际上变得越来越困难,例如本文和这个答案。我也听说有人在早期使用小学习率或批量大小之类的技巧来解决大批量问题。 但是,这似乎是违反直觉的,因为小批量的平均损失可以认为是数据分布上预期损失的近似值 1个| X|∑X ∈ Xl (x ,w )≈ ÈX 〜 pd一个牛逼一[ l (x ,w )]1个|X|∑X∈X升(X,w)≈ËX〜pd一种Ť一种[升(X,w)]\frac{1}{|X|}\sum_{x\in X} l(x,w)\approx E_{x\sim p_{data}}[l(x,w)] 较大的批量大小的更准确它应该是。为什么实际上不是这样? 以下是我的一些想法(可能是错误的),试图加以解释。 模型的参数彼此高度依赖,当批处理变得太大时,它会同时影响太多的参数,以至于参数很难达到稳定的固有依赖性?(如批处理规范化文件中提到的内部协变量偏移问题) 还是当几乎所有参数都在每次迭代中负责时,它们将倾向于学习冗余的隐式模式,从而降低了模型的容量?(我的意思是说,对于数字分类问题,某些图案应负责点,某些图案应负责边缘,但是当发生这种情况时,每个图案都应负责所有形状)。 还是因为当批的大小接近训练集的规模时,由于相关小批的可能性很大,所以小批不再从数据分布中被视为同小异? 更新 正如Benoit Sanchez的答案所指出的,一个重要的原因是大型微型批次需要更多的计算才能完成一次更新,并且大多数分析都使用固定数量的训练时期进行比较。 但是,这篇论文(Wilson和Martinez,2003年)表明,即使有足够的训练时间,较大的批次规模仍然略有不利。通常是这样吗?

2
是否应在不进行替代的情况下抽取随机抽取的用于小批量训练神经网络的训练样本?
我们定义一个时期为已经遍历所有可用训练样本的全部,而最小批量大小则是我们求平均值以找到下降梯度所需的权重/偏差的样本数。 我的问题是,我们是否应该从训练示例集中取而代之,以便在一个时期内生成每个小批量生产。我觉得我们应该避免替换,以确保我们实际上“抽取了所有样本”以满足时代的要求,但是很难以一种或另一种方式找到确定的答案。 我已经尝试使用Google搜索和阅读Ch。Nielsen的《神经网络与深度学习》中的 1种,但没有找到明确的答案。在该文本中,尼尔森(Nielsen)没有指定随机抽样而不进行替换,而是暗示这样做。 如果需要,可以在这里找到更清晰的正式培训形式-https: //stats.stackexchange.com/a/141265/131630 编辑:这个问题似乎与我相似,但目前尚不清楚如何将期望的线性对独立性无视的事实应用于这种情况- 是否应在有或没有替代的情况下进行抽样


1
测验:通过分类边界告诉分类器
给出以下6个决策边界。决策边界是紫罗兰色线。点和十字是两个不同的数据集。我们必须确定哪个是: 线性支持向量机 内核化SVM(2阶多项式内核) 感知器 逻辑回归 神经网络(1个隐藏层和10个整流线性单元) 神经网络(1个隐藏层,具有10 tanh单位) 我想要解决方案。但更重要的是,了解差异。例如,我会说c)是线性SVM。决策边界是线性的。但是我们也可以使线性SVM决策边界的坐标均匀化。d)核化的SVM,因为它是多项式阶数2。f)由于“粗糙”的边缘,因此校正了神经网络。也许a)逻辑回归:它也是线性分类器,但基于概率。


2
对Echo State Networks的直观解释是什么?
我是递归神经网络(RNN)的新手,并且仍在学习概念。我从抽象的角度理解,回声状态网络(ESN)能够(重新)产生,即使在删除输入后输入序列,即信号。但是,我发现Scholarpedia文章太难于完全理解和理解。 有人可以以最简单的形式解释学习的数学原理。

1
R平方值适合比较模型吗?
我正在尝试使用汽车分类广告站点上提供的价格和功能来确定预测汽车价格的最佳模型。 为此,我使用了scikit-learn库中的几个模型以及pybrain和Neurolab中的神经网络模型。到目前为止,我使用的方法是通过某些模型(机器学习算法)运行固定数量的数据,并在那里比较使用scikit-learn度量模块计算的值。R2R2R^2 是的好方法,来比较不同车型的性能?R2R2R^2 尽管我对诸如弹性网和随机森林之类的模型获得了令人满意的结果,但对于神经网络模型却获得了非常差的值,那么是评估神经网络的合适方法(或非线性方法)?R2R2R^2R2R2R^2

4
神经网络中的“自由度”是什么意思?
在Bishop的书《模式分类和机器学习》中,它描述了一种在神经网络环境下进行正则化的技术。但是,我不理解一段描述训练过程中自由度的数量随模型复杂性而增加的段落。相关报价如下: 作为控制网络有效复杂性的一种方式,使用正规化的另一种方法是早期停止的过程。非线性网络模型的训练对应于针对一组训练数据定义的误差函数的迭代减少。对于用于网络训练的许多优化算法(例如共轭梯度),误差是迭代索引的非递增函数。但是,相对于独立数据测得的误差(通常称为验证集)通常首先显示出减小的趋势,然后随着网络开始过度拟合而增大。因此,可以相对于验证数据集在最小错误点停止训练,如图5.12所示,以便获得具有良好泛化性能的网络。在这种情况下,有时会根据网络中的有效自由度来对网络的行为进行定性解释,其中,该自由度从小开始,然后在训练过程中逐渐增加,这与有效自由度的稳定增长相对应。模型的复杂性。 它还说,参数的数量在训练过程中会增加。我假设通过“参数”来指代网络隐藏单元控制的权重数。也许我错了,因为通过正则化过程可以防止权重的大小增加,但是权重不会改变。难道是指找到大量隐藏单位的过程? 神经网络的自由度是多少?训练期间增加哪些参数?

2
使用神经网络进行证券交易
我进入了神经网络领域,并被它们所吸引。 我终于开发出了一个用于在证券交易所测试交易系统的应用程序框架,现在我将在其中实现我的第一个神经网络。非常简单原始的一种,不适合真正的交易,仅适合初学者。 我只想知道我的方法是否是好的方法。 而且,如果您发现我遗漏了某些东西(或者我在某些方面错了),或者您对在市场交易的神经网络领域的初学者有什么帮助的想法,那将令我非常高兴:) 我有40个来自证券交易所的市值输入(S&P e-mini,但这并不重要)。 对于这40个输入,我知道2个数字。 购买订单会赚多少钱 我卖出一张订单会赚多少钱 由于证券交易所的运作方式,两个数字实际上都可能为负/正,表示我可以通过买卖来赚钱/赚钱(这是因为交易可以附加“亏损限制”或“目标”订单,如止损,限价等等)。 但是,如果发生这种情况,则表明即使买入和卖出两个订单均给出正数,我也都不应下订单。 我想最好用的激活函数是...乙状结肠,但范围是-1到1(我发现它在互联网上被称为很多名字...双极乙状结肠,tanh,切线等...我不是高深的数学家)。 通过反向传播学习,我告诉网络对于40个输入,有1个输出,此输出是这些数字之一。 -1表示卖单要赚钱,买单要亏钱 +1表示买单将要赚钱,卖出将要亏钱 0表示买入和卖出都将卖出/卖出钱,最好避免交易 我在想,学习之后,网络输出将始终是接近-1、1或0的某个数字,这取决于我设定买卖门槛的情况。 这是使用神经网络的正确方法吗? 在互联网上的任何地方,用于学习的人所得到的输出都是反向传播学习机,它是市场图表的未来价值,而不是不同交易条目(买入或卖出)的预期货币收益。我认为这种方法不好,因为我对未来的图表价值不感兴趣,但对我想赚的钱不感兴趣。 编辑:我打算建立一个用于自动交易的神经网络,而不是用于决策帮助。

3
神经网络中样本,时间步长和特征之间的差异
我正在浏览LSTM神经网络上的以下博客:http : //machinelearningmastery.com/understanding-stateful-lstm-recurrent-neural-networks-python-keras/ 作者针对LSTM的不同配置将输入向量X重塑为[样本,时间步长,特征]。 作者写道 实际上,字母序列是一个特征的时间步长,而不是单独特征的一个时间步长。我们为网络提供了更多的上下文,但是没有像预期的那样提供更多的顺序 这是什么意思?

3
为什么我们需要自动编码器?
最近,我一直在研究自动编码器。如果我理解正确,那么自动编码器就是一个神经网络,其中输入层与输出层相同。因此,神经网络尝试使用输入作为黄金标准来预测输出。 此模型的用处是什么?尝试重构某些输出元素,使其尽可能与输入元素相等,会有什么好处?为什么要使用所有这些机器来达到相同的起点?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.