Questions tagged «neural-networks»

人工神经网络(ANN)是一类广泛的基于生物神经网络的计算模型。它们包括前馈NN(包括“深度” NN),卷积NN,递归NN等。

4
文本挖掘:如何通过人工智能将文本(例如新闻文章)聚类?
我为不同的任务建立了一些神经网络(MLP(完全连接),Elman(递归)),例如打Pong,对手写数字和东西进行分类... 另外,我尝试建立一些第一个卷积神经网络,例如用于对多位数的手写笔记进行分类,但是我是全新的分析和聚类文本的人,例如在图像识别/聚类任务中,人们可以依靠标准化输入,例如25x25大小的图像, RGB或灰度等...有很多预设定功能。 对于文本挖掘(例如新闻报道),您需要不断变化的输入大小(不同的单词,不同的句子,不同的文本长度等)。 如何利用人工智能(最好是神经网络/ SOM)实现一种现代的文本挖掘工具? 不幸的是,我无法找到简单的入门教程。复杂的科学论文难以阅读,也不是学习主题的最佳选择(就我个人而言)。我已经阅读了很多有关MLP,辍学技术,卷积神经网络等的论文,但是我找不到关于文本挖掘的基础文章-对于我非常有限的文本挖掘技能来说,我发现的水平太高了。

4
什么是人工神经网络?
深入研究神经网络文献时,我们发现了具有神经形态拓扑结构的其他方法(“神经网络”架构)。而且我并不是在说通用逼近定理。示例如下。 然后,让我感到奇怪的是:人工神经网络的定义是什么?它的拓扑似乎涵盖了所有内容。 例子: 我们做出的第一个标识是在PCA和线性自动编码器之间,编码器和解码器具有约束权重,而瓶颈层则具有阈值激活。 此外,在线性模型(特殊情况下为逻辑回归)和没有隐藏层且只有一个输出层的神经网络之间进行了通用标识。此标识打开了几扇门。 傅里叶和泰勒级数?人工神经网络。SVM?人工神经网络。高斯过程?ANN(具有无限隐藏单元的单个隐藏层)。 因此,同样容易地,我们可以将具有这些算法的专门损失函数的任意正则化版本合并到神经网络框架中。 但是,我们挖掘的越多,相似之处就越多。我只是偶然发现了深度神经决策树,该树通过决策树来识别特定的ANN架构,并允许通过ANN方法(例如Gradient Descent反向传播)来学习这些决策树。由此,我们可以仅从神经网络拓扑结构构建随机森林和梯度增强决策树。 如果一切都可以表示为人工神经网络,那么什么定义了人工神经网络呢?

2
神经网络与其他一切
我没有从google找到满意的答案。 当然,如果我拥有的数据量达到数百万,那么深度学习就是一种方法。 我已经读到,当我没有大数据时,也许最好在机器学习中使用其他方法。给出的原因是过度拟合。机器学习:即查看数据,特征提取,从收集的内容中构建新特征等。例如删除高度相关的变量等。整个机器学习9码。 我一直想知道:为什么具有一层隐藏层的神经网络不是解决机器学习问题的灵丹妙药?它们是通用估计器,可以通过辍学,l2正则化,l1正则化,批归一化来管理过度拟合。如果我们只有50,000个培训示例,那么培训速度通常不会成为问题。在测试时,它们比随机森林要好。 那么为什么不呢?-像通常那样清理数据,估算缺失值,将数据居中,标准化数据,将其扔到具有一个隐藏层的神经网络集合中并应用正则化,直到看不到过度拟合为止,然后进行训练他们到最后。梯度爆炸或梯度消失是没有问题的,因为它只是2层网络。如果需要较深的层,则意味着要学习分层功能,然后其他机器学习算法也不好。例如,SVM是仅具有铰链损耗的神经网络。 一个示例,其中其他一些机器学习算法的性能将超过经过精心调整的2层(也许是3?)神经网络。您可以给我链接到问题,然后我将训练最好的神经网络,我们可以看到2层或3层神经网络是否低于其他任何基准机器学习算法。

2
为什么对时间序列的这种预测“非常糟糕”?
我正在尝试学习如何使用神经网络。我正在阅读本教程。 使用时间的值拟合神经网络以预测时间的值后,作者获得以下曲线图,其中蓝线是时间序列,绿色是对火车数据的预测,红色是对测试数据进行预测(他使用了测试序列拆分)ŤŤtt + 1Ť+1个t+1 并将其称为“我们可以看到该模型在拟合训练数据和测试数据集方面做得很差。它基本上预测出与输出相同的输入值。” 然后,作者决定使用,和来预测处的值。这样做获得ŤŤtt − 1Ť-1个t-1t − 2Ť-2t-2t + 1Ť+1个t+1 并说:“看图表,我们可以在预测中看到更多的结构。” 我的问题 为什么第一个“可怜”?在我看来,它几乎是完美的,它可以完美地预测每个变化! 同样,为什么第二个更好?“结构”在哪里?在我看来,这比第一个要差得多。 通常,对时间序列的预测什么时候好,什么时候不好?


1
(最小)批量梯度中梯度的总和或平均值是否合适?
当我实现了迷你批次梯度样例时,我只是对训练批次中所有示例的梯度进行平均。但是,我注意到,现在的最佳学习率远远高于在线梯度样例。我的直觉是,这是因为平均梯度噪声较小,因此可以更快地遵循。因此,也许仅仅总结一批的梯度也是有意义的。无论如何,这些值可以为正也可以为负。 我知道这只是一个恒定因素,可以使用学习率来平衡。但是我不知道科学家们同意哪个定义,以便我可以从神经网络论文中复制结果。 通常是否将批次的总梯度除以批次大小?

4
卷积神经网络需要多少数据?
如果我有一个卷积神经网络(CNN),它具有大约1000000个参数,则需要多少训练数据(假设我正在进行随机梯度下降)?有什么经验法则吗? 附加说明:当我执行随机梯度下降(例如,1次迭代使用64个色块)时,在〜10000次迭代之后,分类器的精度可以达到大致的稳定值)。这是否意味着不需要太多数据?就像100k-1000k的数据一样。

1
为什么单个ReLU无法学习ReLU?
作为我神经网络甚至无法学习欧几里德距离的后续操作,我进一步简化了方法,并尝试将单个ReLU(具有随机权重)训练为单个ReLU。这是目前最简单的网络,但有一半时间未能融合。 如果初始猜测与目标的方位相同,则它会快速学习并收敛到正确的权重1: 如果最初的猜测是“向后”,则它的权重为零,并且永远不会经过它到达较低损失的区域: 我不明白为什么。梯度下降不应该轻易遵循损耗曲线达到全局最小值吗? 示例代码: from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense, ReLU from tensorflow import keras import numpy as np import matplotlib.pyplot as plt batch = 1000 def tests(): while True: test = np.random.randn(batch) # Generate ReLU test case X = test Y = test.copy() Y[Y < 0] …

2
如何在神经网络的批量学习方法中更新权重?
有人可以告诉我如何使用批处理方法构建神经网络吗? 我已经读到,在批处理模式下,对于训练集中的所有样本,我们计算网络中每个神经元的误差,增量和增量权重,然后而不是立即更新权重,而是对其进行累加,然后再开始在下一个时期,我们将更新权重。 我还在某处读到,批处理方法类似于在线方法,但区别在于,只需要对训练集中所有样本的误差求和,然后取其平均值,然后像更新权重一样使用它即可像这样在在线方法中做(差异只是那个平均值): for epoch=1 to numberOfEpochs for all i samples in training set calculate the errors in output layer SumOfErrors += (d[i] - y[i]) end errorAvg = SumOfErrors / number of Samples in training set now update the output layer with this error update all other previous layers go …


6
为什么我们在训练神经网络时需要洗牌?
在神经网络的小批量训练中,我听说一种重要的做法是在每个时期之前对训练数据进行洗牌。有人可以解释为什么每个时期的改组都有帮助吗? 从Google搜索中,我找到了以下答案: 它有助于培训快速收敛 它可以防止训练期间出现任何偏见 它阻止模型学习训练的顺序 但是,我很难理解为什么这些影响都是由随机改组引起的。有人可以提供直观的解释吗?

1
为什么为深度学习的Adam优化器包括偏差校正项很重要?
我正在阅读有关深度学习的Adam优化器的内容,并在Begnio,Goodfellow和Courtville撰写的新书Deep Learning中遇到了以下句子: 亚当包括对一阶矩(动量项)和(无心)二阶矩的估计值的偏差校正,以说明它们在原点处的初始化。 似乎包含这些偏差校正项的主要原因是,它以某种方式消除了和的初始化偏差。米Ť= 0mt=0m_t = 0vŤ= 0vt=0v_t = 0 我不是100%知道这是什么意思,但在我看来,这很可能意味着第一和第二时刻从零开始,并以某种方式从零开始倾斜,以不公平(或有用)的方式使值接近零。 ? 虽然我很想知道这意味着什么,以及它如何损害学习。特别是,在优化方面,不偏向优化器有哪些优势? 这如何帮助训练深度学习模型? 另外,无偏见是什么意思?我很熟悉无偏标准偏差的含义,但是我不清楚在这种情况下这意味着什么。 偏差校正真的很重要吗?还是亚当优化器论文过度夸大了它? 就是这样,人们知道我已经非常努力地理解原始论文,但是我从阅读和重新阅读原始论文中受益匪浅。我认为其中一些问题可能会在此处得到解答,但我似乎无法解析答案。

1
维数诅咒对某些模型的影响是否大于对其他模型的影响?
我一直在阅读的有关维数诅咒的地方主要结合kNN和线性模型对其进行解释。我经常在Kaggle中看到排名靠前的排名,这些排名使用了数据集上几乎没有100k数据点的数千个功能。他们主要使用Boosted树和NN等。许多功能似乎太高了,我觉得它们会受到尺寸诅咒的影响。但是事实并非如此,因为这些模型使它们成为了竞争中的佼佼者。因此,回到我最初的问题-某些模型受维度诅咒的影响大于其他模型吗? 具体来说,我对以下模型感兴趣(仅因为这些是我知道/使用的模型): 线性和逻辑回归 决策树/随机森林/加强树 神经网络 支持向量机 神经网络 k均值聚类


2
神经网络在权宜之计上是否存在卷积的数学原因?
在卷积神经网络(CNN)中,在进行卷积之前,每一步的权重矩阵都需要翻转其行和列以获得内核矩阵。Hugo Larochelle 在以下一系列视频中对此进行了解释: daccess-ods.un.org daccess-ods.un.org计算隐藏映射将对应于使用内核矩阵对来自上一层的信道进行离散卷积,并且该内核是根据隐藏权重矩阵WijWijW_{ij},我们在其中翻转行和列。 如果像其他类型的NN一样将卷积的减少步长与常规矩阵乘法进行比较,权宜之计将是一个明确的解释。但是,这可能不是最相关的比较... 在数字成像处理中,将滤镜卷积到图像上(对于实际直觉来说这是一个很棒的youtube视频)似乎与以下内容有关: 该事实卷积是缔合而(交叉)的相关是没有的。 由于时域中的卷积等效于频域中的乘法(卷积定理),因此可以在图像的频域中将滤波器作为乘法应用。 在这种特定的技术环境中,DSP 相关定义为: F∘I(x,y)=∑j=−NN∑i=−NNF(i,j)I(x+i,y+j)F∘I(x,y)=∑j=−NN∑i=−NNF(i,j)I(x+i,y+j)F\circ I(x,y)=\sum_{j=-N}^{N}\sum_{i=-N}^N\, F(i,j)\,I(x+i, y+j) 这实际上是Hadamard乘积中所有单元的总和: F∘I(x,y)=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢F[−N,−N]I[x−N,y−N]⋮F[0,−N]I[x,y−N]⋮F[N,−N]I[x+N,y−N]⋯⋱⋯⋱⋯F[−N,0]I[x−N,y−N]⋮F[0,0]I[x,y]⋮F[N,0]I[x+N,y]⋯⋱⋯⋱⋯F[−N,N]I[x−N,y+N]⋮F[0,N]I[x,y+N]⋮F[N,N]I[x+N,y+N]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥F∘I(x,y)=[F[−N,−N]I[x−N,y−N]⋯F[−N,0]I[x−N,y−N]⋯F[−N,N]I[x−N,y+N]⋮⋱⋮⋱⋮F[0,−N]I[x,y−N]⋯F[0,0]I[x,y]⋯F[0,N]I[x,y+N]⋮⋱⋮⋱⋮F[N,−N]I[x+N,y−N]⋯F[N,0]I[x+N,y]⋯F[N,N]I[x+N,y+N]]\small F\circ I(x,y)=\Tiny\begin{bmatrix}F[-N,-N]\,I[x-N,y-N]&\cdots&F[-N,0]\,I[x-N,y-N]&\cdots& F[-N,N]\,I[x-N,y+N]\\ \vdots&\ddots&\vdots&\ddots&\vdots\\ F[0,-N]\,I[x,y-N]&\cdots&F[0,0]\,I[x,y]&\cdots& F[0,N]\,I[x,y+N]\\ \vdots&\ddots&\vdots&\ddots&\vdots\\ F[N,-N]\,I[x+N,y-N]&\cdots&F[N,0]\,I[x+N,y]&\cdots& F[N,N]\,I[x+N,y+N]\\ \end{bmatrix} 其中是一个滤波函数(表示为矩阵),而I (x ,y )是位置(x ,y )上图像的像素值:F(i,j)F(i,j)F(i,j)I(x,y)I(x,y)I(x,y)(x,y)(x,y)(x,y) 互相关的目的是评估探针图像与测试图像的相似程度。互相关图的计算依赖于卷积定理。 另一方面,卷积定义为: F∗I(x,y)=∑j=−NN∑i=−NNF(i,j)I(x−i,y−j)F∗I(x,y)=∑j=−NN∑i=−NNF(i,j)I(x−i,y−j)F* I(x,y)=\sum_{j=-N}^{N}\sum_{i=-N}^N\, F(i,j)\,I(x-i, y-j) 只要过滤器是对称的,就与过滤器的行和列翻转的相关操作相同: F∗I(x,y)=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢F[N,N]I[x−N,y−N]⋮F[0,N]I[x,y−N]⋮F[−N,−N]I[x+N,y−N]⋯⋱⋯⋱⋯F[N,0]I[x−N,y−N]⋮F[0,0]I[x,y]⋮F[−N,0]I[x+N,y]⋯⋱⋯⋱⋯F[N,−N]I[x−N,y+N]⋮F[0,−N]I[x,y+N]⋮F[−N,−N]I[x+N,y+N]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥F∗I(x,y)=[F[N,N]I[x−N,y−N]⋯F[N,0]I[x−N,y−N]⋯F[N,−N]I[x−N,y+N]⋮⋱⋮⋱⋮F[0,N]I[x,y−N]⋯F[0,0]I[x,y]⋯F[0,−N]I[x,y+N]⋮⋱⋮⋱⋮F[−N,−N]I[x+N,y−N]⋯F[−N,0]I[x+N,y]⋯F[−N,−N]I[x+N,y+N]]\small F* I(x,y)=\Tiny\begin{bmatrix}F[N,N]\,I[x-N,y-N]&\cdots&F[N,0]\,I[x-N,y-N]&\cdots& F[N,-N]\,I[x-N,y+N]\\ \vdots&\ddots&\vdots&\ddots&\vdots\\ F[0,N]\,I[x,y-N]&\cdots&F[0,0]\,I[x,y]&\cdots& F[0,-N]\,I[x,y+N]\\ \vdots&\ddots&\vdots&\ddots&\vdots\\ F[-N,-N]\,I[x+N,y-N]&\cdots&F[-N,0]\,I[x+N,y]&\cdots& F[-N,-N]\,I[x+N,y+N]\\ …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.