Questions tagged «neural-networks»

人工神经网络(ANN)是一类广泛的基于生物神经网络的计算模型。它们包括前馈NN(包括“深度” NN),卷积NN,递归NN等。

3
神经体系结构:数据通知自动设计
神经网络的最新进展总结为一系列新颖的体系结构,这些体系结构的主要特征是其不断增加的设计复杂性。从LeNet5(1994)到AlexNet(2012),到Overfeat(2013)和GoogleLeNet / Inception(2014)等... 是否有任何尝试让机器根据数据决定/设计要使用的体系结构?

2
在使用截断的反向传播时捕获初始模式(RNN / LSTM)
假设我使用RNN / LSTM进行情感分析,这是一种多对一的方法(请参阅此博客)。通过截断时间反向传播(BPTT)对网络进行训练,在该网络中,像往常一样仅在最后30个步骤中展开网络。 就我而言,我要分类的每个文本节都比展开的30个步骤(〜100个单词)长得多。根据我的知识,BPTT仅对单个文本部分运行一次,这是当BPTT遍历整个文本部分并计算了二进制分类目标,它将与损失函数进行比较以发现错误。yyy 这样就永远不会针对每个文本部分的第一个单词计算梯度。然后,RNN / LSTM如何仍然调整其权重以捕获仅在前几个单词内出现的特定模式?例如,假设所有标记为句子均以“我爱这个” 开头,所有标记为句子均以“我讨厌这个”开头。当RNN / LSTM到达100步长序列的末尾时,它仅在最后30步才展开时,将如何捕获呢?positivepositivepositivenegativenegativenegative

1
人们为什么不将更深的RBF或RBF与MLP结合使用?
因此,在查看径向基函数神经网络时,我注意到人们只建议使用1个隐藏层,而对于多层感知器神经网络,则认为多层更好。 鉴于可以用反向传播的版本训练RBF网络,是否有任何原因为什么较深的RBF网络不起作用,或者RBF层不能用作深度MLP网络中的倒数第二层或第一层?(我一直在考虑倒数第二层,因此基本上可以对之前的MLP层学习的功能进行训练)

2
使用贝叶斯神经网络的优点是什么
最近,我阅读了有关贝叶斯神经网络(BNN)[Neal,1992],[Neal,2012]的一些论文,这些论文给出了神经网络中输入和输出之间的概率关系。通过MCMC训练这种神经网络,这与传统的反向传播算法不同。 我的问题是:使用这种神经网络有什么优势?更具体地说,您能否提供一些更适合BNN而非NN的示例?


5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
如何将神经网络应用于多标签分类问题?
描述: 让问题域为文档分类,其中存在一组特征向量,每个特征向量属于一个或多个类。例如,文档doc_1可能属于Sports和English类别。 题: 使用神经网络进行分类,特征向量的标签是什么?它是构成所有类的向量,以便对不相关的类赋予0值,对相关的类赋予1值吗?因此,如果类标签的列表为[Sports, News, Action, English, Japanese],那么对于文档doc_1,标签将为[1, 0, 0, 1, 0]?

2
将机器学习应用于DDoS过滤
在斯坦福大学的机器学习课程中, Andrew Ng提到了将ML应用于IT。一段时间后,当我在站点上获得中等大小的DDoS(大约2万个bot)时,我决定使用简单的神经网络分类器与之抗衡。 我已经在大约30分钟的时间内编写了这个python脚本:https : //github.com/SaveTheRbtz/junk/tree/master/neural_networks_vs_ddos 它采用pyBrain,并采取3个nginx的日志作为输入,其中两个来训练神经网络: 很好的查询 与坏人 和一个日志进行分类 来自错误的查询 0.0.0.0 - - [20/Dec/2011:20:00:08 +0400] "POST /forum/index.php HTTP/1.1" 503 107 "http://www.mozilla-europe.org/" "-" ...好的... 0.0.0.0 - - [20/Dec/2011:15:00:03 +0400] "GET /forum/rss.php?topic=347425 HTTP/1.0" 200 1685 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; pl; rv:1.9) Gecko/2008052906 Firefox/3.0" ...它构造了一个字典: ['__UA___OS_U', '__UA_EMPTY', '__REQ___METHOD_POST', '__REQ___HTTP_VER_HTTP/1.0', …

2
为什么0-1损失函数很难处理?
在伊恩·古德费洛(Ian Goodfellow)的深度学习书中,写道 有时,我们实际上关心的损失函数(例如分类错误)并不是可以有效优化的函数。例如,即使对于线性分类器,精确地将期望的0-1损失最小化通常也是棘手的(输入维度上的指数)。在这种情况下,通常通常会优化替代损失函数,该函数充当代理但具有优势。 为什么0-1损失难以解决,或者在输入维度中它如何指数化?

2
一个人(理论上)可以用比权重更少的训练样本来训练神经网络吗?
首先:我知道,训练神经网络不需要一般数量的样本。它取决于太多的因素,例如任务的复杂性,数据中的噪音等。而且我拥有的培训样本越多,我的人际网络就会越好。 但是我想知道:如果我假设我的任务足够“简单”,那么在理论上可以用比权重更少的训练样本来训练神经网络吗?有人知道这样做的例子吗?还是该网络几乎肯定会表现不佳? 例如,如果我考虑多项式回归,则无法仅在4个数据点上拟合4级多项式(即具有5个自由参数)。考虑我的权重数量作为自由参数的数量,神经网络是否有类似的规则?

3
激励神经网络中的S型输出单元,以和线性非标准化对数概率开始
背景:我正在研究Ian Goodfellow,Yoshua Bengio和Aaron Courville撰写的《深度学习》第6章。在第6.2.2.2节(在此处可以查看 183页的182页中,鼓励使用S形输出。P(y=1|x)P(y=1|x)P(y=1|x) 为了总结一些材料,他们使是应用激活之前的输出神经元,其中是先前隐藏层的输出,是权重的向量,是标量偏差。输入向量表示为(是其函数),输出值表示为,其中是S型函数。该书希望使用值定义的概率分布。从第183页的第二段:z=wTh+bz=wTh+bz = w^Th+bhhhwwwbbbxxxhhhy=ϕ(z)y=ϕ(z)y=\phi(z)ϕϕ\phiyyyzzz 我们暂时忽略对的依赖,以讨论如何使用值定义的概率分布。可以通过构造未归一化的概率分布来激发S形,该概率分布之和不等于1。然后,我们可以除以适当的常数以获得有效的概率分布。如果我们假设未归一化的对数概率在和是线性的,则我们可以求幂以获得未归一化的概率。然后,我们进行标准化处理,以查看产生的z的S形变换控制的伯努利分布: xxxyyyzzzP~(y)P~(y)\tilde P(y)yyyzzzlogP~(y)P~(y)P(y)P(y)=yz=exp(yz)=exp(yz)∑1y′=0exp(y′z)=ϕ((2y−1)z)log⁡P~(y)=yzP~(y)=exp⁡(yz)P(y)=exp⁡(yz)∑y′=01exp⁡(y′z)P(y)=ϕ((2y−1)z)\begin{align} \log\tilde P(y) &= yz \\ \tilde P(y) &= \exp(yz) \\ P(y) &= \frac{\exp(yz)}{\sum_{y'=0}^1 \exp(y'z) } \\ P(y) &= \phi((2y-1)z) \end{align} 问题:我对两件事感到困惑,尤其是第一件事: 最初的假设来自哪里?为什么未归一化的对数概率在和呈线性关系?有人可以给我一些有关作者如何以开头的观点吗?yyyzzzlogP~(y)=yzlog⁡P~(y)=yz\log\tilde P(y) = yz 最后一行如何?

2
小批量梯度下降如何批量更新每个示例的权重?
如果我们批量处理10个示例,我理解我们可以将每个示例的损失相加,但是反向传播在更新每个示例的权重方面如何工作? 例如: 示例1->损失= 2 示例2->损失= -2 这导致平均损失为0(E = 0),那么这将如何更新每个权重并收敛呢?仅仅是通过批次的随机化,我们“希望”早晚收敛?难道这还不是只为最后处理的示例计算第一组权重的梯度吗?


4
在CNN中,升采样和转置卷积是否相同?
当您进行“反卷积”时,会同时使用“上采样”和“转置卷积”(<-不是一个好术语,但让我在这里使用它)。最初,我以为它们的意思是相同的,但是在我阅读这些文章后,在我看来它们是不同的。有人可以澄清一下吗? 转置卷积:当我们通过卷积神经网络传播损失时,似乎可以使用它。 http://andrew.gibiansky.com/blog/machine-learning/convolutional-neural-networks/#Backward-Propagation https://github.com/vdumoulin/conv_arithmetic https://arxiv.org/pdf/1312.6034v2.pdf,第4节“用于卷积层...” 升采样:想要在convnet-decovnet结构中从较小的输入到较大的输入进行升采样时,似乎可以使用它。 https://www.youtube.com/watch?v=ByjaPdWXKJ4&feature=youtu.be&t=22m

1
在深度学习中的深度残差网络中,残差学习块到底是什么?
我正在阅读论文《深度残差学习以进行图像识别》,但我很难100%地确定残差块在计算上的含义。阅读他们的论文,他们有图2: 它说明了残余块应该是什么。残差块的计算是否与以下内容完全相同: y=σ(W2σ(W1x+b1)+b2+x)y=σ(W2σ(W1x+b1)+b2+x) \mathbf{y} = \sigma( W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 + \mathbf{x} ) 或者是别的什么? 换句话说,也许是试图与论文的符号相匹配的是: F(x)+x=[W2σ(W1x+b1)+b2]+xF(x)+x=[W2σ(W1x+b1)+b2]+x \mathcal F(x) + x = \left[ W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 \right] + \mathbf{x} 真的吗? yy\mathbf{y} σ(F(x)+x)=σ([W2σ(W1x+b1)+b2]+x)σ(F(x)+x)=σ([W2σ(W1x+b1)+b2]+x) \sigma( \mathcal F(x) + x ) = \sigma( …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.