Questions tagged «perceptron»

6
Logistic回归和感知器之间有什么区别?
我经历安德鲁Ng的讲课笔记机器学习。 这些注释向我们介绍了逻辑回归,然后介绍了感知器。注释在描述Perceptron时说,我们只是更改了用于逻辑回归的阈值函数的定义。之后,我们可以使用Perceptron模型进行分类。 所以我的问题是-如果需要指定此参数,并且我们将Perceptron视为一种分类技术,那么逻辑回归到底是什么?是仅用于获取数据点属于其中一个类别的概率吗?

3
从感知器规则到梯度下降:具有S型激活函数的感知器与逻辑回归有何不同?
本质上,我的问题是在多层感知器中,感知器具有S形激活功能。因此,在更新规则Ÿ计算公式为y^y^\hat{y} y^=11+exp(−wTxi)y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} 那么,这种“ S型”感知器与逻辑回归有何不同? 我要说的是一个单层乙状结肠感知等效于逻辑回归的意义上,二者使用ÿ = 1y^=11+exp(−wTxi)y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}更新规则中为 1 + exp (− w T x i)。此外,这两个返回sign(y^=11+exp(−wTxi))sign⁡(y^=11+exp⁡(−wTxi))\operatorname{sign}(\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)})在预测。但是,在多层感知器中,与逻辑回归和单层感知器相比,使用S形激活函数来返回概率,而不是通断信号。 我认为“感知器”一词的用法可能有点含糊,所以让我根据对单层感知器的当前理解提供一些背景知识: 经典感知器规则 首先,是F. Rosenblatt的经典感知器,其中具有阶跃函数: Δwd=η(yi−yi^)xidyi,yi^∈{−1,1}Δwd=η(yi−yi^)xidyi,yi^∈{−1,1}\Delta w_d = \eta(y_{i} - \hat{y_i})x_{id} \quad\quad y_{i}, \hat{y_i} \in \{-1,1\} 更新权重 wk:=wk+Δwk(k∈{1,...,d})wk:=wk+Δwk(k∈{1,...,d})w_k := w_k + \Delta w_k \quad \quad (k \in \{1, ..., d\}) …

3
多层感知器与深度神经网络
这是一个术语问题。有时我看到人们将深度神经网络称为“多层感知器”,这是为什么呢?我教过的感知器是一种单层分类器(或回归器),它使用特定的权重训练方法(不是反向传播)具有二进制阈值输出。如果感知器的输出与目标输出不匹配,则将输入矢量添加或减去权重(取决于感知器给出的是假阳性还是假阴性)。这是一种非常原始的机器学习算法。训练过程似乎无法推广到多层案例(至少并非没有修改)。深度神经网络是通过反向传播训练的,它使用链规则通过网络的所有权重传播成本函数的梯度。 所以,问题是。“多层感知器”与“深度神经网络”是否一样?如果是这样,为什么要使用该术语?似乎不必要地造成混淆。另外,假设术语在某种程度上是可互换的,那么当我指的是由完全连接的层(无卷积层或递归连接)组成的前馈网络时,我仅看到术语“多层感知器”。这个术语有多广泛?例如,当提到Inception网络时,会使用术语“多层感知器”吗?使用NLP中使用的LSTM模块的循环网络怎么样?

1
关于感知器规则与梯度下降与随机梯度下降实现的说明
我对不同的Perceptron实现进行了一些实验,并希望确定我是否正确理解了“迭代”。 罗森布拉特的原始感知器规则 据我了解,在罗森布拉特的经典感知器算法中,权重在每个训练示例之后通过 Δw(t+1)=Δw(t)+η(target−actual)xiΔw(t+1)=Δw(t)+η(target−actual)xi\Delta{w}^{(t+1)} = \Delta{w}^{(t)} + \eta(target - actual)x_i 其中是这里的学习规则。目标和实际都被阈值化(-1或1)。我将其实现为1次迭代= 1次遍历训练样本,但是权重向量在每次训练样本后都会更新。Ë 吨一ËŤ一种eta 我将“实际”值计算为 sign(wwTxx)=sign(w0+w1x1+...+wdxd)sign(wwTxx)=sign(w0+w1x1+...+wdxd) sign ({\pmb{w}^T\pmb{x}}) = sign( w_0 + w_1 x_1 + ... + w_d x_d) 随机梯度下降 Δw(t+1)=Δw(t)+η(target−actual)xiΔw(t+1)=Δw(t)+η(target−actual)xi\Delta{w}^{(t+1)} = \Delta{w}^{(t)} + \eta(target - actual)x_i 相同感知规则,但是,target并actual没有阈值处理,但真正的价值。另外,我将“迭代”视为训练样本上的路径。 在这种线性可分离的情况下,SGD和经典感知器规则都收敛,但是,我在梯度下降实现方面遇到了麻烦。 梯度下降 在这里,我查看了训练样本并总结了训练样本1次传递后的权重变化,然后更新了权重,例如, 对于每个训练样本: Δwnew+=Δw(t)+η(target−actual)xiΔwnew+=Δw(t)+η(target−actual)xi\Delta{w_{new}} \mathrel{{+}{=}} \Delta{w}^{(t)} + \eta(target - actual)x_i ... 经过1次训练后: …


2
感知器的决策边界图
我试图绘制感知器算法的决策边界,我对一些事情感到非常困惑。我的输入实例的格式为,基本上是2D输入实例(x 1和x 2)和二进制类目标值(y)[1或0]。[ (x1个,X2),ÿ][(x1,x2),y][(x_{1},x_{2}), y]X1个x1x_{1}X2x2x_{2}ÿyy 因此,我的权重向量的形式为:。[w1,w2][w1,w2][w_{1}, w_{2}] 现在我必须合并一个额外的偏置参数,因此我的权重向量变成3 × 1向量?是1 × 3向量吗?我认为应该是1 × 3,因为向量只有1行n列。w0w0w_{0}3×13×13 \times 11×31×31 \times 31×31×31 \times 3 现在假设我将实例化为随机值,该如何绘制决策边界?含义w 0在这里表示什么?是瓦特0 / Ñ ø ř 米(瓦特)的判定区域的离原点的距离是多少?如果是这样,我如何捕获它并使用matplotlib.pyplot或其等效的Matlab在Python中绘制它?[w0,w1,w2][w0,w1,w2][w_{0}, w_{1}, w_{2}]w0w0w_{0}w0/norm(w)w0/norm(w)w_{0}/norm(w) 对于这个问题,我什至会提供一点帮助。

1
如何将简单的感知器内核化?
带有非线性边界的分类问题不能通过简单的感知器来解决。以下R代码出于说明目的,并且基于Python中的此示例): nonlin <- function(x, deriv = F) { if (deriv) x*(1-x) else 1/(1+exp(-x)) } X <- matrix(c(-3,1, -2,1, -1,1, 0,1, 1,1, 2,1, 3,1), ncol=2, byrow=T) y <- c(0,0,1,1,1,0,0) syn0 <- runif(2,-1,1) for (iter in 1:100000) { l1 <- nonlin(X %*% syn0) l1_error <- y - l1 l1_delta <- l1_error * …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.