统计和大数据 perceptron

6

我经历安德鲁Ng的讲课笔记机器学习。这些注释向我们介绍了逻辑回归，然后介绍了感知器。注释在描述Perceptron时说，我们只是更改了用于逻辑回归的阈值函数的定义。之后，我们可以使用Perceptron模型进行分类。所以我的问题是-如果需要指定此参数，并且我们将Perceptron视为一种分类技术，那么逻辑回归到底是什么？是仅用于获取数据点属于其中一个类别的概率吗？

30 regression machine-learning self-study logistic perceptron

3

从感知器规则到梯度下降：具有S型激活函数的感知器与逻辑回归有何不同？

本质上，我的问题是在多层感知器中，感知器具有S形激活功能。因此，在更新规则Ÿ计算公式为y^y^\hat{y} y^=11+exp(−wTxi)y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} 那么，这种“ S型”感知器与逻辑回归有何不同？我要说的是一个单层乙状结肠感知等效于逻辑回归的意义上，二者使用ÿ = 1y^=11+exp(−wTxi)y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}更新规则中为 1 + exp （− w T x i）。此外，这两个返回sign(y^=11+exp(−wTxi))sign⁡(y^=11+exp⁡(−wTxi))\operatorname{sign}(\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)})在预测。但是，在多层感知器中，与逻辑回归和单层感知器相比，使用S形激活函数来返回概率，而不是通断信号。我认为“感知器”一词的用法可能有点含糊，所以让我根据对单层感知器的当前理解提供一些背景知识：经典感知器规则首先，是F. Rosenblatt的经典感知器，其中具有阶跃函数： Δwd=η(yi−yi^)xidyi,yi^∈{−1,1}Δwd=η(yi−yi^)xidyi,yi^∈{−1,1}\Delta w_d = \eta(y_{i} - \hat{y_i})x_{id} \quad\quad y_{i}, \hat{y_i} \in \{-1,1\} 更新权重 wk:=wk+Δwk(k∈{1,...,d})wk:=wk+Δwk(k∈{1,...,d})w_k := w_k + \Delta w_k \quad \quad (k \in \{1, ..., d\}) …

21 logistic classification neural-networks gradient-descent perceptron

3

多层感知器与深度神经网络

这是一个术语问题。有时我看到人们将深度神经网络称为“多层感知器”，这是为什么呢？我教过的感知器是一种单层分类器（或回归器），它使用特定的权重训练方法（不是反向传播）具有二进制阈值输出。如果感知器的输出与目标输出不匹配，则将输入矢量添加或减去权重（取决于感知器给出的是假阳性还是假阴性）。这是一种非常原始的机器学习算法。训练过程似乎无法推广到多层案例（至少并非没有修改）。深度神经网络是通过反向传播训练的，它使用链规则通过网络的所有权重传播成本函数的梯度。所以，问题是。“多层感知器”与“深度神经网络”是否一样？如果是这样，为什么要使用该术语？似乎不必要地造成混淆。另外，假设术语在某种程度上是可互换的，那么当我指的是由完全连接的层（无卷积层或递归连接）组成的前馈网络时，我仅看到术语“多层感知器”。这个术语有多广泛？例如，当提到Inception网络时，会使用术语“多层感知器”吗？使用NLP中使用的LSTM模块的循环网络怎么样？

16 neural-networks perceptron

1

关于感知器规则与梯度下降与随机梯度下降实现的说明

我对不同的Perceptron实现进行了一些实验，并希望确定我是否正确理解了“迭代”。罗森布拉特的原始感知器规则据我了解，在罗森布拉特的经典感知器算法中，权重在每个训练示例之后通过 Δw(t+1)=Δw(t)+η(target−actual)xiΔw(t+1)=Δw(t)+η(target−actual)xi\Delta{w}^{(t+1)} = \Delta{w}^{(t)} + \eta(target - actual)x_i 其中是这里的学习规则。目标和实际都被阈值化（-1或1）。我将其实现为1次迭代= 1次遍历训练样本，但是权重向量在每次训练样本后都会更新。Ë 吨一ËŤ一种eta 我将“实际”值计算为 sign(wwTxx)=sign(w0+w1x1+...+wdxd)sign(wwTxx)=sign(w0+w1x1+...+wdxd） sign ({\pmb{w}^T\pmb{x}}) = sign( w_0 + w_1 x_1 + ... + w_d x_d) 随机梯度下降 Δw(t+1)=Δw(t)+η(target−actual)xiΔw(t+1)=Δw(t)+η(target−actual)xi\Delta{w}^{(t+1)} = \Delta{w}^{(t)} + \eta(target - actual)x_i 相同感知规则，但是，target并actual没有阈值处理，但真正的价值。另外，我将“迭代”视为训练样本上的路径。在这种线性可分离的情况下，SGD和经典感知器规则都收敛，但是，我在梯度下降实现方面遇到了麻烦。梯度下降在这里，我查看了训练样本并总结了训练样本1次传递后的权重变化，然后更新了权重，例如，对于每个训练样本： Δwnew+=Δw(t)+η(target−actual)xiΔwnew+=Δw(t)+η(target−actual)xi\Delta{w_{new}} \mathrel{{+}{=}} \Delta{w}^{(t)} + \eta(target - actual)x_i ... 经过1次训练后： …

15 optimization gradient-descent perceptron

4

神经网络和感知器之间有什么区别？

“神经网络”和“感知器”这两个术语之间有什么区别吗？

12 machine-learning neural-networks terminology perceptron

2

感知器的决策边界图

我试图绘制感知器算法的决策边界，我对一些事情感到非常困惑。我的输入实例的格式为，基本上是2D输入实例（x 1和x 2）和二进制类目标值（y）[1或0]。[ （x1个，X2），ÿ][(x1,x2),y][(x_{1},x_{2}), y]X1个x1x_{1}X2x2x_{2}ÿyy 因此，我的权重向量的形式为：。[w1,w2][w1,w2][w_{1}, w_{2}] 现在我必须合并一个额外的偏置参数，因此我的权重向量变成3 × 1向量？是1 × 3向量吗？我认为应该是1 × 3，因为向量只有1行n列。w0w0w_{0}3×13×13 \times 11×31×31 \times 31×31×31 \times 3 现在假设我将实例化为随机值，该如何绘制决策边界？含义w 0在这里表示什么？是瓦特0 / Ñ ø ř 米（瓦特）的判定区域的离原点的距离是多少？如果是这样，我如何捕获它并使用matplotlib.pyplot或其等效的Matlab在Python中绘制它？[w0,w1,w2][w0,w1,w2][w_{0}, w_{1}, w_{2}]w0w0w_{0}w0/norm(w)w0/norm(w)w_{0}/norm(w) 对于这个问题，我什至会提供一点帮助。

11 machine-learning neural-networks python decision-theory perceptron

1

如何将简单的感知器内核化？

带有非线性边界的分类问题不能通过简单的感知器来解决。以下R代码出于说明目的，并且基于Python中的此示例）： nonlin <- function(x, deriv = F) { if (deriv) x*(1-x) else 1/(1+exp(-x)) } X <- matrix(c(-3,1, -2,1, -1,1, 0,1, 1,1, 2,1, 3,1), ncol=2, byrow=T) y <- c(0,0,1,1,1,0,0) syn0 <- runif(2,-1,1) for (iter in 1:100000) { l1 <- nonlin(X %*% syn0) l1_error <- y - l1 l1_delta <- l1_error * …

10 r neural-networks svm kernel-trick perceptron

Questions tagged «perceptron»