Questions tagged «convolution»

卷积是对两个函数和进行函数值运算:。通常用于获得独立随机变量之和的密度。此标签也应用于反卷积的逆运算。请勿将此标签用于卷积神经网络。 fgf(τ)g(tτ)dτ


6
CNN中本地响应规范化的重要性
我发现Imagenet和其他大型CNN利用了本地响应规范化层。但是,我找不到关于它们的太多信息。它们有多重要,何时应使用? 来自http://caffe.berkeleyvision.org/tutorial/layers.html#data-layers: “局部响应归一化层通过对局部输入区域进行归一化来执行一种“横向抑制”。在ACROSS_CHANNELS模式下,局部区域跨越附近的通道延伸,但是没有空间范围(即,它们的形状为local_size x 1 x 1)在WITHIN_CHANNEL模式下,局部区域在空间上延伸,但位于单独的通道中(即,它们的形状为1 x local_size x local_size)每个输入值除以(1+(α/ n)∑ix2i)β,其中n是每个局部区域的大小,总和取自以该值为中心的区域(必要时添加零填充)。” 编辑: 这些种类的层似乎影响最小,不再使用。基本上,它们的作用已被其他正则化技术(例如,辍学和批处理归一化),更好的初始化和训练方法所取代。请参阅下面的我的答案以获取更多详细信息。

4
什么是计算机视觉和卷积神经网络中的翻译不变性?
我没有计算机视觉背景,但是当我阅读一些图像处理和卷积神经网络相关的文章和论文时,经常遇到术语“ translation invariance或” translation invariant。 还是我读了很多卷积运算提供的信息translation invariance?!这是什么意思? 我本人总是将其翻译成自己的意思,好像这意味着如果我们以任何形状更改图像,则图像的实际概念不会改变。 例如,如果我旋转一个可以说的树的图像,那么无论我对那张照片做什么,它又都是一棵树。 而且我本人认为,可能发生在图像上的所有操作并以某种方式(裁剪,调整大小,灰度,着色等)进行转换都是这种方式。我不知道这是否是真的,所以如果有人可以向我解释这一点,我将不胜感激。

10
为什么两个随机变量之和是卷积?
长期以来,我不明白为什么两个随机变量的“和”是它们的卷积,而和的混合密度函数之和是f(x)f(x)f(x)g(x)g(x)g(x)pf(x)+(1−p)g(x)pf(x)+(1−p)g(x)p\,f(x)+(1-p)g(x); 算术和而不是它们的卷积。确切的短语“两个随机变量的总和”在Google中出现了146,000次,并且如下所示是椭圆形的。如果认为RV产生单个值,则可以将该单个值添加到另一个RV单个值,这与卷积无关,至少不是直接相关,所有都是两个数字的和。但是,统计数据中的RV结果是值的集合,因此更精确的短语类似于“来自两个RV的相关个体值对的协调总和的集合是它们的离散卷积”……并且可以通过以下方式近似:对应于那些RV的密度函数的卷积。更简单的语言: 2个RVnnn样本实际上是两个n维向量,它们相加作为向量和。 请详细说明两个随机变量的和如何是卷积和。

2
卷积神经网络:输出中的中枢神经元难道不是代表过多的吗?
[这个问题也在堆栈溢出时提出] 简短的问题 我正在研究卷积神经网络,我相信这些网络不会等效地对待每个输入神经元(像素/参数)。假设我们有一个深层网络(许多层),对某些输入图像进行卷积。图像“中间”的神经元具有通往许多深层神经元的许多独特途径,这意味着中间神经元的微小变化会对输出产生强烈影响。但是,图像边缘的神经元只有途径(或取决于确切的实现方式,为1阶),这些途径中的信息会流过该图。看来这些“代表性不足”。111111 我对此感到担忧,因为对边缘神经元的辨别与网络的深度(层数)成指数关系。即使添加最大池化层也不会阻止指数增长,只有完整的连接才能使所有神经元处于平等的地位。但是,我不相信我的推理是正确的,因此我的问题是: 我对吗,这种影响发生在深度卷积网络中吗? 有没有关于这一点的理论,文献中是否曾提及过? 有办法克服这种影响吗? 因为我不确定是否可以提供足够的信息,所以我将详细说明问题说明以及为什么我认为这是一个问题。 更详细的解释 想象一下,我们有一个将图像作为输入的深度神经网络。假设我们在图像上应用了一个像素的卷积滤波器,每次我们将卷积窗口都移动4个像素。这意味着输入中的每个神经元都会将其激活发送给第2层中的16 × 16 = 265个神经元。这些神经元中的每一个都可能将其激活发送给另一个265,这样,我们的最高神经元就可以在265 2个输出神经元中表示,依此类推。64×6464×6464\times 6444416×16=26516×16=26516 \times 16 = 26522226526526526522652265^2 111 333 https://www.dropbox.com/s/7rbwv7z14j4h0jr/deep_conv_problem_stackxchange.png?dl=0 为什么这是个问题? 乍看之下,这种影响似乎并不是问题:原则上,权重应该以网络能够正常工作的方式自动调整。而且,在图像识别中,图像的边缘并不是那么重要。在日常的图像识别测试中,这种效果可能并不明显,但是由于两个原因,它仍然使我感到担忧:1.推广到其他应用程序;以及 2.在非常深的网络中出现的问题。 1.可能还有其他应用程序,例如语音或声音识别,其中最中间的神经元并不是最重要的。在这个领域中通常会应用卷积,但是我找不到任何提及我所关注的效果的论文。 1010102651026510265^{10} 现在想象一下,我们会少量扰动所有神经元。与边缘神经元相比,中枢神经元将导致输出变化更大幅度几个数量级。我相信对于一般应用程序和非常深的网络,应该找到解决问题的方法吗?

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

1
“内核密度估计”是什么的卷积?
我试图更好地了解内核密度估计。 使用Wikipedia中的定义:https://en.wikipedia.org/wiki/Kernel_density_estimation#Definition fh^(x)=1n∑ni=1Kh(x−xi)=1nh∑ni=1K(x−xih)fh^(x)=1n∑i=1nKh(x−xi)=1nh∑i=1nK(x−xih) \hat{f_h}(x) = \frac{1}{n}\sum_{i=1}^n K_h (x - x_i) \quad = \frac{1}{nh} \sum_{i=1}^n K\Big(\frac{x-x_i}{h}\Big) 让我们以是一个矩形函数赋予如果是间和和否则,和(窗口大小)为1。1 x − 0.5 0.5 0 小时K()K()K()111xxx−0.5−0.5-0.50.50.50.5000hhh 我知道密度是两个函数的卷积,但是我不确定我如何定义这两个函数。其中一个应该(可能)是数据的函数,对于R中的每个点,它告诉我们该位置有多少个数据点(大多数为)。而另一个函数可能应该是对内核函数的修改,并结合窗口大小。但是我不确定如何定义它。000 有什么建议么? 贝娄是一个R代码示例,(我怀疑)它复制了我上面定义的设置(两个高斯的混合物,),我希望在此上看到一个“证明”,证明要卷积的函数是我们怀疑的。n=100n=100n=100 # example code: set.seed(2346639) x <- c(rnorm(50), rnorm(50,2)) plot(density(x, kernel='rectangular', width=1, n = 10**4)) rug(x)

6
卷积层:填充还是不填充?
如图所示,AlexNet体系结构使用零填充: 但是,本文没有解释为什么引入这种填充。 Standford CS 231n课程教导我们使用填充来保留空间大小: 我想知道这是我们需要填充的唯一原因吗?我的意思是,如果不需要保留空间大小,是否可以去除填充物?我知道随着我们进入更深的层次,这将导致空间大小的迅速减小。但是,我可以通过删除池化层来权衡这一点。如果有人能给我一些零填充的理由,我将非常高兴。谢谢!

2
中心极限定理的动力学系统观点?
(最初发布于MSE。) 我已经看到许多关于经典中心极限定理的启发式讨论,都把正态分布(或任何稳定分布)说成是概率密度空间中的“吸引子”。例如,在Wikipedia的治疗方法顶部考虑以下句子: 在更一般的用法中,中心极限定理是概率论中一组弱收敛定理中的任何一个。他们都表达了这样一个事实,即许多独立且均匀分布的(iid)随机变量的总和,或者具有特定依赖类型的随机变量将倾向于根据一小部分吸引子分布进行分布。当iid变量的方差是有限的时,吸引子分布为正态分布。 这种动态系统语言很有启发性。费勒在第二卷中对CLT的处理中也提到了“吸引力”(我想知道这是否是该语言的来源),而本笔记中的尤瓦尔·弗利姆斯(Yuval Flimus)甚至谈到了“吸引力盆地”。(我不认为他的意思是“ 事先可以推断出吸引盆的确切形式”,而是“ 事先可以推断出吸引子的确切形式”;但是,语言在那里。)我的问题是:这些可以吗?动态类比可以精确吗?我不知道它们在哪本书中-尽管许多书确实强调了正态分布对于卷积下的稳定性(以及傅立叶变换下的稳定性)是特殊的。这基本上告诉我们,法线很重要,因为它是一个固定点。CLT进一步发展,告诉我们这不仅是一个固定点,而且是吸引子。 为了使此几何图形精确,我假设将相空间作为一个合适的无限维函数空间(概率密度的空间),并将演化算子与初始条件重复卷积。但是我不知道使这张照片起作用的技术性或是否值得追求。 我猜想,因为我找不到确实可以明确采用这种方法的治疗方法,所以我认为这是可以做的或者很有趣,这肯定存在一些错误。如果是这样,我想听听为什么。 编辑:在整个Math Stack Exchange和MathOverflow中,读者可能会对三个类似的问题感兴趣: 高斯分布作为某些分布空间(MO)中的固定点 通过最大熵(MO)的中心极限定理 是否有通过某些不动点定理证明中心极限定理?(MSE)

3
卷积神经网络中的卷积步骤做什么?
由于它们在计算机视觉中的应用,我正在研究卷积神经网络(CNN)。我已经熟悉标准的前馈神经网络,所以我希望这里的某些人可以帮助我在理解CNN方面采取额外的步骤。我对CNN的看法如下: 在传统的前馈神经网络中,我们拥有训练数据,其中每个元素都包含一个特征向量,该特征向量在“输入层”中输入到神经网络,因此在图像识别中,我们可以将每个像素作为一个输入。这些是我们的特征向量。或者,我们可以手动创建其他(可能较小)的特征向量。 CNN的优势在于它可以生成更强大的特征向量,这些特征向量对于图像失真和位置更加不变。如下图所示(来自本教程),CNN生成特征图,然后将其输入到标准神经网络中(因此,这实际上是一个巨大的预处理步骤)。 我们获得这些“更好”特征的方法是通过交替进行卷积和子采样。我了解子采样的工作原理。对于每个特征图,只取像素的一个子集,否则我们可以对像素值求平均值。 但是我主要困惑的是卷积步骤是如何工作的。我很熟悉概率论中的卷积(两个随机变量之和的密度),但是它们在CNN中如何工作,为什么有效? 我的问题与此类似,但是特别是,我不确定为什么第一步卷积有效。

2
神经网络在权宜之计上是否存在卷积的数学原因?
在卷积神经网络(CNN)中,在进行卷积之前,每一步的权重矩阵都需要翻转其行和列以获得内核矩阵。Hugo Larochelle 在以下一系列视频中对此进行了解释: daccess-ods.un.org daccess-ods.un.org计算隐藏映射将对应于使用内核矩阵对来自上一层的信道进行离散卷积,并且该内核是根据隐藏权重矩阵WijWijW_{ij},我们在其中翻转行和列。 如果像其他类型的NN一样将卷积的减少步长与常规矩阵乘法进行比较,权宜之计将是一个明确的解释。但是,这可能不是最相关的比较... 在数字成像处理中,将滤镜卷积到图像上(对于实际直觉来说这是一个很棒的youtube视频)似乎与以下内容有关: 该事实卷积是缔合而(交叉)的相关是没有的。 由于时域中的卷积等效于频域中的乘法(卷积定理),因此可以在图像的频域中将滤波器作为乘法应用。 在这种特定的技术环境中,DSP 相关定义为: F∘I(x,y)=∑j=−NN∑i=−NNF(i,j)I(x+i,y+j)F∘I(x,y)=∑j=−NN∑i=−NNF(i,j)I(x+i,y+j)F\circ I(x,y)=\sum_{j=-N}^{N}\sum_{i=-N}^N\, F(i,j)\,I(x+i, y+j) 这实际上是Hadamard乘积中所有单元的总和: F∘I(x,y)=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢F[−N,−N]I[x−N,y−N]⋮F[0,−N]I[x,y−N]⋮F[N,−N]I[x+N,y−N]⋯⋱⋯⋱⋯F[−N,0]I[x−N,y−N]⋮F[0,0]I[x,y]⋮F[N,0]I[x+N,y]⋯⋱⋯⋱⋯F[−N,N]I[x−N,y+N]⋮F[0,N]I[x,y+N]⋮F[N,N]I[x+N,y+N]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥F∘I(x,y)=[F[−N,−N]I[x−N,y−N]⋯F[−N,0]I[x−N,y−N]⋯F[−N,N]I[x−N,y+N]⋮⋱⋮⋱⋮F[0,−N]I[x,y−N]⋯F[0,0]I[x,y]⋯F[0,N]I[x,y+N]⋮⋱⋮⋱⋮F[N,−N]I[x+N,y−N]⋯F[N,0]I[x+N,y]⋯F[N,N]I[x+N,y+N]]\small F\circ I(x,y)=\Tiny\begin{bmatrix}F[-N,-N]\,I[x-N,y-N]&\cdots&F[-N,0]\,I[x-N,y-N]&\cdots& F[-N,N]\,I[x-N,y+N]\\ \vdots&\ddots&\vdots&\ddots&\vdots\\ F[0,-N]\,I[x,y-N]&\cdots&F[0,0]\,I[x,y]&\cdots& F[0,N]\,I[x,y+N]\\ \vdots&\ddots&\vdots&\ddots&\vdots\\ F[N,-N]\,I[x+N,y-N]&\cdots&F[N,0]\,I[x+N,y]&\cdots& F[N,N]\,I[x+N,y+N]\\ \end{bmatrix} 其中是一个滤波函数(表示为矩阵),而I (x ,y )是位置(x ,y )上图像的像素值:F(i,j)F(i,j)F(i,j)I(x,y)I(x,y)I(x,y)(x,y)(x,y)(x,y) 互相关的目的是评估探针图像与测试图像的相似程度。互相关图的计算依赖于卷积定理。 另一方面,卷积定义为: F∗I(x,y)=∑j=−NN∑i=−NNF(i,j)I(x−i,y−j)F∗I(x,y)=∑j=−NN∑i=−NNF(i,j)I(x−i,y−j)F* I(x,y)=\sum_{j=-N}^{N}\sum_{i=-N}^N\, F(i,j)\,I(x-i, y-j) 只要过滤器是对称的,就与过滤器的行和列翻转的相关操作相同: F∗I(x,y)=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢F[N,N]I[x−N,y−N]⋮F[0,N]I[x,y−N]⋮F[−N,−N]I[x+N,y−N]⋯⋱⋯⋱⋯F[N,0]I[x−N,y−N]⋮F[0,0]I[x,y]⋮F[−N,0]I[x+N,y]⋯⋱⋯⋱⋯F[N,−N]I[x−N,y+N]⋮F[0,−N]I[x,y+N]⋮F[−N,−N]I[x+N,y+N]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥F∗I(x,y)=[F[N,N]I[x−N,y−N]⋯F[N,0]I[x−N,y−N]⋯F[N,−N]I[x−N,y+N]⋮⋱⋮⋱⋮F[0,N]I[x,y−N]⋯F[0,0]I[x,y]⋯F[0,−N]I[x,y+N]⋮⋱⋮⋱⋮F[−N,−N]I[x+N,y−N]⋯F[−N,0]I[x+N,y]⋯F[−N,−N]I[x+N,y+N]]\small F* I(x,y)=\Tiny\begin{bmatrix}F[N,N]\,I[x-N,y-N]&\cdots&F[N,0]\,I[x-N,y-N]&\cdots& F[N,-N]\,I[x-N,y+N]\\ \vdots&\ddots&\vdots&\ddots&\vdots\\ F[0,N]\,I[x,y-N]&\cdots&F[0,0]\,I[x,y]&\cdots& F[0,-N]\,I[x,y+N]\\ \vdots&\ddots&\vdots&\ddots&\vdots\\ F[-N,-N]\,I[x+N,y-N]&\cdots&F[-N,0]\,I[x+N,y]&\cdots& F[-N,-N]\,I[x+N,y+N]\\ …

2
正方变量和卡方变量平方的卷积分布?
最近在分析数据时出现了以下问题。如果随机变量X遵循正态分布且Y遵循χ2nχn2\chi^2_n分布(其中n自由度),如何是Z=X2+Y2Z=X2+Y2Z = X^2 + Y^2分布?到现在为止我想出的PDF Y2Y2Y^2: ψ2n(x)====∂F(x−−√)∂x(∫x√0tn/2−1⋅e−t/22n/2Γ(n/2)dt)′x12n/2Γ(n/2)⋅(x−−√)n/2−1⋅e−x√/2⋅(x−−√)′x12n/2−1Γ(n/2)⋅xn/4−1⋅e−x√/2ψn2(x)=∂F(x)∂x=(∫0xtn/2−1⋅e−t/22n/2Γ(n/2)dt)x′=12n/2Γ(n/2)⋅(x)n/2−1⋅e−x/2⋅(x)x′=12n/2−1Γ(n/2)⋅xn/4−1⋅e−x/2\begin{eqnarray} \psi^2_n(x) &=& \frac{\partial F(\sqrt{x})}{\partial x} \\ &=& \left( \int_0^{\sqrt{x}} \frac{t^{n/2-1}\cdot e^{-t/2}}{2^{n/2}\Gamma(n/2)} \mathrm{d}t \right)^\prime_x \\ &=& \frac{1}{2^{n/2}\Gamma(n/2)} \cdot \left( \sqrt{x} \right)^{n/2-1} \cdot e^{-\sqrt{x}/2} \cdot \left( \sqrt{x} \right)^\prime_x \\ &=& \frac{1}{2^{n/2-1}\Gamma(n/2)} \cdot x^{n/4-1} \cdot e^{-\sqrt{x}/2} \end{eqnarray} 以及一些简化的卷积积分(具有PDF χ 2 米,其中m自由度):X2X2X^2χ2mχm2\chi^2_m Kmn(t):===(χ2m∗ψ2n)(t)∫t0χ2m(x)⋅ψ2n(t−x)dx(2(n+m)2+1Γ(m2)Γ(n2))−1⋅∫t0(t−x)n4−1⋅xm2−1⋅exp(−(t−x−−−−√+x)/2)dxKmn(t):=(χm2∗ψn2)(t)=∫0tχm2(x)⋅ψn2(t−x)dx=(2(n+m)2+1Γ(m2)Γ(n2))−1⋅∫0t(t−x)n4−1⋅xm2−1⋅exp⁡(−(t−x+x)/2)dx\begin{eqnarray} K_{mn}(t) &:=& ( \chi^2_m …

3
卷积神经网络如何精确地使用卷积代替矩阵乘法?
我正在读Yoshua Bengio关于深度学习的书,它在第224页上说: 卷积网络只是简单的神经网络,它在其至少一层中使用卷积代替一般的矩阵乘法。 但是,我不是100%确定如何从数学上精确地“通过卷积替换矩阵乘法”。 我真正感兴趣的是为1D中的输入向量定义此值(例如),因此我将没有输入作为图像并尝试避免2D的卷积。x∈Rdx∈Rdx \in \mathbb{R}^d 因此,例如,在“正常”神经网络中,操作和馈送模式可以简洁地表达,如Andrew Ng的注释: ˚F (Ž (升+ 1 ))= 一个(升+ 1 )W(l)a(l)=z(l+1)W(l)a(l)=z(l+1) W^{(l)} a^{(l)} = z^{(l+1)} f(z(l+1))=a(l+1)f(z(l+1))=a(l+1) f(z^{(l+1)}) = a^{(l+1)} 其中是在使向量通过非线性之前计算的向量。非线性作用在向量并且是有关层的隐藏单元的输出/激活。 ˚F Ž (升)一个(升+ 1 )z(l)z(l)z^{(l)}fffz(l)z(l)z^{(l)}a(l+1)a(l+1)a^{(l+1)} 对我来说,这种计算很清楚,因为矩阵乘法已为我明确定义,但是,用卷积代替矩阵乘法对我来说似乎并不明确。即 ˚F (Ž (升+ 1 ))= 一个(升+ 1 )W(l)∗a(l)=z(l+1)W(l)∗a(l)=z(l+1) W^{(l)} * a^{(l)} = z^{(l+1)} f(z(l+1))=a(l+1)f(z(l+1))=a(l+1) f(z^{(l+1)}) = a^{(l+1)} 我想确保我能精确地数学理解上述方程式。 …

4
独立对数正态随机变量的总和是否显示对数正态?
我试图理解为什么当您增加观察次数时,两个(或多个)对数正态随机变量的总和接近对数正态分布。我在网上看过,但没有发现任何结果。 显然,如果和是独立的对数正态变量,则根据指数和高斯随机变量的性质,也是对数正态的。但是,没有理由表明也是对数正态的。XXXX × Y X + YÿÿYX× YX×ÿX \times YX+ YX+ÿX+Y 然而 如果生成两个独立的对数正态随机变量和,并令,并重复多次此过程,则的分布将显示为对数正态。随着观察次数的增加,它甚至看起来更接近对数正态分布。Y Z = X + Y ZXXXÿÿYž= X+ Yž=X+ÿZ=X+YžžZ 例如:生成一百万对后,Z的自然对数的分布在下面的直方图中给出。这显然很像正态分布,表明确实是对数正态。žžZ 有没有人对本文有任何见解或参考,可能有助于理解?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.