我在2010年的博客文章(archive.org)中自我发布了确定性的各种对抗性网络(GAN)的基本思想。我已经搜索了,但是在任何地方都找不到类似的东西,也没有时间尝试实现它。我不是,现在仍然不是神经网络研究人员,并且在该领域没有任何联系。我将在此处复制粘贴该博客文章:
2010-02-24
一种用于训练人工神经网络以在可变上下文中生成缺失数据的方法。由于很难用一个句子来表达这个想法,因此我将使用一个示例:
图像可能缺少像素(例如,有污点)。如何只知道周围的像素就能恢复丢失的像素?一种方法是“生成器”神经网络,在输入周围像素的情况下,生成丢失的像素。
但是如何训练这样的网络呢?不能指望网络会准确产生丢失的像素。例如,想象一下,丢失的数据只是一片草地。一个人可以用一堆草坪的图像来教学网络,但要去除一部分。老师知道丢失的数据,并可以根据生成的草块与原始数据之间的均方根差(RMSD)对网络进行评分。问题在于,如果生成器遇到的图像不是训练集的一部分,则神经网络不可能将所有叶子(尤其是在补丁中间)正确地放置在叶子上。最低的RMSD误差可能是通过网络用纯色填充补丁的中间区域来实现的,该纯色是典型草丛图像中像素颜色的平均值。如果网络试图生成看起来对人类具有说服力的草并因此实现其目的,那么RMSD度量标准将带来不幸的损失。
我的想法是这样(请参见下图):与生成器同时训练一个分类器网络,该网络以随机或交替顺序给出生成的原始数据。然后,分类器必须在周围图像上下文的上下文中猜测输入是原始的(1)还是生成的(0)。生成器网络同时尝试从分类器中获得高分(1)。希望的结果是,两个网络都非常简单,并且朝着生成和识别越来越多的高级功能迈进,并接近甚至可能击败了人类区分生成的数据和原始数据的能力。如果为每个分数考虑多个训练样本,则RMSD是要使用的正确误差度量,
人工神经网络训练设置
当我在最后提到RMSD时,是指“概率估计”的误差度量,而不是像素值。
我最初在2000年开始考虑使用神经网络(comp.dsp post)来生成缺失的高频信号,以便以令人信服而不是准确的方式对上采样(重新采样到更高的采样频率)数字音频进行处理。在2001年,我收集了一个用于培训的音频库。以下是2006年1月20日发布的EFNet #musicdsp Internet中继聊天(IRC)日志的一部分,其中,我(yehar)与另一个用户(_Beta)讨论了该想法:
[22:18] <yehar>样本的问题在于,如果您还没有“在那儿”的东西,那么如果您对样本进行上采样,该怎么办...
[22:22] <yehar>我曾经收集了很多声音库,以便我可以开发一个“智能”算法来解决这个确切的问题
[22:22] <yehar>我会使用神经网络
[22:22] <yehar>,但我没有完成工作:- D
[22:23]神经网络的<_Beta>问题是,您必须有某种方法来衡量结果的
优劣[22:24] <yehar> beta:我有这样的想法,您可以在在您开发“聪明的现场声音创作者”的同时
[22:26] <yehar> beta:这个侦听器将学会侦听何时侦听已创建的频谱或自然的上频谱。并且创建者同时开发以尝试规避此检测
在2006年至2010年之间的某个时候,一位朋友邀请专家来研究我的想法并与我讨论。他们认为这很有趣,但是他们说,当一个网络可以完成任务时,训练两个网络并不划算。我从不知道他们是否掌握了核心思想,或者他们是否立即看到了将其表述为单个网络的方法,也许拓扑中的某个瓶颈将其分为两个部分。那时我什至不知道反向传播仍然是事实上的训练方法(了解到在2015年的“深梦”热潮中制作视频)。多年来,我曾与一些数据科学家以及我认为可能感兴趣的其他人谈论过我的想法,但反应并不温和。
2017年5月,我在YouTube [Mirror] 上看到了Ian Goodfellow的教程演示,这完全让我感到很开心。在我看来,它是相同的基本思想,但有以下我目前所理解的区别,并且已经进行了艰苦的工作以使其产生良好的效果。他还给出了一个理论,或一切基于理论,说明了为什么它应该起作用,而我从未对我的想法做过任何形式的形式分析。Goodfellow的演讲回答了我所遇到的问题以及更多。
Goodfellow的GAN及其建议的扩展包括发生器中的噪声源。我从没想过要包含噪声源,而是要有训练数据上下文,可以更好地将其与没有噪声矢量输入且模型以部分数据为条件的条件GAN(cGAN)进行匹配。我目前基于Mathieu等的理解。2016年是,如果有足够的输入可变性,则不需要噪声源即可获得有用的结果。另一个区别是,Goodfellow的GAN最小化了对数可能性。后来引入了最小二乘GAN(LSGAN)(Mao等人2017),它符合我的RMSD建议。因此,我的想法将与条件最小二乘生成对抗网络(cLSGAN)的思想相匹配,而无需将噪声矢量输入到生成器,而将一部分数据作为条件输入。甲生成从所述数据分布的近似发生器样品。我现在确实知道并怀疑,现实中的嘈杂输入是否可以使我的想法成为现实,但这并不是说如果不这样做,结果将无用。
上面提到的差异是我相信Goodfellow不了解或听到我的想法的主要原因。另一个是我的博客没有其他机器学习内容,因此它在机器学习圈中的展示机会非常有限。
当审稿人向作者施加压力以引用审稿人自己的作品时,这是一种利益冲突。