JürgenSchmidhuber引入了生成性对抗网络吗?


32

我在https://en.wikipedia.org/wiki/Generative_adversarial_networks上阅读:

[生成对抗网络]由Ian Goodfellow等人于2014年引入。

Jurgen Schmidhuber声称曾在该方向上进行过类似的工作(例如,在生成对抗网络教程期间,NIPS 2016上进行了一些辩论:https//channel9.msdn.com/Events/Neural-Information-Processing-Systems-会议/神经信息处理系统会议-NIPS-2016 / Generative-Adversarial-Networks,请参阅1h03min)。

生成对抗网络背后的想法是由JürgenSchmidhuber首次公开提出的吗?如果没有,尤尔根·施密德胡伯(JürgenSchmidhuber)的想法有多相似?


5
这里有关reddit的相关讨论,尤其是此评论
Dougal


1
Wikipedia页面的 “历史记录”部分已更新,我认为它现在包含所有相关参考及其相互之间的联系。我认为这实际上是相当公平和完整的。
艾伯特

@Albert感谢您的更新!
Franck Dernoncourt

Answers:


50

我在2010年的博客文章(archive.org)中自我发布了确定性的各种对抗性网络(GAN)的基本思想。我已经搜索了,但是在任何地方都找不到类似的东西,也没有时间尝试实现它。我不是,现在仍然不是神经网络研究人员,并且在该领域没有任何联系。我将在此处复制粘贴该博客文章:

2010-02-24

一种用于训练人工神经网络以在可变上下文中生成缺失数据的方法。由于很难用一个句子来表达这个想法,因此我将使用一个示例:

图像可能缺少像素(例如,有污点)。如何只知道周围的像素就能恢复丢失的像素?一种方法是“生成器”神经网络,在输入周围像素的情况下,生成丢失的像素。

但是如何训练这样的网络呢?不能指望网络会准确产生丢失的像素。例如,想象一下,丢失的数据只是一片草地。一个人可以用一堆草坪的图像来教学网络,但要去除一部分。老师知道丢失的数据,并可以根据生成的草块与原始数据之间的均方根差(RMSD)对网络进行评分。问题在于,如果生成器遇到的图像不是训练集的一部分,则神经网络不可能将所有叶子(尤其是在补丁中间)正确地放置在叶子上。最低的RMSD误差可能是通过网络用纯色填充补丁的中间区域来实现的,该纯色是典型草丛图像中像素颜色的平均值。如果网络试图生成看起来对人类具有说服力的草并因此实现其目的,那么RMSD度量标准将带来不幸的损失。

我的想法是这样(请参见下图):与生成器同时训练一个分类器网络,该网络以随机或交替顺序给出生成的原始数据。然后,分类器必须在周围图像上下文的上下文中猜测输入是原始的(1)还是生成的(0)。生成器网络同时尝试从分类器中获得高分(1)。希望的结果是,两个网络都非常简单,并且朝着生成和识别越来越多的高级功能迈进,并接近甚至可能击败了人类区分生成的数据和原始数据的能力。如果为每个分数考虑多个训练样本,则RMSD是要使用的正确误差度量,

在此处输入图片说明
人工神经网络训练设置

当我在最后提到RMSD时,是指“概率估计”的误差度量,而不是像素值。

我最初在2000年开始考虑使用神经网络(comp.dsp post)来生成缺失的高频信号,以便以令人信服而不是准确的方式对上采样(重新采样到更高的采样频率)数字音频进行处理。在2001年,我收集了一个用于培训的音频库。以下是2006年1月20日发布的EFNet #musicdsp Internet中继聊天(IRC)日志的一部分,其中,我(yehar)与另一个用户(_Beta)讨论了该想法:

[22:18] <yehar>样本的问题在于,如果您还没有“在那儿”的东西,那么如果您对样本进行上采样,该怎么办...
[22:22] <yehar>我曾经收集了很多声音库,以便我可以开发一个“智能”算法来解决这个确切的问题
[22:22] <yehar>我会使用神经网络
[22:22] <yehar>,但我没有完成工作:- D
[22:23]神经网络的<_Beta>问题是,您必须有某种方法来衡量结果的
优劣[22:24] <yehar> beta:我有这样的想法,您可以在在您开发“聪明的现场声音创作者”的同时
[22:26] <yehar> beta:这个侦听器将学会侦听何时侦听已创建的频谱或自然的上频谱。并且创建者同时开发以尝试规避此检测

在2006年至2010年之间的某个时候,一位朋友邀请专家来研究我的想法并与我讨论。他们认为这很有趣,但是他们说,当一个网络可以完成任务时,训练两个网络并不划算。我从不知道他们是否掌握了核心思想,或者他们是否立即看到了将其表述为单个网络的方法,也许拓扑中的某个瓶颈将其分为两个部分。那时我什至不知道反向传播仍然是事实上的训练方法(了解到在2015年的“深梦”热潮中制作视频)。多年来,我曾与一些数据科学家以及我认为可能感兴趣的其他人谈论过我的想法,但反应并不温和。

2017年5月,我在YouTube [Mirror] 看到了Ian Goodfellow的教程演示,这完全让我感到很开心。在我看来,它是相同的基本思想,但有以下我目前所理解的区别,并且已经进行了艰苦的工作以使其产生良好的效果。他还给出了一个理论,或一切基于理论,说明了为什么它应该起作用,而我从未对我的想法做过任何形式的形式分析。Goodfellow的演讲回答了我所遇到的问题以及更多。

Goodfellow的GAN及其建议的扩展包括发生器中的噪声源。我从没想过要包含噪声源,而是要有训练数据上下文,可以更好地将其与没有噪声矢量输入且模型以部分数据为条件的条件GAN(cGAN)进行匹配。我目前基于Mathieu等的理解2016年是,如果有足够的输入可变性,则不需要噪声源即可获得有用的结果。另一个区别是,Goodfellow的GAN最小化了对数可能性。后来引入了最小二乘GAN(LSGAN)(Mao等人2017),它符合我的RMSD建议。因此,我的想法将与条件最小二乘生成对抗网络(cLSGAN)的思想相匹配,而无需将噪声矢量输入到生成器,而将一部分数据作为条件输入。甲生成从所述数据分布的近似发生器样品。我现在确实知道并怀疑,现实中的嘈杂输入是否可以使我的想法成为现实,但这并不是说如果不这样做,结果将无用。

上面提到的差异是我相信Goodfellow不了解或听到我的想法的主要原因。另一个是我的博客没有其他机器学习内容,因此它在机器学习圈中的展示机会非常有限。

当审稿人向作者施加压力以引用审稿人自己的作品时,这是一种利益冲突。


8
我必须说,我印象深刻。即使Ian和团队可能是独立发现它的,您的博客帖子似乎也值得赞扬。
user2808118

2
如果您发表了作品,您可能已经成为激发对抗革命的人。喘气!!
user2808118 '18

5
@ user2808118这将需要进行处理,以产生一些要发布的结果,而不仅仅是考虑它。
Olli Niemitalo

4
我向您致敬两次:首先是在距Goodfellow至少3年之前就发现了它,其次是因为它有很大的胸怀以非常积极的态度接受它。
失败的科学家,

19

伊恩·古德费洛(Ian Goodfellow)对 JürgenSchmidhuber在NIPS 2016上对GAN表示赞扬时是否正确?发表于2017-03-21:

确切地说,他并没有为GAN争取信用。更复杂。

您可以看到他是GAN的NIPS 2014提交审稿人时用自己的话写的内容:出口审阅,讨论,作者反馈和元审稿 (mirror

他是要求我们将GAN的名称更改为“ inverse PM”的审稿人。

他认为以下是未被充分认可的论文: http:// ftp://ftp.idsia.ch/pub/juergen/factorial.pdf镜像

我不喜欢这样的问题没有被裁定的好方法。我联系了NIPS的组织者,并询问Jürgen是否可以对我提出投诉,并请NIPS的代表委员会判断我的出版物是否对他不公平。他们说没有这样的程序。

我个人认为可预测性最小化与GAN之间没有任何显着联系。承认GAN与其他实际上相关的算法之间的联系,我从来没有遇到任何问题,例如噪声对比估计和自我监督的增强。

假设我们能够达成共识,Jürgen和我打算尽快撰写一篇论文,描述PM和GAN之间的异同。


2
不幸的是,在即将发布的两个版本之间似乎没有论文。:-(
ComputerScientist

@ComputerScientist是仍在等待,否则其他人可以解决它:-)
Franck Dernoncourt
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.