Questions tagged «generative-models»

2
生成与区分
我知道生成式意思是“基于 ”,判别式意思是“基于 ”,但是我对以下几点感到困惑:P(x,y)P(x,y)P(x,y)P(y|x)P(y|x)P(y|x) 维基百科(以及网络上的许多其他热门文章)将诸如SVM和决策树之类的内容归类为歧视性内容。但是这些甚至没有概率解释。区别在这里是什么意思?区别对待只是意味着没有生成能力吗? 朴素贝叶斯(NB)具有生成性,因为它捕获和,因此您拥有(以及)。是不是小事做,比方说,回归(海报男孩判别模型的)“生成”通过简单的计算在类似的方式(同独立的假设为NB,使得,其中的MLE 只是频率)?P(x|y)P(x|y)P(x|y)P(y)P(y)P(y)P(x,y)P(x,y)P(x,y)P(y|x)P(y|x)P(y|x)P(x)P(x)P(x)P(x)=P(x0)P(x1)...P(xd)P(x)=P(x0)P(x1)...P(xd)P(x) = P(x_0) P(x_1) ... P(x_d)P(xi)P(xi)P(x_i) 我知道判别模型往往胜过生成模型。生成模型的实际用途是什么?能够生成/模拟数据被引用了,但是什么时候出现呢?我个人只有回归,分类和协作的经验。过滤结构化数据,那么这里的用法与我无关吗?“缺少数据”参数(缺少)似乎只为您提供训练数据的优势(当您实际上知道且无需对进行边际化以获得相对笨拙时),无论如何您都可以直接估算出),即使这样,插补也更加灵活(不仅可以基于预测P(xi|y)P(xi|y)P(x_i|y)xixix_iyyyP(y)P(y)P(y)P(xi)P(xi)P(x_i)yyy但其他也是如此)。xixix_i 维基百科上完全矛盾的引用是什么?“在表示复杂学习任务中的依存关系方面,生成模型通常比判别模型更灵活”与“区分模型通常可以表达观察到的目标变量之间更复杂的关系” 相关问题让我开始思考。


2
受限玻尔兹曼机(RBM)的现代用例?
背景:过去约4年的许多现代研究(后alexnet)似乎已不再使用对神经网络进行生成式预训练来获得最新的分类结果。 例如,此处 mnist的最高结果仅包括前两篇论文中似乎使用生成模型的50篇论文,这两篇论文都是RBM。其他48篇获奖论文涉及不同的判别式前馈体系结构,并且为寻找更好的/新颖的权重初始化和激活函数而不是RBM和许多较旧的神经网络中使用的S型曲线付出了很多努力。 问题:是否有现代的理由使用限制玻尔兹曼机? 如果不是,是否可以对这些前馈体系结构进行实际修改,以使它们的任何层生成? 动机:我问,因为我看到的某些模型可用,通常是RBM上的变体,不一定与这些生成层/模型具有明显相似的区分性,反之亦然。例如: mcRBM ssRBM CRBM(尽管有人可能会说CNN使用的前馈架构是判别式类似架构) 同样,分别从2010年,2011年和2009年起,这些显然也是prelex网络。

2
贝叶斯统计与生成建模之间的联系
有人可以推荐我一个很好的参考资料来解释贝叶斯统计与生成建模技术之间的联系吗?为什么我们通常将生成模型与贝叶斯技术一起使用? 为什么在根本没有完整数据的情况下使用贝叶斯统计量尤其吸引人? 请注意,我来自一个面向机器学习的观点,并且我有兴趣从统计界阅读更多有关它的内容。 任何很好的参考资料,讨论这些要点将不胜感激。谢谢。

2
高斯的“判别式”分析模型为何如此称呼?
高斯判别分析模型学习,然后应用贝叶斯规则评估 因此,它们是生成模型。为什么将其称为判别分析?如果是因为我们最终得出了类之间的判别曲线,则所有生成模型都将发生这种情况。P (y | x )= P (x | y )P p r i o r(y )P(x | y)P(x|y)P(x|y)P(y| x)= P(x | y)Pp - [R 我ö ř(y)ΣG∈ ÿP(x | g)Pp - [R 我ö ř(克)。P(y|x)=P(x|y)Pprior(y)Σg∈YP(x|g)Pprior(g).P(y|x) = \frac{P(x|y)P_{prior}(y)}{\Sigma_{g \in Y} P(x|g) P_{prior}(g) }.

4
无可能性的推断-这是什么意思?
最近,我意识到文学中流传着“无可能性”方法。但是我不清楚推理或优化方法是没有可能性的意味着什么。 在机器学习中,目标通常是使某些参数拟合函数的可能性最大化,例如神经网络上的权重。 那么,无可能性方法的原理到底是什么?为什么像GAN这样的对抗网络却属于这一类呢?

1
超越Fisher内核
一段时间以来,Fisher Kernels似乎很受欢迎,因为它们似乎是一种根据概率模型构造核的方法。但是,我很少见到它们在实践中使用过,而且我有很好的权威,认为它们往往效果不佳。他们依靠Fisher信息的计算-引用Wikipedia: Fisher信息相对于f的自然对数θ是二阶导数期望值的负值。信息可以看作是支持曲线的“曲率”在θ的最大似然估计(MLE)附近的度量。 据我所知,这意味着两点之间的核函数就是沿着该曲面的距离-是吗? 但是,这对于在内核方法中使用可能会有问题,因为 对于给定的模型,MLE可能是非常糟糕的估计 MLE周围的支撑曲线的曲率可能无法用于区分实例,例如,如果似然表面非常尖 这似乎抛弃了有关模型的许多信息 如果是这样的话,还有没有更多现代的方法可以从概率方法构造内核?例如,我们可以使用保留集以相同的方式使用MAP估算吗?与概率方法的距离或相似度还有哪些其他概念可以用来构造(有效)内核函数?

4
如何解释考克斯风险模型的生存曲线?
您如何从考克斯比例风险模型解释生存曲线? 在这个玩具示例中,假设我们对数据age变量有一个cox比例风险模型kidney,并生成了生存曲线。 library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() 例如,在时间,哪个说法是正确的?还是两者都不对?200200200 陈述1:我们将剩下20%的主题(例如,如果我们有人,那么到200天时,我们应该剩下200个左右), 100010001000200200200200200200 陈述2:对于一个给定的人,他/她有200 20%20%20\%机会在200天生存200200200。 我的尝试:我不认为这两个陈述是相同的(如果我错了,请纠正我),因为我们没有iid假设(所有人的生存时间不是独立地来自一个分布)。在这里我的问题类似于逻辑回归,每个人的危险率取决于该人的。βTxβTx\beta^Tx
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.