2
给定我有一个在P(Y | X)上训练时具有良好性能的模型,找到最佳P(X | Y)
输入数据: > T恤的功能(颜色,徽标等)XXX >利润率YYY 我已经在上面的和Y上训练了一个随机森林,并在测试数据上达到了合理的准确性。所以我有XXXYYY 。P(Y|X)P(Y|X)P(Y|X) 现在,我想找到即给定我期望这么高的利润率的X特征的概率分布。P(X|Y)P(X|Y)P(X|Y)XXX 如何使用随机森林(或任何其他判别模型)来做到这一点? 对我来说,一个建议可能是从生成模型而不是判别模型开始。但是,我的理解是,生成模型通常需要训练大量数据,除非做出一些非常严格的假设,例如在朴素贝叶斯的情况下的条件独立性?XXX 其他建议可能只是切换和Y并训练判别模型。现在X将是利润率,Y将是at衬衫的特征。给定目标利润率,P (Y | X )将直接给我t恤功能的概率分布。但是这种方法对我来说似乎并不正确,因为我一直将X作为偶然变量,而将Y视为有效。XXXYYYXXXYYYP(Y|X)P(Y|X)P(Y|X)XXXYYY 而且,据我所知,对于药物发现也提出了类似的问题,并设计了算法,这些算法提出了具有高度成功性的候选新药物。有人可以指点我研究这一领域的文学吗? 更新: 我也碰到过这个和这个,其被用于药物发现约甘斯举行会谈。生成式对抗网络似乎很适合我的问题陈述,因此我一直在阅读有关它们的信息。但是我了解的一件事是GAN以无监督的方式生成样本。他们试图生成样本,就像首先捕获X的基础分布,然后从该分布进行采样一样。但是我对X | Y感兴趣。X和Y在上面定义。除了GAN,我是否应该探索其他东西?有指针吗? 后续问题: 想象一下,我受过GAN培训,学习了如何制作T恤(输出样本Xs)。在给定的Y下,如何获得前5件衬衫?