是否可以通过随机梯度下降从P(X)的非iid样本和P(Y | X)的iid样本中训练P(Y | X)的模型?
当在某些数据集上通过随机梯度下降训练参数化模型(例如,使似然性最大化)时,通常假设从训练数据分布中抽取训练样本。因此,如果目标是建模联合分布,则应从该分布中得出每个训练样本。P(X,Y)P(X,Y)P(X,Y)(xi,yi)(xi,yi)(x_i,y_i) 如果目标是为条件分布P(Y | X)建模P(Y|X)P(Y|X)P(Y|X),那么iid需求将如何变化(如果有的话)? 我们还必须从联合分布中抽取每个样本(xi,yi)(xi,yi)(x_i,y_i) iid吗? 我们应该从P(X)绘制xixix_i iid ,然后从P(Y | X)绘制y_i iid 吗?P(X)P(X)P(X)yiyiy_iP(Y|X)P(Y|X)P(Y|X) 我们可以从P(X)中得出xixix_i不是iid (例如随时间相关),然后从P(Y | X)中得出y_i iid 吗?P(X)P(X)P(X)yiyiy_iP(Y|X)P(Y|X)P(Y|X) 您能否评论这三种随机梯度下降方法的有效性?(或在必要时帮助我重新说明问题。) 如果可能的话,我想做#3。我的应用程序是强化学习,其中我使用参数化条件模型作为控制策略。状态序列xixix_i是高度相关的,但是从状态为条件的随机策略中,对操作yiyiy_i进行了iid采样。结果样本(xi,yi)(xi,yi)(x_i,y_i)(或它们的子集)用于训练策略。(换句话说,想象在某个环境中长时间运行控制策略,收集状态/动作样本的数据集。然后,即使状态随着时间而相互关联,动作也将根据状态独立地生成。)这是有点类似的情况提出。 我发现了一篇论文,Ryabko,2006年,“ 有条件独立数据的模式识别 ”,乍一看似乎很有意义。然而,那里的情况是从我需要什么,在这里逆转(标签/分类/动作)可以被延伸不IID,和(对象/模式/状态)从绘制IID。yiyiy_iP(Y)P(Y)P(Y)xixix_iP(X|Y)P(X|Y)P(X|Y) 更新: Ryabko论文中提到的两篇论文(此处和此处)似乎与此处相关。他们假设来自任意过程(例如,不是iid,可能是非平稳的)。他们表明,在这种情况下,最近邻估计和核估计是一致的。但是我更感兴趣的是在这种情况下基于随机梯度下降的估计是否有效。xixix_i